7
votes

Est-ce que des chenilles Web ouverts, simplement extensibles n'existent-t-il?

Je recherche une solution de chenilles Web qui peut être suffisamment mature et peut être simplement étendue. Je suis intéressé par les fonctionnalités suivantes ... ou possibilité d'étendre le robot pour les rencontrer:

  • partiellement simplement pour lire les flux de plusieurs sites
  • Pour gratter le contenu de ces sites
  • Si le site a une archive, je voudrais ramper et l'indexer aussi bien
  • Le robotler doit être capable d'explorer une partie du Web pour moi et devrait pouvoir décider quels sites correspondent aux critères données
  • devrait être capable de me prévenir, si les choses correspondant éventuellement à mon intérêt ont été trouvées
  • Le robot ne doit pas tuer les serveurs en l'attaquant par trop de demandes, il devrait être intelligent faire rampant
  • le robotler doit être robuste contre des sites et des serveurs de monstres

    Ces choses ci-dessus peuvent être faites une à une seule sans aucun effort important, mais je suis intéressé par une solution qui fournit un chenleur personnalisable et extensible. J'ai entendu parler de Apache Nutch, mais très incertain du projet jusqu'à présent. Avez-vous des expériences avec ça? Pouvez-vous recommander des alternatives?


0 commentaires

4 Réponses :


2
votes

J'apprécie de tout cœur Heritrix . C'est très flexible et je discuterais est la plus grande bataille testée librement disponible sur chenille open source, car c'est celui des utilisations des archives Internet.


0 commentaires

2
votes

Vous devriez pouvoir trouver quelque chose qui convient à vos besoins Voici .


2 commentaires

Ces choses ne sont-elles créées que dans Java?


L'article est intitulé "Open Source Web Crawlers écrit en Java". Cependant, vous pouvez trouver des robinets Web créés dans d'autres langues susceptibles de vous fournir ce dont vous avez besoin.



2
votes

Une recherche rapide sur Github a lancé anémone , un cadre d'araigneur Web qui semble correspondre à vos exigences - en particulier extensiblilité. Écrit en rubis.
J'espère que ça va bien!


1 commentaires

Semble être une bonne chose, j'aime bien c'est Ruby, que j'aime, l'auteur a créé une belle DSL pour les robots. Mais comparé à Nutch, je ne vois toujours pas le soutien des flux RSS et des choses comme PDF rampant. Mais il est extensible. Merci d'avoir partagé la référence à Anemone.



4
votes

J'ai largement utilisé Nutch, lorsque je construisais l'indice de projet open source pour mon démarrage de Krugle. Il est difficile de personnaliser, d'être un design assez monolithique. Il existe une architecture de plug-in, mais l'interaction entre les plug-ins et le système est délicate et fragile.

À la suite de cette expérience, et a besoin de quelque chose avec plus de flexibilité, j'ai commencé le projet Bixo - une boîte à outils d'exploitation Web. http://openbixo.org .

Que ce soit juste pour vous dépend de la pondération des facteurs tels que:

  1. Quelle flexibilité dont vous avez besoin (+)
  2. Quelle est mature cela devrait être (-)
  3. si vous avez besoin de la capacité d'échelle (+)
  4. Si vous êtes à l'aise avec Java / Hadoop (+)

0 commentaires