Je recherche une solution de chenilles Web qui peut être suffisamment mature et peut être simplement étendue. Je suis intéressé par les fonctionnalités suivantes ... ou possibilité d'étendre le robot pour les rencontrer: P>
Ces choses ci-dessus peuvent être faites une à une seule sans aucun effort important, mais je suis intéressé par une solution qui fournit un chenleur personnalisable et extensible. J'ai entendu parler de Apache Nutch, mais très incertain du projet jusqu'à présent. Avez-vous des expériences avec ça? Pouvez-vous recommander des alternatives? P>
4 Réponses :
J'apprécie de tout cœur Heritrix . C'est très flexible et je discuterais est la plus grande bataille testée librement disponible sur chenille open source, car c'est celui des utilisations des archives Internet. P>
Vous devriez pouvoir trouver quelque chose qui convient à vos besoins Voici . P>
Ces choses ne sont-elles créées que dans Java?
L'article est intitulé "Open Source Web Crawlers écrit en Java". Cependant, vous pouvez trouver des robinets Web créés dans d'autres langues susceptibles de vous fournir ce dont vous avez besoin.
Une recherche rapide sur Github a lancé anémone , un cadre d'araigneur Web qui semble correspondre à vos exigences - en particulier extensiblilité. Écrit en rubis.
J'espère que ça va bien! P>
Semble être une bonne chose, j'aime bien c'est Ruby, que j'aime, l'auteur a créé une belle DSL pour les robots. Mais comparé à Nutch, je ne vois toujours pas le soutien des flux RSS et des choses comme PDF rampant. Mais il est extensible. Merci d'avoir partagé la référence à Anemone.
J'ai largement utilisé Nutch, lorsque je construisais l'indice de projet open source pour mon démarrage de Krugle. Il est difficile de personnaliser, d'être un design assez monolithique. Il existe une architecture de plug-in, mais l'interaction entre les plug-ins et le système est délicate et fragile. P>
À la suite de cette expérience, et a besoin de quelque chose avec plus de flexibilité, j'ai commencé le projet Bixo - une boîte à outils d'exploitation Web. http://openbixo.org . P>
Que ce soit juste pour vous dépend de la pondération des facteurs tels que: p>