8
votes

Comment ramper entières Wikipedia?

J'ai essayé l'application WebPhinx.

Je me rends compte si je mets wikipedia.org comme l'URL de départ, cela ne rampera pas plus loin.

Par conséquent, comment effrayer réellement la wikipedia entière? Quelqu'un peut-il giller des lignes directrices? Dois-je utiliser spécifiquement ces URL et mettre plusieurs URL de départ?

Quelqu'un a des suggestions de bon site Web avec le tutoriel sur l'API de USGNG WebSphinx?


0 commentaires

6 Réponses :


47
votes

Si votre objectif est de ramper toute la Wikipedia, vous voudrez peut-être examiner les vidages de base de données disponibles. Voir http://download.wikimedia.org/ .


3 commentaires

+1. Crawling Wikipedia via HTTP est impoli et met beaucoup de charge supplémentaire sur les serveurs.


@Greghewgill, c'est une énoncé assez assujetti. Cela dépend vraiment de la rapidité avec laquelle vous rampez le site, que vous respectiez les directives Robots.txt et ce que vous envisagez «beaucoup de charge supplémentaire». Selon Wikipedia "Des robots à basse vitesse conviviaux sont accueillis des pages d'article, mais pas des pages générées dynamiquement." - EN.Wikipedia.org/robots.txt Les crawlers ne sont généralement pas conçus pour analyser Wikipedia- Documents XML spécifiques remplis de marquage Wiki, créant ainsi un système séparé pour analyser les décharges XML datées uniquement pour Wikipedia.com, semble stupide.


Je ne comprends pas: si des rampants amicaux sont autorisés, pourquoi interdisent-ils un tel certain nombre de robots de robots à robots.txt?



0
votes

Vous devez probablement commencer par un article aléatoire, puis ramper tous les articles que vous pouvez obtenir à partir de celui-ci. Lorsque cet arbre de recherche a été épuisé, commencez par un nouvel article aléatoire. Vous pouvez semer vos recherches avec des termes que vous jugez mènera au plus d'articles ou commenceront par l'article présenté sur la page d'accueil.

Une autre question: Pourquoi WebPhinx n'a-t-il pas rampée plus loin? Wikipedia bloque des robots qui s'identifient comme «Webphinx»?


0 commentaires

4
votes

Je ne suis pas sûr, mais peut-être que WebSPhinx's userAgent est bloqué par les robots.txt de Wikipedia

http://fr.wikipedia.org/robots.txt


0 commentaires

0
votes

En plus de l'utilisation du Dump de la base de données Wikipedia mentionné ci-dessus, vous pouvez utiliser l'API de Wikipedia pour exécuter des requêtes, telles que la récupération de 100 articles aléatoires.

http://www.mediawiki.org/wiki/api : Query _- listes # aléatoire .2f_rn


0 commentaires

2
votes

Je pense que vous ne pouviez pas choisir la configuration requise pour cela. Passez à avancé, affamer le sous-domaine, illimit la taille et l'heure de la page.

Cependant, Webphinx ne peut probablement pas ramper l'ensemble de l'ensemble wikipedia , il ralentit avec de plus grandes données et finalement s'arrête près de 200 Mo de mémoire. Je vous recommande nutch , Heritrix et Crawler4j .


0 commentaires

-1
votes

Jetez un coup d'œil à dbpedia , une version structurée de Wikipedia.


0 commentaires