10
votes

Quelles sont les demandes / deuxième standard pour racler des sites Web?

C'était la question la plus proche de ma question et il n'a pas été vraiment répondu très bien imo:

étiquette de raclage Web

Je cherche la réponse à # 1:

Combien de demandes / seconde devriez-vous faire pour gratter?

En ce moment, je tire d'une file d'attente de liens. Chaque site qui est gratté a son propre fil et dort pendant 1 seconde entre les demandes. Je demande une compression gzip pour sauver la bande passante.

Y a-t-il des normes pour cela? Sûrement tous les gros moteurs de recherche ont un ensemble de directives qu'ils suivent en ce qui concerne cela.


0 commentaires

3 Réponses :


4
votes

Il n'y a pas de norme définie pour cela, cela dépend de la quantité de causes de raclage Web. Tant que vous ne courez pas sensiblement la vitesse du site pour les autres utilisateurs, il devrait s'agir d'une vitesse de raclage acceptable.

Étant donné que la quantité d'utilisateurs et de charge sur un site Web fluctue constamment, ce serait une bonne idée d'ajuster dynamiquement votre vitesse de raclage.

Surveillez la latence du téléchargement de chaque page, et si la latence commence à augmenter, commencez à diminuer votre vitesse de raclage. Essentiellement, la charge / la latence du site Web doit être inversement proportionnelle à votre vitesse de raclage.


0 commentaires

1
votes

Quand mes clients / patron me demandent de faire quelque chose comme ça, je cherche habituellement une API publique avant de recourir à la gratte du site public. En plus de contacter le propriétaire du site ou le contact technique et demander la permission de le faire gardera au minimum les lettres "cesser et désister".


2 commentaires

Supposons qu'aucune API n'existe et suppose que le propriétaire ne répond pas


Dans ce scénario, je ferais le script qui fait la gratte imiter un utilisateur. Par exemple, un utilisateur ne ferait généralement pas de 20 pages en 3 secondes de moins de 3 secondes. Typiquement, dans mes utilisations, je resterais autour de 1 demande par site par 3 secondes.



9
votes

Le Article Wikipedia sur Web Crawling a quelques informations sur ce que font les autres: < / p>

CHO [22] utilise 10 secondes en tant que intervalle d'accès et le fil Crawler [28] utilise 15 secondes comme le défaut. Le robot MercatorWeb suit une politique de politesse adaptative: S'il a fallu t quelques secondes pour télécharger un document d'un serveur donné, le Crawler attend pendant 10 tonnes secondes avant Téléchargement de la page suivante. [29] aneth et al. [30] Utilisez 1 seconde.

J'essaye généralement 5 secondes avec un peu de hasard, de sorte qu'il semble moins méfiant.


0 commentaires