J'ai été chargé d'automatiser la comparaison des stocks d'un client à partir de plusieurs vitrines Web non liées. Ces vitrines n'offrent pas d'API, alors je suis obligé d'écrire un chenouilleur à Python qui cataloguera et comparera les produits et les prix disponibles entre trois sites Web sur une base hebdomadaire. P>
Devrais-je m'attendre à ce que l'adresse IP de Crawler soit interdite ou que des plaintes juridiques puissent être effectuées contre la source? Il semble assez inoffensif (environ 500 demandes de page HTTP séparées par une seconde par demande, effectuées une fois par semaine), mais c'est un tout nouveau territoire pour moi. P>
3 Réponses :
Ethique: Vous devez vous conformer à Protocole robots.txt pour vous assurer de respecter le site voeux des propriétaires. La bibliothèque standard Python comprend le module RobotParser à cet effet. p>
Notez également que certaines données sont exclusives et sont considérées par leurs propriétaires comme une propriété intellectuelle. Certains sites tels que les sites de change, les moteurs de recherche et les suiveurs boursiers de la bourse ne souhaitent pas que leurs données soient rampées depuis leur activité vendant essentiellement des données mêmes que vous rampez. P>
Cela étant dit, aux États-Unis, vous ne pouvez pas personnifier les données de copyright - à la manière dont vous formatez les données. Donc, selon la loi américaine, il est correct de saisir des données rampées tant que vous ne le stockez pas dans son formatage d'origine (HTML). P>
Mais, dans de nombreux pays européens, des données elles-mêmes peuvent être protégées par le droit d'auteur. Et le Web est une bête globale. Les gens d'Europe peuvent visiter votre site. Ce qui, selon la loi dans certains pays, signifie que vous faites des affaires dans ces pays. Donc, même si vous êtes protégé légalement aux États-Unis, cela ne signifie pas que vous ne serez pas poursuivi avec ailleurs dans le monde. P>
Mon conseil est issu du site et lisez sur la politique d'utilisation. Si le site désactive explicitement explicitement rampant, vous ne devriez pas le faire. Et comme Jim mentionné, respectez les robots.txt. P>
Encore une fois, il y a un grand précédent légal des tribunaux du monde entier qui rend les moteurs de recherche légaux. Et les moteurs de recherche sont eux-mêmes des robinets Web voraces. D'autre part, il ressemble à presque chaque année au moins une agence de presse poursuit ou tente de poursuivre sur Google pour ramper sur le Web. P>
Avec tout ce qui précède à l'esprit, faites très attention à ce que vous faites avec des données rampées. Je dirais que l'utilisation privée est correcte tant que vous ne surchargez pas les serveurs. Je le fais moi-même régulièrement pour obtenir le calendrier de programmation télévisé, etc. P>
Oui, vous devriez (vous attendre à être interdit IP pour gratter pour la syndication non autorisée). De plus, les propriétaires de chantiers plus scrupuleux et les moins créatifs, au lieu de bloquer votre robot, que ce soit pour tenter de l'écraser / confondre en l'envoyant des données mal formées ou de l'envoyer délibérément de fausses données. P>
Si votre modèle d'entreprise est basé sur une gratte à écran non autorisé, cela échouera. P>
Normalement, il se trouve dans les intérêts des propriétaires de Sites de vous permettre de gratter, de sorte que vous puissiez obtenir la permission (ils sont peu susceptibles de faire une API stable pour vous, sauf si vous ne les paie pas beaucoup d'argent pour le faire). p>
S'ils ne vous donnent pas la permission, vous ne devriez probablement pas. P>
quelques conseils: p>
Si vous faites tout cela de bonne foi, de manière transparente, vous devez être bloqué par un humain à moins de décider de ce que vous faites est fondamentalement contre leur modèle d'entreprise. p>
Si vous vous comportez d'une manière sournoise, de manteau et de dague, vous pouvez vous attendre à l'hostilité. P>
+1. J'ai aimé votre réponse. On dirait que quelqu'un essaie de sonder une planète extraterrestre tout en respectant la paix et qui peut suivre votre réponse comme guide! : P