bonjour là Je me demandais s'il était possible de se connecter à un hôte HTTP (c'est-à-dire par exemple Google.com) et téléchargez la source de la page Web? P>
Merci d'avance. P>
5 Réponses :
Vous pouvez utiliser Module URLLIB2 .
import urllib2 url = "http://somewhere.com" page = urllib2.urlopen(url) data = page.read() print data
en utilisant urllib2 pour télécharger une page. strong> p> Google bloquera cette demande car elle essaiera de bloquer tous les robots. Ajoutez l'agent utilisateur à la demande. Em> p>
xxx pré> Vous pouvez également utiliser Pycurl STRT> P> blockQuote>
xxx pré> blockquote>
Le module URLLIB2 a été divisé sur plusieurs modules de Python 3 nommé Urllib.Request et Urllib.Error. Donc, avec le code ci-dessus, vous obtiendrez une erreur «sans module urllib2». Pour la réponse mise à jour, voir Stackoverflow.com/ Questions / 2792650 / ...
Voici une autre approche de ce problème à l'aide de la mécanisie. J'ai trouvé cela pour contourner le système de vérification du robot d'un site Web. J'ai commenté le Set_All_Readonly car pour une raison quelconque, il n'a pas été reconnu comme un module en mécanismes. p>