10
votes

Python HTTP Télécharger la page Source

bonjour là Je me demandais s'il était possible de se connecter à un hôte HTTP (c'est-à-dire par exemple Google.com) et téléchargez la source de la page Web?

Merci d'avance.


0 commentaires

5 Réponses :


7
votes

Vous pouvez utiliser Module URLLIB2 .

import urllib2
url = "http://somewhere.com"
page = urllib2.urlopen(url)
data = page.read()
print data


0 commentaires

2
votes

La documentation de httplib (bas niveau) et urllib (haut niveau) devrait vous faire démarrer. Choisissez celui qui vous convient le mieux.


0 commentaires

13
votes

en utilisant urllib2 pour télécharger une page.

Google bloquera cette demande car elle essaiera de bloquer tous les robots. Ajoutez l'agent utilisateur à la demande. xxx

Vous pouvez également utiliser Pycurl xxx


1 commentaires

Le module URLLIB2 a été divisé sur plusieurs modules de Python 3 nommé Urllib.Request et Urllib.Error. Donc, avec le code ci-dessus, vous obtiendrez une erreur «sans module urllib2». Pour la réponse mise à jour, voir Stackoverflow.com/ Questions / 2792650 / ...



0
votes

Voici une autre approche de ce problème à l'aide de la mécanisie. J'ai trouvé cela pour contourner le système de vérification du robot d'un site Web. J'ai commenté le Set_All_Readonly car pour une raison quelconque, il n'a pas été reconnu comme un module en mécanismes. xxx


0 commentaires

1
votes

en utilisant Demandes Package: xxx pré>

ou avec le URLLIB P>

from urllib.request import urlopen

#url
url = 'https://www.google.com/'

# Create the binary string html containing the HTML source
html = urlopen(url).read()


0 commentaires