10
votes

Python HTTP Télécharger la page Source

bonjour là Je me demandais s'il était possible de se connecter à un hôte HTTP (c'est-à-dire par exemple Google.com) et téléchargez la source de la page Web?

Merci d'avance.

python http

0 commentaires

5 Réponses :

7
votes

Vous pouvez utiliser Module URLLIB2 .

import urllib2
url = "http://somewhere.com"
page = urllib2.urlopen(url)
data = page.read()
print data

0 commentaires

2
votes

La documentation de httplib (bas niveau) et urllib (haut niveau) devrait vous faire démarrer. Choisissez celui qui vous convient le mieux.

0 commentaires

13
votes

en utilisant urllib2 pour télécharger une page.
Google bloquera cette demande car elle essaiera de bloquer tous les robots. Ajoutez l'agent utilisateur à la demande. xxx

Vous pouvez également utiliser Pycurl xxx

1 commentaires

Le module URLLIB2 a été divisé sur plusieurs modules de Python 3 nommé Urllib.Request et Urllib.Error. Donc, avec le code ci-dessus, vous obtiendrez une erreur «sans module urllib2». Pour la réponse mise à jour, voir Stackoverflow.com/ Questions / 2792650 / ...

0
votes

Voici une autre approche de ce problème à l'aide de la mécanisie. J'ai trouvé cela pour contourner le système de vérification du robot d'un site Web. J'ai commenté le Set_All_Readonly car pour une raison quelconque, il n'a pas été reconnu comme un module en mécanismes. xxx

0 commentaires

1
votes

en utilisant Demandes Package: xxx pré>
ou avec le URLLIB P>
from urllib.request import urlopen #url url = 'https://www.google.com/' # Create the binary string html containing the HTML source html = urlopen(url).read()

0 commentaires

Articles qui pourrait vous intéresser :
Python: ConnectionError: HTTPSConnectionPool (hôte = 'api.foursquare-com', port = 443)
L'exécution de Flask sous Windows n'exécute pas la commande d'exécution de flask
Chatbot installé mais obtention d'une erreur lors de l'importation de ChatBot
Administrateur Django: __str__ a renvoyé une non-chaîne (type int)