Et si c'est grand ... puis arrêtez-vous le téléchargement? Je ne veux pas télécharger des fichiers de plus de 12 Mo.
request = urllib2.Request(ep_url) request.add_header('User-Agent',random.choice(agents)) thefile = urllib2.urlopen(request).read()
4 Réponses :
Vous pouvez d'abord vérifier la longueur du contenu dans une demande de tête, mais être prévenu, cet en-tête ne doit pas être défini - voir
Comment vérifier la longueur du contenu dans la demande de tête? Est-ce que ceci est considéré comme des en-têtes?
Faire une demande de tête est au mieux théorique si vous souhaitez utiliser Urllib / Urllib2. Ces modules ne supportent que les demandes d'obtention et de poste.
Vous pourriez dire:
u= urlparse.urlparse(ep_url) cn= httplib.HTTPConnection(u.netloc) cn.request('GET', u.path, headers= {'User-Agent': ua}) r= cn.getresponse() try: l= int(r.getheader('Content-Length', '0')) except ValueError: l= 0 if l>maxlength: raise IAmCrossException() thefile= r.read(maxlength+1) if len(thefile)==maxlength+1: raise IAmStillCrossException()
C'est une meilleure solution, car la longueur de contenu n'est pas fiable (quelqu'un peut la définir de manière incorrecte)
Il n'y a pas besoin de Bobince a fait et tomber sur HTTPLIB. Vous pouvez faire tout cela avec Urllib directement:
>>> import urllib2 >>> f = urllib2.urlopen("http://dalkescientific.com") >>> f.headers.items() [('content-length', '7535'), ('accept-ranges', 'bytes'), ('server', 'Apache/2.2.14'), ('last-modified', 'Sun, 09 Mar 2008 00:27:43 GMT'), ('connection', 'close'), ('etag', '"19fa87-1d6f-447f627da7dc0"'), ('date', 'Wed, 28 Oct 2009 19:59:10 GMT'), ('content-type', 'text/html')] >>> f.headers["Content-Length"] '7535' >>>
Cela fonctionnera si l'en-tête de longueur de contenu est défini
import urllib2 req = urllib2.urlopen("http://example.com/file.zip") total_size = int(req.info().getheader('Content-Length'))
vous n'avez pas besoin .strip () code>: 1.
gettheader () code> renvoie déjà la version dénudée 2.
int () code> ne se soucie pas de Espace dirigeant / traînant.
En outre, il n'y a pas de point à utiliser int (info () getheader ()) code> Si vous ne définissez pas la valeur par défaut:
ValueError code> de
int code> est moins approprié que
keerror code> à partir de
req.aders code> (Remarque:
req.info () est req.aders code>)
@Gourneau - Cela fonctionnerait-il toujours si l'URL spécifiée est FTP: // URL?
@Pankajparashar Nope, "Longueur de contenu" est sorti de l'en-tête HTTP, alors fonctionne uniquement avec HTTP. Cela pourrait être ce dont vous avez besoin si vous avez besoin de Stackoverflow.com/a/5241914/56069