9
votes

Python - Obtenir toutes les images d'un fichier HTML

Quelqu'un peut-il m'aider à analyser un fichier HTML pour obtenir les liens pour toutes les images du fichier dans Python?

de préférence avec un module 3ème partie ...

Merci!


0 commentaires

3 Réponses :


11
votes

Vous pouvez utiliser belle soupe . Je sais que vous avez dit sans un module 3ème partie. Cependant, il s'agit d'un outil idéal pour analyser HTML. xxx


2 commentaires

D'ACCORD. On dirait que cela l'aidera beaucoup donc je vais vérifier. Merci!


Je pense que Russell a manqué beauxoup (page)



10
votes

Utilisation de PSL

from html.parser import HTMLParser
class MyParse(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag=="img":
            print(dict(attrs)["src"])

h=MyParse()
page=open("index.html").read()
h.feed(page)


2 commentaires

Vous pouvez augmenter cela avec Urllib pour ouvrir une page Web et télécharger les images.


Pour moi, cela ne fonctionne qu'avec "à partir de HTMLParser Import HTMLParser"



2
votes

Il est généralement accepté que LXML soit plus rapide que la belle soupe (REF) . Son didacticiel peut être trouvé ici: (link) Vous pouvez également jeter un coup d'œil sur Ce vieux Post Stackoverflow .


0 commentaires