Quelqu'un peut-il m'aider à analyser un fichier HTML pour obtenir les liens pour toutes les images du fichier dans Python? P>
de préférence avec un module 3ème partie ... P>
Merci! P>
3 Réponses :
Vous pouvez utiliser belle soupe . Je sais que vous avez dit sans em> un module 3ème partie. Cependant, il s'agit d'un outil idéal pour analyser HTML.
D'ACCORD. On dirait que cela l'aidera beaucoup donc je vais vérifier. Merci!
Je pense que Russell a manqué beauxoup (page) code>
Utilisation de PSL
from html.parser import HTMLParser
class MyParse(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag=="img":
print(dict(attrs)["src"])
h=MyParse()
page=open("index.html").read()
h.feed(page)
Vous pouvez augmenter cela avec Urllib pour ouvrir une page Web et télécharger les images.
Pour moi, cela ne fonctionne qu'avec "à partir de HTMLParser Import HTMLParser"
Il est généralement accepté que LXML soit plus rapide que la belle soupe (REF) . Son didacticiel peut être trouvé ici: (link) Vous pouvez également jeter un coup d'œil sur Ce vieux Post Stackoverflow . P>