L'analyse HTML est le processus de consommation d'une sérialisation d'un document HTML et de production d'une représentation avec laquelle vous pouvez travailler par programme - par exemple, afin d'en extraire des données. La spécification HTML définit un algorithme standard pour l'analyse HTML, qui est implémenté dans tous les principaux navigateurs.
J'essaye d'analyser la page HTML en utilisant lxml en Python. En HTML, j'ai cette structure: array = []
for title in tree.xpath('//h5/text()'):
data = {
"title" : title,
...
J'ai un problème pour extraire du texte dans la balise html à l'aide de regex. Je veux extraire le texte du code html suivant. TEXTDATA
Le résultat: ...