0
votes

Comment extraire seulement du texte à l'aide de magnifiquesSoup?

J'ai ce code HTML et j'essaie d'extraire uniquement le contenu tel que "0004", "20,950 $", "300 950 $ ', etc.

gettext = soup_level2.find('ul', {'class' : "plan-info-lst"}).get_text()

python html web-scraping beautifulsoup

0 commentaires

4 Réponses :

0
votes

ressemble à un emploi pour Expressions régulières ! Vous pouvez l'utiliser pour correspondre aux modèles de votre chaîne. Dans votre cas, toutes vos données se produisent juste après une balise span> code> suivie d'une nouvelle ligne et d'une indentation. Donc, si nous correspondons à ce motif, comme:

import re
your_data=[] # Initialize the list so we can access it outside scope of with
with open('your_file.html','r') as f:
    your_code = f.read()
    your_data = re.findall('</span>\n +(.+)',your_code)

print(your_data)

0 commentaires

0
votes

C'est un peu inélégant, mais peut être fait sans regex (qui n'est pas recommandé pour HTML):

d'abord Ajouter: P>

0004
March 2020
$300,950
2161 sq.ft.
2
3
2.5
2

0 commentaires

0
votes

Merci pour toute votre aide !! J'ai trouvé une solution très simple et facile: xxx

0 commentaires

1
votes

Une autre solution.

0004
March 2020
$300,950
2161 sq.ft.
2
3
2.5
2

0 commentaires