J'ai ce code HTML et j'essaie d'extraire uniquement le contenu tel que "0004", "20,950 $", "300 950 $ ', etc.
gettext = soup_level2.find('ul', {'class' : "plan-info-lst"}).get_text()
4 Réponses :
ressemble à un emploi pour Expressions régulières ! Vous pouvez l'utiliser pour correspondre aux modèles de votre chaîne. Dans votre cas, toutes vos données se produisent juste après une balise span> code> suivie d'une nouvelle ligne et d'une indentation. Donc, si nous correspondons à ce motif, comme:
import re
your_data=[] # Initialize the list so we can access it outside scope of with
with open('your_file.html','r') as f:
your_code = f.read()
your_data = re.findall('</span>\n +(.+)',your_code)
print(your_data)
C'est un peu inélégant, mais peut être fait sans regex (qui n'est pas recommandé pour HTML):
d'abord Ajouter: P>
0004 March 2020 $300,950 2161 sq.ft. 2 3 2.5 2
Merci pour toute votre aide !! J'ai trouvé une solution très simple et facile:
Une autre solution.
0004 March 2020 $300,950 2161 sq.ft. 2 3 2.5 2