0
votes

Supprimer \ N dans le code source HTML après l'ajout à la liste

J'essaie d'implémenter obtenir une demande de site Web, d'obtenir le code HTML et de l'ajouter à une liste. Le problème est qu'il ajoute \ n code> dans des endroits aléatoires et j'ai besoin d'écrire un script pour vous débarrasser de ce problème. J'ai essayé bande () code> et remplacer () code> et tout entre les deux.

Voici mon code: P>

r = requests.get(page)
data = r.text
html = BeautifulSoup(data, "html.parser")

for lin in html.find_all("link", href=True):
    if "css" in lin['href']:
        urls.append(lin['href'])

for url in urls:
    if "http" in url:
        sourcecode.append(data)

python python-requests newline

3 commentaires

Quel était le problème avec "remplacer ()"?

Il n'y a qu'un seul élément de la liste, donc je ne pensais pas que cela fonctionnerait mais j'ai essayé de mot à SourceCode: Word.replace ("\ n"), c'est la seule façon dont je pouvais penser à l'utiliser @michaelbutscher

Avez-vous lu les docs Python sur "str.replace ()"?

3 Réponses :

1
votes

J'espère que cela résoudre votre problème. Je l'ai vérifié sur une page et cela a fonctionné.

r = requests.get(page)
data = r.text
html = BeautifulSoup(data, "html.parser")

for lin in html.find_all("link", href=True):
    if "css" in lin['href']:
        urls.append(lin['href'].replace("\n", ""))

for url in urls:
    if "http" in url:
        sourcecode.append(data)

0 commentaires

0
votes

urls.append(lin['href'].replace("\n",""))

2 commentaires

Tandis que ce code peut résoudre la question, y compris une explication de comment et pourquoi cela résout le Le problème contribuerait vraiment à améliorer la qualité de votre message et entraînera probablement plus de votes ultérieurs. N'oubliez pas que vous répondez à la question des lecteurs à l'avenir, pas seulement la personne qui demande maintenant. Veuillez éditer votre réponse pour ajouter une explication et donner une indication de quelles limitations et hypothèses s'appliquent.

n'a pas fonctionné, ne serait pas logique, \ n n'a rien à voir avec les URL

0
votes

J'ai résolu ce problème en ouvrant le fichier en mode binaire!

f = Ouvrez ("Fichier", "AB +")

0 commentaires