J'essaie d'apprendre à scraper un site Web et je continue à se heurter à Urllib.Request, ce qui ne fonctionne pas pour moi.
3 Réponses :
Essayez Demandes
import requests import bs4 as bs sauce = requests.get('https://www.goat.com/collections/just-dropped').text soup = bs.BeautifulSoup(sauce, 'lxml') print(soup)
MODULENOTFOUNDERROR: Aucun module nommé 'Demandes'
Cliquez sur le lien que j'ai laissé dans la solution. Vous devez l'installer
Vous devez définir un en-tête d'agent utilisateur, mais malheureusement, la page est un contenu dynamique et vous devez utiliser SELENIUM
from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait import chromedriver_binary # Adds chromedriver binary to path driver = webdriver.Chrome() driver.get('https://www.goat.com/collections/just-dropped') # wait until the product rendered products = WebDriverWait(driver, 15).until( lambda d: d.find_element_by_css_selector('.goat-clean-product-template ') ) for p in products: name = p.get_attribute('title') url = p.get_attribute('href') print('%s: %s' % (name, url))
Comme indiqué précédemment, vous pouvez utiliser le Demandes CODE>
Library vraiment vraiment Pour chercher un contenu de page.
Tout d'abord, vous devez installer alors il est votre code pour obtenir des données: p> requêtes code> et
bs4 code> via
pip code>. Cela résoudra le
modulenotfounderror code> que vous obtenez. P>
tu es un joli être humain merci
@Tudorpopica, content que cela vous ait aidé.