J'essaie d'apprendre à scraper un site Web et je continue à se heurter à Urllib.Request, ce qui ne fonctionne pas pour moi.
3 Réponses :
Essayez Demandes
import requests
import bs4 as bs
sauce = requests.get('https://www.goat.com/collections/just-dropped').text
soup = bs.BeautifulSoup(sauce, 'lxml')
print(soup)
MODULENOTFOUNDERROR: Aucun module nommé 'Demandes'
Cliquez sur le lien que j'ai laissé dans la solution. Vous devez l'installer
Vous devez définir un en-tête d'agent utilisateur, mais malheureusement, la page est un contenu dynamique et vous devez utiliser SELENIUM
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import chromedriver_binary # Adds chromedriver binary to path
driver = webdriver.Chrome()
driver.get('https://www.goat.com/collections/just-dropped')
# wait until the product rendered
products = WebDriverWait(driver, 15).until(
lambda d: d.find_element_by_css_selector('.goat-clean-product-template ')
)
for p in products:
name = p.get_attribute('title')
url = p.get_attribute('href')
print('%s: %s' % (name, url))
Comme indiqué précédemment, vous pouvez utiliser le Demandes CODE> Library vraiment vraiment Pour chercher un contenu de page.
Tout d'abord, vous devez installer alors il est votre code pour obtenir des données: p> requêtes code> et bs4 code> via pip code>. Cela résoudra le modulenotfounderror code> que vous obtenez. P>
tu es un joli être humain merci
@Tudorpopica, content que cela vous ait aidé.