J'essaie de reproduire le code de la réponse choisie de ce message Numéro de raclage de la page avec" Charger plus "avec le" Charger plus "avec Rvest , sur ce site Web https: // www .COINDESK.com / . Cependant, la ligne suivante donne une erreur:
</div>
<div id="load-more-stories">
<button>Load More Stories</button>
</div> </div>
3 Réponses :
Diagnostic: En gros, vous rencontrez dans ce problème car la page ne se redirige pas à une autre page, elle ajoute des liens d'article sur la page. J'ai écrit ceci en utilisant Langue de raclage Web P>
Explication: Cela devrait ployer tous les articles jusqu'à la page goto www.coindesk.com >> Crawl ['# Charger-plus-Stories', 3] .Ream-Article >> Extrait {'Titre': '. Meta H1', "Article": " .Article-content '} code> p>
3 CODE> RD en cliquant sur la page # LOAD-MORE-Stories CODE> ou "Chargez plus d'histoires" sur le lien bas. Il visite ensuite chaque lien avec le sélecteur .stream-article code> et sur la page suivante, il extrait le titre titre code> et article code> à l'aide des sélecteurs respectifs. p>
Avez-vous une idée de l'adaptation à l'aide du forfait Rselenium?
@ user3091668 C'est une bibliothèque agnostique et un service basé sur le cloud qui signifie que vous écrivez WSL et qu'il rampe et racle toutes les données. Il est également facile de lire ce qui signifie que vous pouvez le maintenir sur la route, au lieu de traiter du code réel.
Un HTML Votre sélecteur est donc faux et ne correspond pas. P> ID = code> n'est pas identique à une classe CSS. P>
Vous avez d'abord besoin de Dimiss Bar Bar en cliquant sur le bouton Accepter, puis passez à l'aide de l'ID CODE> Stories Code> comme ID, pas de classe. Je ne peux pas tester en r mais quelque chose comme: Références: strong> P>