Même si j'utilise la rotation du proxy et de l'agent utilisateur avec le chrome Selenium sans tête (et j'ai extrait l'IP via Ceci est la configuration chromée: p> https://free-proxy-list.net/ code> et de Testé il avec https://httpbin.org/ code> qui affiche l'agent IP proxy et l'utilisateur s'attend à ce que je sache que cela est censé fonctionner), je suis toujours obstrué au premier essai avec un Nouvel agent IP et utilisateur de la page principale de Glassdoor " https://www.glassdoor.com/index.htm ".
https://free-proxy-list.net/ Code> ainsi que le sélénium avec le proxy TOR rotatif (donnant les mêmes résultats) LI>
https://developers.whatismybrowser.com/useragents/explore/software_name/chrome/ code> cohérent avec les spécifications du système d'exploitation et du navigateur Docker (x11 et chrome / 6 ou Chrome / 7 donc il n'y a pas de problèmes d'affichage JS) Li>
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--headless")
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument("--disable-translate")
chrome_options.add_argument(f"--proxy-server={ip}")
chrome_options.add_argument(f"user-agent=[{random_user_agent()}]")
3 Réponses :
Je ne pense pas que cela ait quelque chose à voir avec votre adresse IP ou votre agent de navigateur. Vous êtes probablement bloqué car le site tente de bloquer la gratte. Voir p>
J'ai lu la question que vous m'avez adressée à et même s'il est très utile de comprendre les limitations de sélénium, cela n'explique toujours pas pourquoi il ne détecte que lorsque j'utilise un proxy gratuit, que je peux supposer qu'ils bloqueraient par Extraire de la même manière que je l'ai fait, mais en utilisant du torse, il est difficile d'expliquer de la même manière car il n'y a pas de liste d'IP présidée d'Afaik. En outre, pourquoi je ne suis pas bloqué lors de l'utilisation d'un VPN? La réponse devrait être plus autour de la différence entre l'utilisation d'un proxy ou d'une VPN. Je suppose qu'ils laissent des signatures différentes et certains sites Web ne vous permettent pas d'utiliser des proxies, je suppose?
Glassdoor a une API que vous pouvez accéder en tant que partenaire. (Vous devrez les contacter pour avoir accès) Cela devrait vous fournir tout ce dont vous avez besoin sans gratter le site. P>
J'ai pu accéder à cette page avec ce simple script Python.
Peut-être que le site Web aime le navigateur automatisé par sélénium. Peut-être essayez peut-être https://github.com/googlechrome/puppeer ou mon script. Un proxy libre est également de mauvaise qualité, vous pouvez peut-être utiliser un serveur ou un proxy payant. P>
Pour choisir le meilleur agent utilisateur, vous pouvez utiliser cette librairie: https://github.com/lobstrio/shadow-useragent p>
Je suis avec @jeffc sur celui-ci. Je suis mal à l'aise avec la question car il semblerait que vous demandiez des conseils sur la manière de contourner une fonctionnalité de sécurité.
Il existe de nombreuses façons d'empreintes digitales d'un navigateur et de détecter le sélénium ... vous n'avez rayé que la surface avec IP et utilisateur utilisateur. Cependant, vous devriez juste respecter leurs conditions d'utilisation et arrêter de gratter