J'ai essayé de faire la tâche habituelle de supprimer des données d'un site Web.
Comme j'ai trouvé que les données du site Web sont en fait des requêtes HTTP et que je peux voir le json dans la réponse, je souhaite supprimer les fichiers json directement.
Ensuite, j'ai trouvé ce selenium-wire qui disait "Étend le sélénium pour vous donner le possibilité d'inspecter les demandes effectuées par le navigateur. "
Cela fonctionne comme prévu dans la première page. J'ai le fichier json. Mais chaque fois que je clique sur le lien dans la page Web à l'aide du pilote Web, la connexion est interrompue, en disant ERR_PROXY_CONNECTION_FAILED.
J'ai essayé de revenir au sélénium. Cela fonctionne à nouveau (sans le téléchargement json).
Alors, y a-t-il des problèmes potentiels avec lesquels je peux vérifier? et
Une autre façon d'obtenir le json? (La requête ne semble pas fonctionner car les sites Web doivent se connecter)
3 Réponses :
Le fil de sélénium fonctionne à la fois pour l'authentification proxy et sans elle
avec authentification
options = {
'proxy': {
'http': 'http://host:port',
'https': 'https://host:port',
'no_proxy': 'localhost,127.0.0.1,dev_server:8080',
'custom_authorization': 'Bearer mytoken123' # Custom Proxy-Authorization header value
}
}
driver = webdriver.Firefox(seleniumwire_options=options)
sans authentification
options = {
'proxy': {
'http': 'http://username:password@host:port',
'https': 'https://username:password@host:port',
'no_proxy': 'localhost,127.0.0.1,dev_server:8080'
}
}
driver = webdriver.Firefox(seleniumwire_options=options)
p >
options = {
'connection_timeout': None,
'proxy': {
'http': 'http://username:password@host:port',
'https': 'https://username:password@host:port',
'no_proxy': 'localhost,127.0.0.1,dev_server:8080'
}
}
j'ai ajouté connection_timeout à aucun
Je pense que quelqu'un devrait essayer d'utiliser la base de sélénium
Veuillez ajouter toutes ces explications à la réponse en la modifiant
J'ai découvert que j'obtenais cette erreur si le script terminait l'exécution. J'ai mis time.sleep (1000) à la fin du script. Lorsqu'un script est toujours en cours d'exécution, les clics sur les liens et l'ouverture de nouvelles pages fonctionnent normalement.