7
votes

Les "utilisateurs" envoient des demandes d'accès à un site Web, lorsque la poste est attendue

Je continue à voir un comportement étrange dans nos journaux, où les URL qui devraient normalement être accessibles que via une demande postale sont appelées via GET. Les URL incluent des celles qui ne sont jamais construites via JavaScript, vous ne vous attendriez donc pas à ce que une araignée régulière les traverse. Si je cherche à nos journaux pour une adresse IP que ces demandes proviennent, il semble que cet utilisateur ne nous a jamais envoyé obtenir des demandes.

Cela ne semble pas être un comportement typique de bot - les demandes sont étendues, plutôt que de spammer notre serveur avec une bande de demandes dans un court délai. Les agents utilisateur sont tous des navigateurs réguliers. Cependant - et c'est légèrement spéculatif - cela ne ressemble pas vraiment à ce qu'il s'agisse d'une navigation humaine sur le site, car ils semblent sauter partout à la place plutôt que de suivre un lien vers le prochain.

Quelqu'un d'autre est-il de voir ce genre de comportement sur leur site? Toute suggestion qui le cause?


0 commentaires

3 Réponses :


4
votes

Juste une supposition sauvage:

  • Il y a quelque chose appelé "Accélérateur Web", un plug-in navigateur qui pré-récupère des liens, de sorte que lorsque vous avez décidé de cliquer sur un, c'était déjà mis en cache. Cela ne devrait pas mettre en cache des choses qui ressemblent à des requêtes, mais certaines détectent peut-être que vos URL sont appropriées pour la préfecture. Comme il fonctionne dans le navigateur, il appartient à tout le moins toutes les URL que JavaScript ajoutait au document (au moyen de documents.Write ou de DOM Accès).

  • Un "accélérateur Web" peut également être mis en œuvre dans le cadre du proxy Web. Cela semble moins probable, car il devrait interpréter le JavaScript, mais si les URL apparaissent dans le JavaScript en totalité, cela pourrait simplement être grepping n'importe quel texte pour tout ce qui ressemble à une URL et peut les trouver.

    Cela expliquerait pourquoi les demandes sont étalées (de telles demandes incendieraient quelques demandes chaque fois qu'un véritable utilisateur visite le site), pourquoi les chaînes d'agent utilisateur correspondent au navigateur réel (s'il s'agit du plugin de navigateur, il utilise son utilisateur String d'agent) et pourquoi ils sautent partout (ils essaient simultanément de préfécher plusieurs liens et probablement les heuristiques qui cèdent ceux qu'il devrait ne pas fonctionner bien avec votre site).


1 commentaires

Oui, je me suis demandé si cela était dû à un accélérateur Web, mais cela semblait improbable. Par exemple, une partie du code JS associé est le long des lignes de $ .post (window.location.href + '/ statistiques », {FOO: bar}) - il n'est donc jamais inséré dans la page, et la seule façon d'accélérateur Web Je verrais que c'est s'il cherchait dans l'histoire du navigateur et ressusciterait la recherche de vieilles demandes. Bizarre.



7
votes

Je gratte souvent des sites Web pour plus d'informations, et quand je suis vraiment paresseux, je soumets tout comme un obtenir au lieu d'utiliser post ... plusieurs fois, CGIS qui nécessitent un post acceptera un obtenir . Je fixe mon script pour utiliser un fichier aléatoire à partir d'une liste: Safari sur iPad, Firefox sur XP ou Internet Exploder sur Vista.

Qui sait, il me peut peut-être gratter votre site et obtenir les points de réponse; -).


0 commentaires

9
votes

Ce peut être quelqu'un de pêcher des exploits sur votre site. Ils analyseraient vos formulaires puis créeraient leurs propres URL à la recherche de faiblesses ou de façons non conventionnelles d'utiliser le service. Si c'est généralement la même adresse IP, vous pourriez probablement supposer que c'est le cas.

Un exemple peut être un fournisseur de médias en streaming et que quelqu'un essaie de traverser les URL source pour un script de téléchargement vidéo. Souvent, il s'agit simplement de spammeurs cherchant à relâcher vos formulaires de contact.

Ne présumez pas trop d'adresses IP et d'agents utilisateur. Le premier peut être proxé (à travers des réseaux tels que TOR) et le plus tard peut être changé à volonté. Juste parce que les IPS et les agents utilisateur changent ne signifie pas que ce n'est pas le même utilisateur générant les demandes.


0 commentaires