9
votes

Y a-t-il un moyen de bloquer Curl pour récupérer des données sur mon site?

Je peux utiliser actuellement ce code pour bloquer wget et libwww xxx

y a-t-il pour curl?


2 commentaires

Cela ne les bloque que jusqu'à ce que l'utilisateur soupire et remplace la chaîne d'agent utilisateur. Ni Wget Not Lwp (et oui, il est lwp non libwww) sont "mauvais", les deux outils se comportent bien que respectent les robots.txt en mode miroir.


@Quentin comment puis-je les bloquer alors?


5 Réponses :


19
votes

Oui, je suis sûr que CURL a un agent utilisateur par défaut, mais c'est évidemment quelque chose qui peut être modifié aussi facilement que -h 'utilisateur-agent = caca'

En fait, je pense qu'il y a un commutateur spécifiquement pour définir l'agent utilisateur. -A


0 commentaires

3
votes

Les agents utilisateur CURL peuvent être modifiés à tout moment. La raison pour laquelle la courbe existe est que vous pouvez changer à peu près tout sur votre requête.

Vous pouvez les bloquer, mais une fois qu'ils changent d'agent d'utilisation, ils auront accès à nouveau. P>

Je vous recommande de bloquer le Adresse IP à la place ou au sous-réseau entier Juste pour être sûr. P>

Exemple: P>

deny from aa.bb.cc.dd  ff.gg.hh.0/24


0 commentaires

1
votes

Vous pouvez vérifier la langue préférée, la version http, le domaine distant et telles choses.


0 commentaires

0
votes

Même si vous l'arrêtez pendant un moment, un attaquant viendra ici sur ce site béni et obtiendra une douzaine de réponses comment briser votre défense.

Alors, je déteste ça, mais il n'y a aucun moyen de bloquer.
Vous pouvez interdire d'une adresse IP éventuellement, vous pouvez placer du cheyypôte pour repérer des robots, mais tout est cassable.
Donc, vous feriez mieux de vous soucier des données mais de votre soin du service.
Tant que votre service étant le meilleur, votre site sera le premier. Et aucun grattage ne les aidera à faire de bons-nœuds qui souhaitent se nourrir de la main-d'œuvre des autres.


0 commentaires

0
votes

Ajouter un CAPTCHA S'il y a deux nombreuses demandes d'une seule adresse IP?


3 commentaires

Oh Allez, prenez l'exemple de Google. Et commentaire lorsque vous votez pour décrire la raison de cela.


+1 J'aime l'idée CAPTCHA - mais ma question concerne CURL Comment pouvez-vous mettre un CAPTCHA sur une demande de courbure?


@ERIC, je suppose que c'est une solution probablement une meilleure solution, car elle arrêtera tout client (y compris CURL) d'abuser de votre site Web (ou de racler le contenu de votre site Web). Vous ne pouvez pas simplement la baser sur l'utilisateur utilisateur malheureusement car il est plutôt facile de modifier l'agent utilisateur. Google utilise la même technique avec le CAPTCHA si vous essayez d'obtenir trop de résultats de recherche. Donc, même avec CURL, lorsque le CAPTCHA est activé pour cette adresse IP, CURL téléchargera uniquement le HTML contenant l'image CAPTCHA.