10
votes

Comment permettre aux rampants d'accéder à index.php uniquement, à l'aide de robots.txt?

Si je veux permettre uniquement aux robots d'accéder à index.php, cela fonctionnera-t-il? XXX


1 commentaires

Je suis curieux de savoir pourquoi vous voudriez faire cela ... ne voudriez-vous pas que les robots de crawlers indexent beaucoup plus de votre site?


5 Réponses :


2
votes

Vous pouvez utiliser outil de robots Google à consulter. Je ne mettrais jamais des annuaires secrets dans le dossier des robots car je devinerais qu'une ligne comme ci-dessous serait comme miel pour certaines araignées.

Disallow: /secret


0 commentaires

3
votes

Essayez d'échanger l'ordre de reflux / Autoriser: XXX

Voir cette info de Wikipedia:

"Pourtant, afin d'être compatible avec tous robots, si vous voulez autoriser un seul fichiers à l'intérieur d'une autrement interdit Répertoire, vous devez placer la autorisation Directive (s) d'abord, suivie de la Interdire, par exemple: "

http://fr.wikipedia.org/wiki/robots.txt

Je ne m'attendrais toujours pas à ce qu'elle fonctionne trop toujours


0 commentaires

20
votes

Oui, ça fonctionnera. Voici le résultat du test du outil Google Webmaster .

User-agent: *
Disallow: /
Allow: /index.php
Allow: /$


2 commentaires

Pourriez-vous expliquer pourquoi les œuvres / $, ou ce que cela fait?


Explication pour / $ peut être trouvé ici



3
votes
User-agent: *

Allow: /index.php
Disallow: /

0 commentaires

2
votes
User-agent: *
Allow: /$
Allow: /index.php
Allow: /sitemap.xml
Allow: /robots.txt
Disallow: /

Sitemap: http://www.your-site-name.com/sitemap.xml

2 commentaires

Pourriez-vous expliquer votre réponse un peu?


$ signifie "extrémité de la ligne", il correspond donc whaoddoma.in - sans aucun autre caractère d'URL