7
votes

bloquer les robots Google pour les URL contenant un certain mot

Mon client a une charge de pages qu'ils ne veulent pas indexées par Google - elles sont toutes appelées xxx

afin qu'ils soient / page-123 ou ou > / Page-2 ou / page-25 etc

existe un moyen d'arrêter Google Indexing toute page qui commence par / page-xxx à l'aide de robots.txt

serait quelque chose d'ike ce travail? xxx

merci

robots.txt

1 commentaires

J'ai donc découvert que ce qui précède ne fonctionne pas, des suggestions quiconque?

3 Réponses :

0
votes

Vous pouvez mettre toutes les pages que vous ne voulez pas être visitées dans un dossier, puis utiliser Interdit pour dire aux bots de ne pas visiter les pages dans ce dossier.
interdit: / privé /
Je ne sais pas beaucoup sur robots.txt, donc je ne sais pas comment utiliser des caractères génériques comme ça Ici, il est indiqué "Vous ne pouvez pas utiliser de modèles de caractères génériques ni d'expressions régulières dans l'agent utilisateur ni à des lignes d'intervention." http://www.robottxt.org/faq/robottxt.html

1 commentaires

Malheureusement, cela impliquerait de déplacer manuellement environ 1000 fichiers!

1
votes

On dirait que le * fonctionnera comme une carte sauvage Google, votre réponse gardera Google de ramper, mais les jokers ne sont pas pris en charge par d'autres araignées. Vous pouvez effectuer une recherche google pour wildcards robot.txt pour plus d'informations. Je verrais http://seogadget.co.uk/wildcards-in-robots-txt / pour plus d'informations.
Je tiré de cette documentation de Google:

correspondance de motifs
Googlebot (mais pas tous les moteurs de recherche) respecte une correspondance de motif.
Pour correspondre à une séquence de caractères, utilisez un astérisque (*). Par exemple, pour bloquer l'accès à tous les sous-répertoires> commençant par: privé
User-agent: Googlebot Disallow: / privé * /
Pour bloquer l'accès à toutes les URL qui incluent un point d'interrogation (plus précisément, toute URL qui commence par votre nom de domaine, suivi par une chaîne, suivie d'un point d'interrogation, suivie d'une chaîne) (?):
User-agent: Googlebot Disallow: / *
Pour spécifier correspondant à la fin d'une URL, utilisez $. Par exemple, pour bloquer toutes les URL qui se terminent par .xls:
User-agent: Googlebot Disallow:. / * .Xls $
Vous pouvez utiliser cette correspondance de motif en combinaison avec la directive allow. Par exemple, si un? indique un ID de session, vous pouvez exclure toutes les URL qui les contiennent pour assurer Googlebot n'analyse pas les pages en double. Mais les URL qui se terminent par un? peut-être la version de la page que vous ne voulez inclure. Pour cette situation, vous pouvez configurer votre fichier robots.txt comme suit:
User-agent: * Autoriser: / $ Disallow: /
Le Disallow: / *? directive bloque toute URL contenant un point (Plus précisément, il bloque toute URL qui commence par votre nom de domaine, suivi par une chaîne, suivie d'un point d'interrogation, suivie d'une chaîne).
Autoriser: / * directive $ permettra une URL qui se termine par un? (Plus précisément, il permettra une URL qui commence par votre nom de domaine, suivi d'une chaîne, suivi d'un?, Sans caractères après le?).
Enregistrez votre fichier robots.txt en téléchargeant le fichier ou la copie du contenu dans un fichier texte et l'enregistrement en tant que robots.txt. Enregistrez le fichier dans le répertoire plus haut niveau de votre site. Le fichier robots.txt doit se trouver à la racine du domaine et doit être nommé « robots.txt ». Un fichier robots.txt situé dans un sous-répertoire est pas valide, car les robots vérifient uniquement pour ce fichier à la racine du domaine. Par exemple, http://www.example.com/robots.txt est un emplacement valide, mais http://www.example.com/mysite/robots.txt n'est pas.
Remarque: D'après ce que je lis ceci est un Google seule approche. Officiellement, il n'y a pas Wildcard autorisé dans robots.txt pour disallow.

5 commentaires

J'ai vérifié ça - ne semble pas fonctionner. vérifié avec Ce - et n'était pas autorisé à Ajoutez-le dans Googles Robots.txt Builder

Cela ne fonctionne pas que vous avez l'option de bloquer un répertoire (si tous sont là-bas) ou d'essayer d'ajouter du contenu méta-contenu / liaison de manière dynamique à l'aide de PHP, JavaScript ou un autre de votre choix.

Je suggérerais PHP ou quelque chose de similaire que Google ne chargera probablement pas le JavaScript.

@Joreluisborges, note que GoogleBot Syntax ne passera pas la validation du test. Vous devez tester les outils de Googles, je pense que vous devez l'ajouter manuellement. Vous pouvez lire plus ici Google.com/support/webmasters/bin /answer.py?answer=156449 Il suffit de cliquer sur la partie manuelle.

Cela semble un peu bizarre que les outils Webmaster de Google ne valident pas cette méthode! Dans l'Endi, je suis allé pour une méthode qui ajoute l'instruction de robot dans la méta de chaque page via le CMS.

14
votes

En premier lieu, une ligne qui dit interdit: / post-* ne va rien faire pour éviter de ramper des pages du formulaire "/ page-xxx". Voulez-vous dire "page" dans votre ligne de reflux, plutôt que "post"?
Interdiction de refuser dit, en substance, "interdire les URL qui commencent par ce texte". Donc, votre ligne d'exemple refusera toute URL qui commence par "/ post-". (C'est-à-dire que le fichier est dans le répertoire racine et son nom commence par "post-".) L'astérisque dans ce cas est superflu, car il est impliqué.
Votre question n'est pas claire quant à l'endroit où les pages sont. S'ils sont tous dans le répertoire racine, un simple interdit: / page - fonctionnera. S'ils sont dispersés à travers des répertoires dans de nombreux endroits différents, les choses sont un peu plus difficiles.
@ user728345 signalé, le moyen le plus simple (à partir d'un point de vue robots.txt) à gérer est de rassembler toutes les pages que vous ne voulez pas surgir dans un répertoire et d'interdire l'accès à cela. Mais je comprends si vous ne pouvez pas déplacer toutes ces pages.
Pour GoogleBot spécifiquement et d'autres bots qui soutiennent la même sémantique générique (nombre surprenant d'entre eux, y compris les miennes), les suivants doivent fonctionner:
interdit: / * page -
qui correspondra à tout ce qui contient "page", n'importe où. Cependant, cela bloquera également quelque chose comme "/test/thispage-123.html". Si vous voulez empêcher cela, alors je pense (je ne suis pas sûr, car je ne l'ai pas essayé) que cela fonctionnera:
interdit: * / Page -
1 commentaires Bonjour - Yep La page / la chose postale était juste une faute de frappe. C'est dans le passé lointain que je ne peux donc pas vérifier votre solution, mais je viens de recevoir une notification que les gens regardent toujours cela, alors je pensais corriger la faute de frappe. Si quelqu'un peut confirmer la solution de Jim, je peux marquer comme correct.

Articles qui pourrait vous intéresser : Facebook and cawrawl-retard dans robots.txt? Comment permettre aux rampants d'accéder à index.php uniquement, à l'aide de robots.txt? Idées de piège Bot / araignées Où mettre le fichier robots.txt?