11
votes

Existe-t-il un moyen d'empêcher GoogleBot d'indexer certaines parties d'une page?

est-il possible de toucher des directives sur Google dans une mesure quels ignorera une partie d'une page, mais toujours indexer le reste?

Il y a quelques problèmes différents que nous avons rencontrés qui seraient aidés par cela, tels que:

  • FEUILLE RSS Texte de type Type d'actualité sur une page Affichage du contenu d'une source externe
  • Les utilisateurs entrant dans le téléphone Contact Phone, etc. Détails qui les souhaitent visibles sur le site mais préfèrent qu'ils ne sont pas google-capables

    Je suis conscient que les deux ci-dessus peuvent être abordés via d'autres techniques (telles que l'écriture du contenu avec JavaScript), mais je me demandais si quelqu'un sait s'il y a une option plus propre déjà disponible chez Google?

    Je fais de creuser sur ceci et je suis tombé sur des mentions de Googleon et googleoff tags , mais ceux-ci semblent être exclusifs aux appareils de recherche Google.

    Est-ce que quelqu'un sait s'il y a un ensemble similaire de balises auxquelles GoogleBot adhérera?

    EDIT : Juste pour clarifier, je ne veux pas descendre la voie dangereuse de cloaking / servir de contenu différent à Google, c'est pourquoi je cherche à voir s'il y a un " légitime "moyen d'atteindre ce que j'aimerais faire ici.


0 commentaires

8 Réponses :


1
votes

En bref non - sauf si vous utilisez Capeaking avec est découragé par Google.


0 commentaires

-2
votes

Il y a des méta-tags pour les robots et il y a aussi les robots.txt, avec lesquels vous pouvez restreindre l'accès à certains répertoires.


1 commentaires

Meta-Tags et Robots.txt Autoriser ou restreindre l'accès sur un niveau de fichier, je suis curieux si vous pouvez autoriser une page indexée, mais bloque une certaine partie de celui-ci.



-2
votes

Tous les moteurs de recherche indifférent ou ignorent toute la page. Le seul moyen possible de mettre en œuvre ce que vous voulez est de:

(a) avoir deux versions différentes de la même page

(b) détecter le navigateur utilisé

(c) Si c'est un moteur de recherche, servez la deuxième version de votre page.

Ce lien pourrait s'avérer utile.


1 commentaires

En effet ( Google.com/support/webmasters/bin/ ... ): "Serviant différents résultats basés sur l'agent utilisateur peut amener votre site perçu comme trompeur et retiré de l'index Google."



-1
votes

à votre serveur détecte le bot de recherche par IP à l'aide de PHP ou ASP. Nourrissez ensuite les adresses IP qui tombent dans cette liste une version de la page que vous souhaitez être indexée. Dans cette version conviviale pour moteur de recherche de votre page, utilisez la balise Canonical Link pour spécifier au moteur de recherche La version de la page que vous ne souhaitez pas être indexée.

De cette façon, la page avec le contenu qui veut être l'index sera indexée par adresse uniquement lorsque le seul contenu que vous souhaitez être indexé sera indexé. Cette méthode ne vous sera pas bloquée par les moteurs de recherche et est complètement sûr.


1 commentaires

Comme indiqué dans un commentaire séparé, cela peut entraîner la suppression de votre site de Google.



10
votes

Ce que vous demandez, vous ne pouvez pas vraiment être fait, Google prend une page entière ou rien de tout.

Vous pouvez faire des astuces sournoises, cependant, comme insérer la partie de la page que vous ne voulez pas indexée dans un iframe et utilisez robots.txt pour demander à Google de ne pas indexer que iframe.


0 commentaires

1
votes

Veuillez consulter la documentation officielle d'ici

​​ http : //code.google.com/apis/searchAppliance/documentation/46/admin_crawl/preparing.html p>

aller à la section "Excluant le texte indésirable de l'index" p>

<!--googleoff: index-->
here will be skipped
<!--googleon: index-->


1 commentaires

Malheureusement, cela ne s'applique qu'à l'appliance de recherche Google, non pas au site Web de Google public.



-1
votes

Oui, vous pouvez arrêter Google à partir de l'indexation des parties de votre site Web en créant des robots personnalisés.txt et écrivez quelles portions vous ne souhaitez pas indexer comme WPADMINS ou un poste ou une page particulière afin que vous puissiez le faire facilement en créant Ce fichier robots.txt. Avant de créer vérifier votre site robots.txt par exemple www.yoursite.com/robots.txt.


0 commentaires

0
votes

trouvé ressource utile pour utiliser certains contenus en double et ne pas autoriser l'index par moteur de recherche pour un tel contenu.

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index>


0 commentaires