Et comme en ce moment je manque de temps pour écrire mes propres articles, cela m’arrange également.

(Il s’agit bien évidemment d’une traduction non officielle)

Le nombre de pages que Googlebot visite.

Le rapport d’activité de Googlebot accessible dans les outils pour webmasters montre le nombre de pages de votre site que Googlebot a visité dans les 90 derniers jours.

Certains d’entre vous ont demandé pourquoi ces chiffres pouvaient être plus élevés que le nombre total de pages de votre site.

Googlebot visite les pages de vos sites en se basant sur un certains nombres de choses incluants :

  • les pages qu’il connaît déjà
  • les liens depuis d’autres pages (de votre sites ou d’autres sites)
  • les pages contenues dans votre plan Sitemap

Plus précisément, Googlebot n’accède pas aux pages, il accède aux URLs. Et une même page peu souvent être atteinte par le biais de plusieurs URLs.

Par exemple, on peut accéder à la page d’accueil de votre site en suivant quatre URLs différentes :

  • http://www.example.com/
  • http://www.example.com/index.html
  • http://example.com
  • http://example.com/index.html

Bien que chacune de ces URLs conduise à la même page, toutes quatre peuvent servir pour faire un lien vers cette page.

Lorsque Googlebot suit ces liens, quatre pages sont comptées dans le rapport d’activité.

Beaucoup d’autres scénarios peuvent conduirent à avoir des URLs multiples pour une même page. Par exemple, une page peut avoir plusieurs ancres :

  • http://www.example.com/mapage.html#titre1
  • http://www.example.com/mapage.html#titre2
  • http://www.example.com/mapage.html#titre3

Et les pages créées dynamiquement peuvent souvent être atteintes par plusieurs URLs :

  • http://www.example.com/mobilier?type=chaise&marque=123
  • http://www.example.com/meilleuresventes?type=chaise&marque=123

Comme vous pouvez le voir, quand vous prenez en compte que chacune des pages de votre site peut avoir de nombreuses URLs qui y conduisent, le nombre d’URLs que Googlebot visite peut être considérablement plus élevé que le nombre total de pages de votre site.

Bien sûr, vous (et nous) voulons seulement une seule version de cette URL retournée dans les résultats de recherche. Pas d’inquiétude à avoir, c’est exactement ce qui se passe. Nos algorithmes sélectionnent une version à inclure, et vous pouvez agir sur ce processus de sélection.

Rediriger vers la version préférée d’une URL

Vous pouvez faire cela en utilisant une redirection (permanente) 301. Dans le premier exemple montrant quatre URLs pointant vers la page d’accueil d’un site, vous pouvez rediriger index.html vers www.example.com/.

Et vous pouvez également rediriger example.com vers www.example.com afin que n’importe quelle URLs qui commence par la première version soit redirigée vers l’autre version.

Remarquez que vous pouvez faire cette dernière redirection avec la fonctionnalité « domaine favori » disponible dans les outils pour webmaster. (Si vous utilisez également une redirection 301, soyez sûr que cette redirection concorde avec ce que vous avez défini comme domaine favori.)

Bloquer les versions « non-préférées » d’une URL avec le fichier robots.txt

Pour les page générées dynamiquement, vous avez la possibilité de bloquer les versions non-préférées en utilisant la « correspondance de motif » (pattern matching) dans votre fichier robots.txt.

(Notez que tous les moteurs de recherche ne reconnaissent pas ces syntaxes spéciales, alors vérifiez les caractéristiques des robots des moteurs de recherche qui vous intéressent.)

Ainsi, dans le troisième exemple qui montre deux URLs pointant vers une page traitant de chaises de la marque 123, la section « meilleuresventes » se renouvelle périodiquement et son contenu et toujours accessible à un autre endroit.

Dans ce cas, vous pouvez choisir d’indexer la première version, et de bloquer la version « meilleuresventes ». Pour ce faire, ajouter ce qui suit dans votre fichier robots.txt :

User-agent: Googlebot
Disallow: /meilleuresventes?*

Pour vous assurer que cette directive va effectivement bloquer ce que vous voulez bloquer et permettre l’indexation de ce que vous voulez voir indexé, utilisez l’outil d’analyse du robots.txt disponible dans les outils pour webmaster.

Ajoutez simplement cette directive dans la section robots.txt de cette page, ajoutez les URLs que vous voulez vérifier dans la section « Tester les URL avec le fichier robots.txt » et cliquez sur le bouton Vérification. Pour cet exemple, vous verrez un résultat comme celui-ci :

Ne vous en faites pas au sujet des liens vers des ancres, car bien que Googlebot suive chaque lien, nos algorithmes indexeront l’URL sans l’ancre.

Et si vous ne fournissez pas d’indications comme celles décrites ci-dessus, nos algorithmes sont très efficaces pour choisir une version à afficher dans les résultats de recherche.


Voilà, fin de l’article de Vanessa Fox.

Pour ce qui est de l’utilisation du fichier robots.txt, je vous renvoie à la première partie de cet article traitant de l’utilisation du fichier robots.txt.

Pour la question des redirection 301 (notamment entre la version sans www et avec www de votre site) vous pouvez, outre la solution du « domaine favori », utiliser un fichier .htaccess à la racine de votre site comprenant une instruction comme celle là, par exemple :

RewriteEngine On

RewriteCond %{HTTP_HOST} !^www\.

RewriteRule (.*) http://www.%{HTTP_HOST}/$1 [R=301,L]

Cela aura pour effet de rediriger tous les accès du type :

http://example.com

vers

http://www.example.com

Même s’il est avant tout axé sur la visite et l’indexation d’un site par Googlebot et les outils mis en place par Google, cet article a le mérite de rappeler quelques principes de base que beaucoup négligent à tort (moi le premier).

Mais maintenant, on n’a plus d’excuses.