Ou l’on reparle du cloaking et de ses usages
Le mercredi 15 novembre 2006 à 00:39 :: General :: #45
J’ai lu dernièrement sur un des forums de Digital Point un sujet ou quelqu'un se demande si la façon dont Webmaster World gère son indexation par les moteur et l’accès à ses pages est ou non du cloaking.
En effet, pour accéder aux forums de Webmaster World, il est nécessaire d’être inscrit (c’est gratuit) et identifié.
Mais ces pages, protégées par un système d’identification, sont indexées par Google et ressortent dans le résultats de recherches.
Elles sont donc visibles par Googlebot mais pas pour un internaute non connecté à son compte.
Pour s’en convaincre, il suffit de faire sur Google une recherche du type: site:webmasterworld.com
Parmi les 300.000 et quelques pages indexées, cliquez sur n’importe quel lien vers un thread particulier (la home et l’index des différents forums ne sont pas concernés) et vous arriverez sur un formulaire d’inscription/connexion.
Et vous ne voyez donc pas la page que Googlebot a vu.
Conclusion : Les pages présentées sont différentes selon que le visiteur est un robot ou un navigateur.
Donc, oui, techniquement, c’est du cloaking.
(Cela n’a rien à voir, mais si vous voulez voir un blog original, je vous conseil le robots.txt de Webmaster World, le « Bot Blog », à cette adresse : http://www.webmasterworld.com/robots.txt, fin de la digression.)
Dans la même veine, il y a l’exemple fameux du New York Times qui avait “défrayé la chronique” il y a quelques mois lorsqu’il avait été expliqué que le journal permettait aux robots des moteurs de recherche d’accéder à des pages pour lesquelles les visiteurs devaient s’abonner et payer.
Un autre exemple, d’un site tout aussi célèbre, est celui de del.icio.us. Si vous regardez le code source d’une page de del.icio.us, vous verrez dans l’en-tête la balise :
<meta name="robots" content="noarchive,nofollow,noindex"/>
Qui dit expressément aux robots de ne pas mettre la page en cache, de ne pas suivre les liens et de ne pas indexer cette page.
Il suffit de faire une recherche sur : site:del.icio.us pour se rendre compte que toutes ces consignes ne sont pas suivies à la lettre.
Pourquoi ? Parce que si vous visitez del.icio.us en vous faisant passer pour un robot (Googlebot par exemple), le code de la page est différent et cette balise n’est pas présente.
Donc le moteur fait son boulot de moteur, il indexe les pages et elles ressortent dans les résultats de recherche.
( La mauvaise nouvelle, c’est que le “nofollow” est bien pris en compte donc pas la peine de spammer ce site. Encore que cela ne soit pas tout à fait inutile :) )
La raison de ce cloaking (et là le terme est peut être un peu excessif car le contenu de la page vu par un visiteur ne diffère pas, hormis cette balise META, de celui vu par certains robots) est sans doute une tentative pour diminuer le scraping, en essayant de décourager par ces consignes les mauvais bots qui respecteraient néanmoins ce type de directives.
Bref, tout ça pour dire que les exemples de sites renommés utilisant de telles techniques ne manquent pas.
Pourtant lorsqu’on lit les conseils aux administrateurs de sites web de Google:
« Concevez vos pages pour les utilisateurs, et non pour les moteurs de recherche. Ne trompez pas les utilisateurs en affichant un contenu pour les moteurs de recherche différent de celui qui leur est présenté (technique appelée "cloaking" ou masquage). »
Et Matt Cutts qui précise :
« IP delivery: delivering results to users based on IP address. Cloaking: showing different pages to users than to search engines. IP delivery includes things like “users from Britain get sent to the co.uk, users from France get sent to the .fr”. This is fine–even Google does this. It’s when you do something *special* or out-of-the-ordinary for Googlebot that you start to get in trouble, because that’s cloaking. In the example above, cloaking would be “if a user is from Googlelandia, they get sent to our Google-only optimized text pages.” So IP delivery is fine, but don’t do anything special for Googlebot. Just treat it like a typical user visiting the site. »
IP delivery : fournir des résultats différents en fonction de l’adresse IP du visiteur.
Cloaking : montrer des pages différentes aux visiteurs et aux moteurs de recherche.
L’IP delivery inclut des pratiques comme “les utilisateurs en provenance de Grande Bretagne sont envoyés vers le domaine co.uk, les utilisateurs venant de France sont dirigés vers le .fr” . Pas de problème, même Google fait cela.
C’est lorsque vous faites quelques chose de *special* ou de pas ordinaire pour Googlebot que vous risquez de vous attirer des ennuis, car alors c’est du cloaking. Dans l’exemple ci-dessus, le cloaking serait “si l’utilisateur vient de Googleland, il est envoyé vers nos ‘pages de texte optimisées pour Google seulement.’
L’IP delivery est ok, mais ne faite rien de particulier pour Googlebot. Traitez le comme n’importe quel visiteur.
On pourrait s’attendre à ce que les pratiques décrites plus haut soient sanctionnées par les moteurs, et notamment par Google qui a toujours été très clair sur ce point : le cloaking, c’est mal.
Et bien non.
Ces sites s’en sortent plutôt pas mal en termes de nombre de pages indexées et de positionnement dans les SERPs.
Pour del.icio.us, cela ne posent pas de problèmes particuliers, les pages vues dans le cache de Google ou par l’internaute sont les mêmes.
Pour WebmasterWorld, les pages ne sont pas en cache, mais elle restent quand même accessibles à tous, il suffit de s’enregistrer.
Pour le New York Times (et d’autres) cela me semble un peu plus « grave » dans la mesure ou ces pages trouvées via un moteur de recherche ne peuvent être consultées librement, il faut payer.
Il apparaît donc que pour Google aussi, certains cloaking sont « acceptables », le NY Times étant clairement en dehors des limites rappelées par Matt Cutts.
Le problème avec ce genre de choses et de savoir où est la limite, (d’autant plus dur à déterminer s’il y a des passe-droits). Car si la sanction tombe, elle peut faire mal (bannissement) et si tout n’est pas perdu, les choses deviennent quand même plus compliquées.
De la même manière il peut y avoir des raisons légitimes pour utiliser le cloaking :
Un exemple via Search engine roundtable :
un site de e-commerce tenu par des Juifs orthodoxes pratiquants ayant l’interdiction pour des raisons religieuses de faire des affaires durant le Sabbat.
Fermer le site (comme on ferme boutique) c'est prendre le risque d’être sanctionné par les moteurs. Mais autoriser les visiteurs pendant cette période est proscrit.
Le cloaking pourrait être la solution : autoriser les moteurs et montrer une page « fermé pour Sabbat » aux visiteurs. (Encore qu’une meilleure solution serait sans doute de retourner un code 503 ‘réseaux indisponible’.)
Un autre cas concret présenté par Best Viewed With Googlebot où tout le monde y trouve son compte : les visiteurs, le webmaster, Google et même les annonceurs.
Une autre raison légitime peut être l’indexation d’un site en Flash, difficilement lu par les moteurs.
Et bien que certains sites comme ceux précédemment cités pratiquent le cloaking et s’en tirent bien, que cloaking ne rime pas nécessairement avec black hat, la technique est à manier avec prudence, car il n’est pas dit que les moteurs comprendront vos “bonnes raisons” et seront aussi compréhensifs.
Pour ceux qui veulent néanmoins s’y essayer, quelques lectures instructives pour en comprendre les subtilités et s’éviter des ennuis :
Les 10 commandements du cloaking
The definitive guide of cloaking
Search engine cloaking FAQs
Et pour ceux qui veulent se prendre pour un bot, cette extension pour Firefox : User Agent Switcher.
mercredi 15 novembre 2006 | 00:39, Sergi




English

Commentaires
1. Le dimanche 19 novembre 2006 à 09:45, par Dominique
2. Le dimanche 19 novembre 2006 à 09:59, par Sergi
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.