Etude de Google sur l'efficacité des Sitemaps
Le lundi 30 mars 2009 à 19:12 :: Google :: #205
Google vient de publier une étude consacrée aux Sitemaps dans laquelle il en détail les usages, l'utilité et compare la découverte d'URL par Sitemaps avec la découverte classique par le crawl.
Pour ce qui est de la découverte d'URL, l'étude porte sur deux points :
- La couverture (le volume et l'accès à des URLs difficilement accessibles via des liens)
- La fraîcheur (la rapidité de découverte de nouvelles URLs ou au contenu modifié)
Le document revient sur ce qu'est le protocole Sitemaps, l'utilisation et le traitement que fait Google des fichiers Sitemaps qui lui sont soumis et comment ces Sitemaps sont intégrés dans le processus de découverte / indexation d'URLs.
On y apprend par exemple que 35 millions de sites web publient des Sitemaps, que 58% des URLs inclus une date de dernière modification, 7% définissent une fréquence de mise à jour et 61% attribuent une priorité.
Intéressant également, le "Google's Crawling Pipeline" :
- Découverte : Commence avec un 'seed' d'URLs à crawler puis passe les URLs candidates au composant SpamFilter
- Sitemaps : Récupération des Sitemaps soumis à Google qui sont ensuite passés au composant SpamFilter
- SpamFilter : Détection et suppression du lot des liens considérés comme spam puis le lot nettoyé est envoyé au Crawler
- Crawler : Il recoit les URLs et récupère le contenu des pages. Les URLs trouvés sont extraits du contenu et repassent à la phase découverte
- Indexation : L'Indexer sélectionne un sous ensemble des pages crawlées selon diverses mesures qualitatives et construit un index à partir de ces pages.
- Serveur : Affiche les résultats puisés dans l'index en réponse aux requêtes des utilisateurs.
L'étude s'appuie sur trois études de cas avec les sites d'Amazon, CNN, et PubMed et l'usage qu'ils font des Sitemaps. Ces trois sites ayant des problématiques d'indexation différentes chacun a une approche particulière :
Amazon : nombre d'URLs énorme (20 millions dans leurs Sitemaps répartis en 10.000 fichiers sitemaps avec entre 20K et 50K URLs par fichier), fréquence de mise à jour et apparition de nouveaux contenus très rapide et problèmes inhérents d'URLs canoniques
CNN : nombre d'URLs plus restreint mais l'addition de nouveau contenu est rapide, ils produisent plusieurs fois par jour de nombreux Sitemaps plus petits, puis des sitemaps hebdomadaires et mensuels plus importants.
PubMed : une base d'archive énorme de publications scientifiques. Le contenu publié est rarement modifié, de nouveaux contenus apparaissent périodiquement. Un SitemapIndex, environ 50 fichiers Sitemaps et une fréquence de mise à jour définie comme mensuelle.
Le document s'intéresse à l'efficacité de ces Sitemaps dans la découverte de nouvelle URLs, la prise en compte des contenus modifiés ainsi qu'à la rapidité de découverte (fraîcheur) comparé aux techniques traditionnelles de crawl et comment les deux approches sont combinées par Google.
On y apprend par exemple que :
For an archival domain, Discovery is 63%“efficient” and Sitemaps is 99% efficient in crawling the domain
Pour un site de type "archive" le crawl par Découverte est 'efficace' à 63% et celui par Sitemaps à 99%
ou pour ce qui est de la fraîcheur :
Next, we study which of the two crawl systems, Sitemaps and Discovery, sees URLs first. [...] According to the most recent statistics at the time of the writing, 78% of these URLs were seen by Sitemaps first, compared to 22% that were seen through Discovery first.
Nous étudions lequel des deux systèmes de crawl, Sitemaps ou Découverte, voie les URLs en premier. [...] D'après les statistiques les plus récentes, 78% de ces URLs ont d'abord été trouvé via le Sitemaps contre 22% par la Découverte.
L'étude continue sur la sélection des URLs canoniques, l'établissement de priorités dans les URLs à crawler, priorité à accorder au Sitemap ou au crawl par découverte, crawl de rafraichissement...
Le lien vers le document PDF (en Anglais) Sitemaps: Above and Beyond the Crawl of Duty (formules absconses inclues qui réjouiront les matheux.)
Trouvé via Bill Slawski de SEO by the Sea : Google Study Shows Use of XML Sitemaps Helps Index Fresh Content Quicker
lundi 30 mars 2009 | 19:12, Sergi




English

Commentaires
1. Le vendredi 24 avril 2009 à 18:46, par Eroan
2. Le mardi 12 mai 2009 à 00:35, par Bescherelle
3. Le mardi 12 mai 2009 à 01:50, par Sergi
Ajouter un commentaire