Augmenter ou diminuer le nombre de pages dans l’index de Yahoo! grâce à Yahoo! Site Explorer et Search Builder.
Le vendredi 2 février 2007 à 02:57 :: Yahoo :: #80
Yahoo! annonçait il y a quelques jours de nouvelles fonctions pour Yahoo! Site Explorer.
Entre autres :
- Une authentification du site désormais possible par META tag pour ceux ne pouvant ou ne voulant pas placer un fichier de vérification sur leur serveur.
- Le détail des erreurs en cas d’échec de l’authentification pour mieux comprendre le problème.
- Un « badge » à publier sur le site et comptant le nombres de backlinks qu’il possède (au choix la page ou le site entier).
Rassurez vous, ce n’est pas le nombre de mes BL, c’est juste une capture piquée à Google Blogoscoped, dommage…
- Et une fonction de suppression d’URL de l’index de Yahoo!
Sur cette dernière, la plus intéressante, Danny Sullivan, qui a eu l’occasion de discuter avec des membres de l’équipe de Site Explorer, revient longuement dans cet article Up Close With Yahoo's New Delete URL Feature dont je vais reprendre en partie les grandes lignes.
Il fait le point sur le comportement du robot de Yahoo! vis à vis du fichier robots.txt et des balises META destinées aux robots et comment cette nouvelle fonction de suppression d’URL s’intègre à cela.
(Donc si vous avez déjà lu son article, vous pouvez passez la première partie de ce billet, vous n’apprendrez rien de nouveau)
Le fichier robots.txt :
Le crawler le vérifie régulièrement pour s’assurer que des pages ne sont pas bloquées pour l’indexation. Si c’est le cas, Yahoo s’en rend compte et ne les visite plus. Si elle sont indexées, elles sortiront de l’index au bout de quelques temps, et si elles ne l’étaient pas, elles n’y entreront pas. Si la règle d’interdiction est levée, les pages seront de nouveaux visitées et indexées.
Le NOINDEX des META tags :
Si la page n’est pas bloquée par le fichier robots.txt, le crawler visite la page et vérifie les META destinées aux robots. Si elle a la valeur NOINDEX, alors la page ne sera pas indexée et éventuellement sortira de l’index si elle y est présente. Mais la page continuera néanmoins d’être visitée.
La fonction de suppression d’URL :
Elle est indépendante des 2 autres. Si utilisée, les pages continueront d’être crawlées mais ne seront pas indexées.
A priori, on peut penser quelle fait double emploi avec les deux possibilités précédentes. Mais elle présente néanmoins plusieurs avantages.
Le premier étant que même avec une page bloquée par le fichier robots.txt et la balise META NOINDEX, une page peut continuer d’apparaître dans les résultats de recherche de l’index.
Si un lien externe à votre site pointe sur cette page, alors il arrive que l’URL apparaisse dans les résultats, sans titre ni description, c’est ce que Yahoo! appelle un « thin document » (un document mince, léger) et Google des pages partiellement indexées.
Et à ce problème, l’outil de suppression d’URL peut remédier, car ces pages n’apparaîtront alors plus du tout dans l’index.
Un autre avantage de l’outil, est qu’en principe les suppressions se font plus rapidement qu’avec le robots.txt (Yahoo! parle de 24 à 48 heures).
La fonction de suppression d’URL est indépendante du fichier robots.txt et des META, elle agit à la place de ces deux autres méthodes.
Mais elle est à manier avec précaution, car elle supprime de l’index toutes les URL en dessous de celle indiquée.
Une suppression de
http://www.example.comsupprimera tout le domaine, et supprimer
http://www.exmaple.com/textes/c’est supprimer toutes les pages du répertoire ‘textes’.
Une fois l’action de suppression validée, la demande est en attente, avec le statut ‘pending delete’, puis les pages sont ensuite supprimées des résultats (mais restent dans l’index ce qui devrait permettre une réapparition assez rapide si l’on change d’avis).
Donc voilà pour la suppression de pages de l’index.
Pour ce qui est d’augmenter le nombre de pages maintenant :
Rand de SEOmoz revient sur l’interview avec Tim Mayer (responsable chez Yahoo! Technology) qu’Eric Enge de Stone Temple a réalisé. (qui était apparemment passé un peu inaperçue ce qui est bien dommage)
Dans cet entretien, Eric demande à Tim Mayer s’il peut développer le point de la documentation de Search Builder disant qu’inclure un site dans l’outil déclenche un crawl.
Et sa réponse est :
What it does is to evaluate your site and potentially perform a deeper crawl of your site. For example a lot of people want to create site search. With that, you want a comprehensive search of the site. Sometimes the site is fairly well indexed. What we're saying is if you use Search Builder, we'll potentially include more of your documents into our index.
It's an incentive for people to use the Search Builder product on their site.
Cela évalue votre site et éventuellement engendre un crawl plus profond. Par exemple, beaucoup de gens veulent créer une recherche sur site et la veulent la plus complète possible. Parfois le site est déjà très bien indexé. Ce que nous disons, c’est que si vous utilisez Search Builder, vos documents inclus dans notre index seront potentiellement plus nombreux.
C’est une incitation pour les gens à utiliser Search Builder sur leurs sites.
Et je pense qu’effectivement, cela risque d’en inciter quelques uns à l’utiliser.
Je m’étais surtout penché jusqu’à maintenant sur le Custom Search Engine de Google, mais je ne vais pas tarder à aller voir du côté de chez Yahoo!.
vendredi 2 février 2007 | 02:57, Sergi




English

Commentaires
Aucun commentaire pour le moment.
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.