Moteurs News

samedi 30 septembre 2006

Les statistiques de Google Webmaster Tools

Vanessa Fox a annoncé récemment une augmentation de la fréquence de mise jour des statistiques présentes sur Google Webmaster Central.

Elle donne également quelques explications intéressantes sur la façon dont ces statistiques sont calculées. C’est donc l’occasion pour moi de me pencher un peu sur cet outil.

Lire la suite

mardi 26 septembre 2006

L'histoire des moteurs de recherche, de 1945 à nos jours.

Un excellent article d'Aaron Wall qui récapitule l'évolution de la recherche sur Internet depuis ses débuts. Pour ceux qui lisent l'anglais et veulent tout savoir sur ce sujet, une lecture plus que recommandable.

via Threadwatch

lundi 25 septembre 2006

Google Vs Belgique, Google parle enfin...

Rachel Whetstone, directrice de la communication et des affaires publiques pour l'Europe chez Google, vient de publier un billet sur le blog officiel de Google, dans lequel elle exprime la position de l'entreprise sur le procès l'opposant aux éditeurs belges. Elle y récapitule les faits, et y exprime quelques une de ses interrogations.

Lire la suite

samedi 23 septembre 2006

Indexbench de Google: nouveau domaine + nouvelle marque déposée = nouveau service de moteurs de recherche verticaux ?

Il y a quelques semaines, Google enregistrait le domaine « indexbench » et ses déclinaisons :

indexbench.com / .org / .info
benchindex.com / .org / .info … etc

Gary Price nous apprends aujourd’hui sur Resource Shelf que Google a également déposé la marque commerciale « Indexbench ».

Lire la suite

mardi 19 septembre 2006

La recherche sans moteurs, une nouvelle façon de chercher ?

Les moteurs de recherche sont la voie d’accès au web. C’est par eux que, le plus souvent, nous arrivons sur les sites qui nous intéressent.

Mais sur le web, ce sont les sites qui nous intéressent, pas les moteurs. (En l’occurrence, je ne parle pas pour moi, mais cela reste vrai pour la plupart des internautes)

L’un des problèmes des moteurs, entre autre, est qu’ils n’indexent pas la totalité du contenu disponible sur Internet.

La dernière étude en date, à ma connaissance, sur la taille du web et son taux de couverture par les moteurs remonte au début de l’année 2005.

Lire la suite

jeudi 14 septembre 2006

Des Mots Magiques dans l’optimisation pour les moteurs de recherche : L’indexation Sémantique Latente démystifiée.

Comme je vous le disais dans mon précédent billet présentant un outil de recherche de mots clefs, je souhaitais traduire l’excellent article de Eric Myers sur l’utilisation des techniques d’indexation sémantique latente dans l’optimisation pour les moteurs de recherche.

Celui-ci m’ayant donné son accord, en voici ma traduction.

Je n’ai pas pour habitude de simplement traduire les nouvelles ou articles anglophone, préférant essayer de produire du contenu un tant soit peu original. Néanmoins je fais aujourd’hui exception à la règle, car ayant envisagé d’écrire un billet sur ce sujet, je me suis rendu compte en lisant l’article d’Eric, que je n’aurais pas été capable expliquer ces notions aussi clairement et aussi bien que lui. En outre, je pense qu'il pourra intéresser tous les webmestres concernés par l’optimisation et le référencement de leurs pages.

L’article original est disponible ici :

Magic Words for Search Engine Optimization: Latent Semantic Indexing Demystified

Des Mots Magiques dans l’optimisation pour les moteurs de recherche : L’indexation Sémantique Latente démystifiée.

Saviez-vous qu’il existait des mots magiques allant de pair avec tout effort sérieux d’optimisation pour les moteurs de recherche ? Et chaque ensemble de mots magique est différent en fonction de la page web que vous voulez optimiser. Je ne parle pas des mots clefs que vous étudiez déjà de manière studieuse. Ce sont d’autres mots magiques. Utiliser ces mots magiques deviendra de plus en plus important dans l’avenir. Alors comment connaître ces mots magiques et comment les utiliser ?

Commençons par une histoire. Aaron Wall est un bloggeur très respecté, auteur d’un livre sur l’optimisation pour les moteurs de recherche (Search Engine Optimization - SEO) et créateur d’outils de SEO. C’est un type sympa, mais il aime bien prendre position et critiquer lorsque nécessaire. Il y a environ un an et demi, Aaron remarqua une entreprise d’optimisation de recherche qui faisait de très vilaines choses au nom de ses clients. Cette compagnie s’appelait « Traffic Power. » Aaron se fit l’écho sur son blog des mauvaises pratiques de Traffic Power. Il prévint également que Traffic Power et tous ses clients finiraient par être bannis par Google.

Traffic Power n’apprécia pas et poursuivit Aaron en justice.

La communauté de la recherche sur Internet étant étroitement liée, cette histoire se répandit comme une traînée de poudre. Bientôt, des centaines de sites web racontaient des histoires comme :

« Aaron Wall poursuivit en justice par Traffic Power »

« Traffic Power poursuit en justice Aaron Wall »

L’histoire devint si importante que même le Wall Street Journal s’en empara.

En moins d’un mois, vous pouviez effectuer une recherche sur Google pour le nom d’Aaron et le cinquième résultat été pour le site web de Traffic Power.

Traffic Power ne fit jamais état publiquement de la poursuite en justice sur leur site et ils n’utilisèrent jamais le nom d’Aaron, nulle part sur leur site web. Alors comment leur site pouvait-il se classer si haut pour la requête « Aaron Wall », mots n’apparaissant sur aucune de leurs pages ?

Les termes « Traffic Power » été devenus un « mot magique » associé à la requête « Aaron Wall ». Parce que ces deux termes (« Aaron Wall » et « Traffic Power ») avaient été trouvés ensemble sur de nombreuses pages partout sur Internet, Google commença de penser que ces deux termes été sémantiquement liés.

Je pouvais par le passé démontrer ce phénomène directement. Mais Aaron avait raison. Traffic Power fut finalement banni de Google. Ainsi cette association n’existe plus désormais. Mais soyez sûr que ce fût le cas.

Alors, qu’est ce que cela à voir avec l’optimisation de vos pages ?

Tout.

Vous n’avez probablement pas des centaines ou des milliers de gens écrivant des pages au sujet de vos mots clefs/sites web et associant des « mots magiques » spécifiques à vos pages ou produits. Alors que pouvez-vous faire ?

Prenons le problème à l’envers. Regardons la relation existant déjà entre la requête que vous voulez optimiser et les « mots magiques » qui entourent déjà les termes de cette requête.

J’utilise le terme « mots magique » pour l’effet dramatique. Je préfère en fait le terme « mots de soutien » (supporting words). Et le concept entier a le terriblement intellectuel et « super-geek » nom de « Latent Semantic Indexation » (Indexation Sémantique Latente) ou LSI. Appeler cela « mots de soutien » rend la chose beaucoup plus accessible aux profanes (un peu comme appeler les flux RSS «souscriptions»). Je m’apprête à commenter certains détails un peu pointus pour en rendre la compréhension plus facile. Ceux plus passionnément impliqués que moi dans la LSI vont sans doute trouver mes explications un peu légères. Mais comme introduction pour vous aider à optimiser votre site, ce niveau de détail suffira. Croyez-moi.

Les mots de soutiens sont en fait des mots pour lesquels nous n’allons pas chercher une optimisation directe. Par exemple, si nous voulions essayer d’optimiser nos pages pour un produit de serveur SQL, on peut se douter qu’un mot de soutien pourrait être « Microsoft ». Microsoft créer des serveurs SQL aussi une association peut raisonnablement être attendue.

Bien sûr, Microsoft fait beaucoup d’autres choses sans lien avec les serveurs SQL. Aussi nous ne chercherons pas à optimiser directement pour le mot « Microsoft ». Nous n’essayons pas de nous placer sur le mot « Microsoft » proprement dit. Mais ne pas l’avoir dans la page pourrait être pénalisant pour nous car c’est un terme qui apparaît fréquemment avec la phrase qui nous intéresse (Serveur SQL). C'est sensé, non ?

Pendant un certain temps, j’ai utilisé un service en bêta (en fait un produit Microsoft bien qu’on ne puisse le savoir si l'on n’a pas lu le copyright) afin d’avoir un aperçu de ce que les intellos appelle « termes statistiquement co-occurrents ». Dit simplement : des mots apparaissant très souvent ensembles sur le web.

Vous pouvez utiliser cet outil ici : http://rwsm.directtaps.net/

Lorsque vous faites une recherche avec cet outil, regardez la liste de mots dans le panneau de gauche (vous pouvez ignorer celui de droite… ce sont les résultats classiques de MSN). Cliquez le signe « + » afin de développer chaque liste. Cet outil vous donne un aperçu sommaire de ce que peuvent être certains des mots de soutiens pour votre recherche.

Essayer Quintura. C’est un nouvel outil gratuit à télécharger qui utilise les données des trois grands moteurs de recherche (ainsi que de nombreux autres si vous modifiez les options) et vous retourne le même type d’informations sous forme graphique.

Vous tapez un terme de recherche comme « Improving Customer Experience » (améliorer l’expérience utilisateur, le nom et le thème du site d’Eric Myers) et vous obtenez une sorte de cartes d’un système solaire de mots. Plus proche est le mot du terme recherché, plus il lui est apparenté. Plus il est gros et gras, plus il est important. Je ne me soucierais pas trop de ces caractéristiques d’emplacement et de taille. Mais concentrez vous sur le contenu. Le résultat donne quelque chose comme cela :

Intéressant non ? Il y a de nombreux termes qui semblent apparaîtrent fréquemment avec la phrase « Improving Customer Experience » qui ne semblent pas évident de prime abord. Utiliser certains de ces mots dans ma page pourrait m’aider à me situer plus haut dans les résultats de recherche pour la phrase « Improving Customer Experience ».

Pour rendre cet outil encore meilleur, vous pouvez approfondir un peu sur ces mots de soutien. Par exemple, si je place ma souris sur le terme «Improving», j’obtiens cela (C’est moi qui souligne par l’encadrement):

Hé, regardez ! Le mot « ICE » (Acronyme de « Improving Customer Experience ») est un terme associé. Je suis sûr que cela ne peut pas faire de mal si j’associe la phrase « ICE – Improving Customer Experience » à la fois sur mon site et dans ma stratégie de construction de liens. Mais le fait est que le mot « ICE » est désormais devenu un mot de soutien pour la phrase « Improving Customer Experience »

Je sais que je suis un « mega-geek », mais vous devez reconnaître que c’est vraiment pas mal. Cela vous permet de vraiment comprendre l’univers des mots important associés à vos phrases clefs d’une façon beaucoup plus simple et beaucoup plus intuitive. Continuez de faire vos habituelles recherche de mots clefs. Il n’y a pas d’équivalence à cela. Utilisez des outils comme Keyword Discovery et Wordtracker si vous pouvez vous le permettre. Sinon, il y a un certain nombre d’outils gratuits en ligne pour vous permettre de démarrer. Utilisez alors cette étude pour commencer à générer des mots de soutien. (Vous pouvez obtenir certains de ces mots de soutien de la recherche effectué grâce a Keyword Discovery et Wordtracker aussi, mais ils ne sont pas gratuits.)

Vous pouvez télécharger Quintura si vous voulez vous amuser un peu avec. Il est gratuit et ne requiert même pas un enregistrement. Imbattable :

http://www.quintura.com/download/

Vous pouvez désormais vous considérer comme instruit. Maintenant allez enseigner à quelqu’un d’autre au sujet des « mots de soutien ».

mercredi 13 septembre 2006

Un outil gratuit et différent de recherche de mots clefs.

Dans son dernier billet sur ICE - Improving Customer Experience, Eric Myers nous fait découvrir un outil peu connu d'analyse sémantique.

Cet outil permet de trouver des mots clefs en relation avec le terme recherché, à partir des résultats des principaux moteurs et de nombreux autres sites tels que wikipedia, Amazon ou des sites d'actualités.

Nommé Quintura Search, ce petit logiciel à télécharger http://www.quintura.com/download/ se base sur le concept de l'Indexation Sémantique Latente, domaine pointu difficile à expliquer simplement.

(Je ne m'y essaierai pas, j'attends l'autorisation d'Eric Myers pour traduire son excellent article que je recommande chaudement aux anglophones.)
L'autorisation ayant été accordée, la traduction est ici

Pour ceux voulant approfondir l'étude de la LSI/LSA ( Latent Semantic Indexation / Latent Semantic Analysis ) voici 2 liens le premier en Anglais, le second en Français :

http://en.wikipedia.org/wiki/Latent_Semantic_Indexing

http://www.theses.ulaval.ca/2005/22376/ch04.html Chap 3.2.2

Pour en revenir à Quintura Search, il présente sous forme de cartes les mots sémantiquement proches des termes que vous recherchez et permet d'approfondir les résultats pour chacun des mots présentés.

Il est en outre possible de régler "l'étendue" et la "précision" de la recherche ainsi que d'affiner et d'orienter votre recherche en incluant ou en excluant certains des mots retournés par l'application.

La cerise sur le gâteau, un fichier de traduction en français est également disponible, ainsi qu'un fichier d'extension pour ajouter d'autres sites et moteurs que ceux d'origine.

A essayer de toute urgence.

Via : Marketing Pilgrim

mercredi 6 septembre 2006

Les algorithmes ne suffisent plus ?

Les algorithmes sont et ont toujours été le cœur et l’âme des moteurs de recherche. Ils sont leurs substantifique moelle et leur bien le plus précieux. Il suffit pour s’en convaincre de voir comment leurs secrets sont gardés.

Néanmoins, certaines initiatives récentes laissent à penser que, peut être, un interventionnisme humain accru, permettrait un gain en pertinence. Et pour un moteur, la pertinence, c’est la clef.

Vous avez sans doute déjà entendu parler de Google Image Labeler , le dernier jeu de Google Images. Si ce n’est pas le cas, je vous invite à lire l’excellent billet que lui a consacré TOMHTML sur Zorgloob.

Pour résumer, il permet à 2 internautes de s’affronter en direct.

Google affiche des images choisies de manière aléatoire, les joueurs ont 90 secondes pour proposer des labels à associer à ces images.

Si les deux joueurs proposent le même mot, on passe à l’image suivante. Voilà pour le principe. Il n’y a rien à gagner si ce n’est des points qui, a priori, ne servent à rien.

Il faut reconnaître que c’est assez divertissant.

(Même si ce n'est pas l’avis de tout le monde, SEO Black Hat a rédigé un post hilarant de son expérience avec Google Images Labeler.)

Mais le réel vainqueur à ce jeu est Google.

Il lui permet, à peu de frais, d’associer des mots-clef aux images de sa monumentale base. On sait à quel point il est difficile pour un moteur de catégoriser les images récupérées sur le web. Il peut bien sur se baser sur les attributs « alt » et « title » associés aux images ainsi qu’au texte qui les entourent. Mais les attributs, tout comme le texte, peuvent être absents ou trompeurs.

Dans un registre différent, mais participant à mon avis du même phénomène, Yahoo! a depuis peu commencé à présenter aux internautes effectuant des recherche sur son moteur, des résultats issus de son service Yahoo! Answers.

Pour rappel, Yahoo! Answers (désormais disponible en français) permet à des utilisateurs de poser des questions auxquelles d’autres internautes peuvent répondre.

De tels services ne sont pas nouveaux, mais l’innovation est que des réponses issues de se service sont désormais proposées en complément des résultats naturels du moteur.

Voir la capture ci-dessous, les résultats de Yahoo! Answers apparaissent après le dernier résultat du moteur.

(Ce n’est pour l’instant disponible semble t-il que sur la version US.)

Ajoutons à cela un brevet récemment accordé à Google et dont l’intitulé peut approximativement se traduire par : Système et méthode pour la prise en compte d’une opinion éditoriale dans le classement des résultats de recherche.

Une analyse détaillée de ce brevet a été réalisée par William Slawski sur son blog.

Les moteurs deviendrait ils donc plus humains ? Ils ont sans doute à y gagner.

Mais l’approche humaine, comme l’approche purement technique présentent toutes deux inconvénients et limitations.

Pour la première, les principaux handicaps sont la capacité de traitement de grandes quantités de données et le manque d’objectivité ou biais éditorial pouvant en résulter. (Voir les débats entourant le fonctionnement de l’annuaire DMOZ par exemple)

Quand à la seconde, beaucoup continuent de penser que les machines, aussi perfectionnées soient-elles, n’égalerons jamais l’intelligence et la sensibilité de l’homme lorsqu’il s’agit d’analyser un document pour juger de sa pertinence ou de son bien fondé. (Le spamindexing a encore, je le crains, de beaux jours devant lui)

La solution est donc peut être une collaboration et un ajustement de ses deux approches. Cela est bien dans l’ère du temps Web 2.0, avec les internautes acteurs, non plus seulement passif mais contribuant à la production de l’information.

Les algorithmes fournissent le volume et dégrossissent le travail, tandis que les utilisateurs impliqués affinent les résultats, leur nombre croissant permettant en partie de s’affranchir du problème de subjectivité.

Est-ce là l’avenir des moteurs ? Peut être. Mais ils continueront sans nul doute a explorer les deux voies.

Google a certes fait un pas vers « l’humain » avec Google Images Labeler, mais peu de temps auparavant, il avait racheté la société Neven Vision, pionnère dans la reconnaissance et l’extraction d’informations d’images.

vendredi 1 septembre 2006

MSN AdCenter s’apprête à concurrencer AdSense

MSN a lancé il y a 2 jours la version bêta de ContentAds, son programme de diffusion d’annonces publicitaires contextuelles. Est-ce l’avènement du futur concurrent d’AdSense ?

Cela a été annoncé par Jennifer Slegg sur JenSense qui a été parmi les premières à recevoir une des – sans doute très rares et très recherchées – invitations envoyées à un certain nombre d’annonceurs. Pour l’instant la diffusion des annonces est limitée aux sites appartenant à Microsoft, tels MSN Money, MSN Real Estate ou les sites de Windows Live.

Toutefois, l’annonce de MSN (extrait de l’email publié sur JensSense) laisse à penser que cette limitation pourrait par la suite être levée :

« Content Ads is Microsoft's next product that allows advertisers to place content-targeted, text-based advertisements primarily on Microsoft-owned properties including MSN Money, Real Estate, and many others within the www.msn.com portal. »

Le mot important étant « primarily », suggérant qu’à terme, des sites « non-microsoft » pourraient eux aussi diffuser ces annonces, à la manière des programmes Google AdSense ou Yahoo Publisher Network.

Le marché des annonces publicitaires contextuelles est actuellement très largement dominé par Google AdSense. Inutile de dire que l’arrivée d’un nouvel acteur de poids sur le secteur etait très attendue, tant par les annonceurs que par les éditeurs.

Toutefois, la route peut être longue avant que MSN soit en mesure d’offrir un programme similaire à AdSense. Yahoo Publisher Network, par exemple, existe déjà depuis longtemps mais est toujours en version bêta et reste pour l’instant limité au marché américain.

Pendant ce temps, Google a pu accroître son avance, notamment en signant des partenariats avec des pointures tels que MySpace ou eBay. MSN vient néanmoins de s’allier à FaceBook pour diffuser des annonces sur le site communautaire.

Jennifer Slegg, experte dans le domaine de la publicité en ligne, prédit que l’arrivée de Microsoft est une excellente nouvelle, notamment pour les petits éditeurs qui ne font pas plusieurs millions d’impressions de pages par mois.

Dans tous les cas, la compétition entre ces trois grands moteurs de recherche ne peut être que profitable, tant aux annonceurs qu’aux éditeurs. A la fois en terme de revenu qu’en terme de qualité et de ciblage des annonces.

Surtout si l’on en croit Don Dodge (dont l’avis est peut être biaisé, il travaille chez Microsoft) qui pense que Microsoft AdCenter sera à même de réellement concurrencer Google AdSense et Yahoo Publisher Network grâce à la qualité du ciblage des annonces et a une meilleure détection des clics frauduleux.

Rien que de bonnes nouvelles donc.

Bon Week-end.

English English

S'abonner

  • Add to Google
  • Ajouter à Mon Yahoo!
  • Abonnement Bloglines
  • Subscribe in NewsGator Onlines
  • S'abonner avec Netvibes
  • D'autres infos sur Twitter:

Sites amis