Moteurs News

jeudi 14 septembre 2006

Des Mots Magiques dans l’optimisation pour les moteurs de recherche : L’indexation Sémantique Latente démystifiée.

Comme je vous le disais dans mon précédent billet présentant un outil de recherche de mots clefs, je souhaitais traduire l’excellent article de Eric Myers sur l’utilisation des techniques d’indexation sémantique latente dans l’optimisation pour les moteurs de recherche.

Celui-ci m’ayant donné son accord, en voici ma traduction.

Je n’ai pas pour habitude de simplement traduire les nouvelles ou articles anglophone, préférant essayer de produire du contenu un tant soit peu original. Néanmoins je fais aujourd’hui exception à la règle, car ayant envisagé d’écrire un billet sur ce sujet, je me suis rendu compte en lisant l’article d’Eric, que je n’aurais pas été capable expliquer ces notions aussi clairement et aussi bien que lui. En outre, je pense qu'il pourra intéresser tous les webmestres concernés par l’optimisation et le référencement de leurs pages.

L’article original est disponible ici :

Magic Words for Search Engine Optimization: Latent Semantic Indexing Demystified

Des Mots Magiques dans l’optimisation pour les moteurs de recherche : L’indexation Sémantique Latente démystifiée.

Saviez-vous qu’il existait des mots magiques allant de pair avec tout effort sérieux d’optimisation pour les moteurs de recherche ? Et chaque ensemble de mots magique est différent en fonction de la page web que vous voulez optimiser. Je ne parle pas des mots clefs que vous étudiez déjà de manière studieuse. Ce sont d’autres mots magiques. Utiliser ces mots magiques deviendra de plus en plus important dans l’avenir. Alors comment connaître ces mots magiques et comment les utiliser ?

Commençons par une histoire. Aaron Wall est un bloggeur très respecté, auteur d’un livre sur l’optimisation pour les moteurs de recherche (Search Engine Optimization - SEO) et créateur d’outils de SEO. C’est un type sympa, mais il aime bien prendre position et critiquer lorsque nécessaire. Il y a environ un an et demi, Aaron remarqua une entreprise d’optimisation de recherche qui faisait de très vilaines choses au nom de ses clients. Cette compagnie s’appelait « Traffic Power. » Aaron se fit l’écho sur son blog des mauvaises pratiques de Traffic Power. Il prévint également que Traffic Power et tous ses clients finiraient par être bannis par Google.

Traffic Power n’apprécia pas et poursuivit Aaron en justice.

La communauté de la recherche sur Internet étant étroitement liée, cette histoire se répandit comme une traînée de poudre. Bientôt, des centaines de sites web racontaient des histoires comme :

« Aaron Wall poursuivit en justice par Traffic Power »

« Traffic Power poursuit en justice Aaron Wall »

L’histoire devint si importante que même le Wall Street Journal s’en empara.

En moins d’un mois, vous pouviez effectuer une recherche sur Google pour le nom d’Aaron et le cinquième résultat été pour le site web de Traffic Power.

Traffic Power ne fit jamais état publiquement de la poursuite en justice sur leur site et ils n’utilisèrent jamais le nom d’Aaron, nulle part sur leur site web. Alors comment leur site pouvait-il se classer si haut pour la requête « Aaron Wall », mots n’apparaissant sur aucune de leurs pages ?

Les termes « Traffic Power » été devenus un « mot magique » associé à la requête « Aaron Wall ». Parce que ces deux termes (« Aaron Wall » et « Traffic Power ») avaient été trouvés ensemble sur de nombreuses pages partout sur Internet, Google commença de penser que ces deux termes été sémantiquement liés.

Je pouvais par le passé démontrer ce phénomène directement. Mais Aaron avait raison. Traffic Power fut finalement banni de Google. Ainsi cette association n’existe plus désormais. Mais soyez sûr que ce fût le cas.

Alors, qu’est ce que cela à voir avec l’optimisation de vos pages ?

Tout.

Vous n’avez probablement pas des centaines ou des milliers de gens écrivant des pages au sujet de vos mots clefs/sites web et associant des « mots magiques » spécifiques à vos pages ou produits. Alors que pouvez-vous faire ?

Prenons le problème à l’envers. Regardons la relation existant déjà entre la requête que vous voulez optimiser et les « mots magiques » qui entourent déjà les termes de cette requête.

J’utilise le terme « mots magique » pour l’effet dramatique. Je préfère en fait le terme « mots de soutien » (supporting words). Et le concept entier a le terriblement intellectuel et « super-geek » nom de « Latent Semantic Indexation » (Indexation Sémantique Latente) ou LSI. Appeler cela « mots de soutien » rend la chose beaucoup plus accessible aux profanes (un peu comme appeler les flux RSS «souscriptions»). Je m’apprête à commenter certains détails un peu pointus pour en rendre la compréhension plus facile. Ceux plus passionnément impliqués que moi dans la LSI vont sans doute trouver mes explications un peu légères. Mais comme introduction pour vous aider à optimiser votre site, ce niveau de détail suffira. Croyez-moi.

Les mots de soutiens sont en fait des mots pour lesquels nous n’allons pas chercher une optimisation directe. Par exemple, si nous voulions essayer d’optimiser nos pages pour un produit de serveur SQL, on peut se douter qu’un mot de soutien pourrait être « Microsoft ». Microsoft créer des serveurs SQL aussi une association peut raisonnablement être attendue.

Bien sûr, Microsoft fait beaucoup d’autres choses sans lien avec les serveurs SQL. Aussi nous ne chercherons pas à optimiser directement pour le mot « Microsoft ». Nous n’essayons pas de nous placer sur le mot « Microsoft » proprement dit. Mais ne pas l’avoir dans la page pourrait être pénalisant pour nous car c’est un terme qui apparaît fréquemment avec la phrase qui nous intéresse (Serveur SQL). C'est sensé, non ?

Pendant un certain temps, j’ai utilisé un service en bêta (en fait un produit Microsoft bien qu’on ne puisse le savoir si l'on n’a pas lu le copyright) afin d’avoir un aperçu de ce que les intellos appelle « termes statistiquement co-occurrents ». Dit simplement : des mots apparaissant très souvent ensembles sur le web.

Vous pouvez utiliser cet outil ici : http://rwsm.directtaps.net/

Lorsque vous faites une recherche avec cet outil, regardez la liste de mots dans le panneau de gauche (vous pouvez ignorer celui de droite… ce sont les résultats classiques de MSN). Cliquez le signe « + » afin de développer chaque liste. Cet outil vous donne un aperçu sommaire de ce que peuvent être certains des mots de soutiens pour votre recherche.

Essayer Quintura. C’est un nouvel outil gratuit à télécharger qui utilise les données des trois grands moteurs de recherche (ainsi que de nombreux autres si vous modifiez les options) et vous retourne le même type d’informations sous forme graphique.

Vous tapez un terme de recherche comme « Improving Customer Experience » (améliorer l’expérience utilisateur, le nom et le thème du site d’Eric Myers) et vous obtenez une sorte de cartes d’un système solaire de mots. Plus proche est le mot du terme recherché, plus il lui est apparenté. Plus il est gros et gras, plus il est important. Je ne me soucierais pas trop de ces caractéristiques d’emplacement et de taille. Mais concentrez vous sur le contenu. Le résultat donne quelque chose comme cela :

Intéressant non ? Il y a de nombreux termes qui semblent apparaîtrent fréquemment avec la phrase « Improving Customer Experience » qui ne semblent pas évident de prime abord. Utiliser certains de ces mots dans ma page pourrait m’aider à me situer plus haut dans les résultats de recherche pour la phrase « Improving Customer Experience ».

Pour rendre cet outil encore meilleur, vous pouvez approfondir un peu sur ces mots de soutien. Par exemple, si je place ma souris sur le terme «Improving», j’obtiens cela (C’est moi qui souligne par l’encadrement):

Hé, regardez ! Le mot « ICE » (Acronyme de « Improving Customer Experience ») est un terme associé. Je suis sûr que cela ne peut pas faire de mal si j’associe la phrase « ICE – Improving Customer Experience » à la fois sur mon site et dans ma stratégie de construction de liens. Mais le fait est que le mot « ICE » est désormais devenu un mot de soutien pour la phrase « Improving Customer Experience »

Je sais que je suis un « mega-geek », mais vous devez reconnaître que c’est vraiment pas mal. Cela vous permet de vraiment comprendre l’univers des mots important associés à vos phrases clefs d’une façon beaucoup plus simple et beaucoup plus intuitive. Continuez de faire vos habituelles recherche de mots clefs. Il n’y a pas d’équivalence à cela. Utilisez des outils comme Keyword Discovery et Wordtracker si vous pouvez vous le permettre. Sinon, il y a un certain nombre d’outils gratuits en ligne pour vous permettre de démarrer. Utilisez alors cette étude pour commencer à générer des mots de soutien. (Vous pouvez obtenir certains de ces mots de soutien de la recherche effectué grâce a Keyword Discovery et Wordtracker aussi, mais ils ne sont pas gratuits.)

Vous pouvez télécharger Quintura si vous voulez vous amuser un peu avec. Il est gratuit et ne requiert même pas un enregistrement. Imbattable :

http://www.quintura.com/download/

Vous pouvez désormais vous considérer comme instruit. Maintenant allez enseigner à quelqu’un d’autre au sujet des « mots de soutien ».

mercredi 13 septembre 2006

Un outil gratuit et différent de recherche de mots clefs.

Dans son dernier billet sur ICE - Improving Customer Experience, Eric Myers nous fait découvrir un outil peu connu d'analyse sémantique.

Cet outil permet de trouver des mots clefs en relation avec le terme recherché, à partir des résultats des principaux moteurs et de nombreux autres sites tels que wikipedia, Amazon ou des sites d'actualités.

Nommé Quintura Search, ce petit logiciel à télécharger http://www.quintura.com/download/ se base sur le concept de l'Indexation Sémantique Latente, domaine pointu difficile à expliquer simplement.

(Je ne m'y essaierai pas, j'attends l'autorisation d'Eric Myers pour traduire son excellent article que je recommande chaudement aux anglophones.)
L'autorisation ayant été accordée, la traduction est ici

Pour ceux voulant approfondir l'étude de la LSI/LSA ( Latent Semantic Indexation / Latent Semantic Analysis ) voici 2 liens le premier en Anglais, le second en Français :

http://en.wikipedia.org/wiki/Latent_Semantic_Indexing

http://www.theses.ulaval.ca/2005/22376/ch04.html Chap 3.2.2

Pour en revenir à Quintura Search, il présente sous forme de cartes les mots sémantiquement proches des termes que vous recherchez et permet d'approfondir les résultats pour chacun des mots présentés.

Il est en outre possible de régler "l'étendue" et la "précision" de la recherche ainsi que d'affiner et d'orienter votre recherche en incluant ou en excluant certains des mots retournés par l'application.

La cerise sur le gâteau, un fichier de traduction en français est également disponible, ainsi qu'un fichier d'extension pour ajouter d'autres sites et moteurs que ceux d'origine.

A essayer de toute urgence.

Via : Marketing Pilgrim

mercredi 6 septembre 2006

Les algorithmes ne suffisent plus ?

Les algorithmes sont et ont toujours été le cœur et l’âme des moteurs de recherche. Ils sont leurs substantifique moelle et leur bien le plus précieux. Il suffit pour s’en convaincre de voir comment leurs secrets sont gardés.

Néanmoins, certaines initiatives récentes laissent à penser que, peut être, un interventionnisme humain accru, permettrait un gain en pertinence. Et pour un moteur, la pertinence, c’est la clef.

Vous avez sans doute déjà entendu parler de Google Image Labeler , le dernier jeu de Google Images. Si ce n’est pas le cas, je vous invite à lire l’excellent billet que lui a consacré TOMHTML sur Zorgloob.

Pour résumer, il permet à 2 internautes de s’affronter en direct.

Google affiche des images choisies de manière aléatoire, les joueurs ont 90 secondes pour proposer des labels à associer à ces images.

Si les deux joueurs proposent le même mot, on passe à l’image suivante. Voilà pour le principe. Il n’y a rien à gagner si ce n’est des points qui, a priori, ne servent à rien.

Il faut reconnaître que c’est assez divertissant.

(Même si ce n'est pas l’avis de tout le monde, SEO Black Hat a rédigé un post hilarant de son expérience avec Google Images Labeler.)

Mais le réel vainqueur à ce jeu est Google.

Il lui permet, à peu de frais, d’associer des mots-clef aux images de sa monumentale base. On sait à quel point il est difficile pour un moteur de catégoriser les images récupérées sur le web. Il peut bien sur se baser sur les attributs « alt » et « title » associés aux images ainsi qu’au texte qui les entourent. Mais les attributs, tout comme le texte, peuvent être absents ou trompeurs.

Dans un registre différent, mais participant à mon avis du même phénomène, Yahoo! a depuis peu commencé à présenter aux internautes effectuant des recherche sur son moteur, des résultats issus de son service Yahoo! Answers.

Pour rappel, Yahoo! Answers (désormais disponible en français) permet à des utilisateurs de poser des questions auxquelles d’autres internautes peuvent répondre.

De tels services ne sont pas nouveaux, mais l’innovation est que des réponses issues de se service sont désormais proposées en complément des résultats naturels du moteur.

Voir la capture ci-dessous, les résultats de Yahoo! Answers apparaissent après le dernier résultat du moteur.

(Ce n’est pour l’instant disponible semble t-il que sur la version US.)

Ajoutons à cela un brevet récemment accordé à Google et dont l’intitulé peut approximativement se traduire par : Système et méthode pour la prise en compte d’une opinion éditoriale dans le classement des résultats de recherche.

Une analyse détaillée de ce brevet a été réalisée par William Slawski sur son blog.

Les moteurs deviendrait ils donc plus humains ? Ils ont sans doute à y gagner.

Mais l’approche humaine, comme l’approche purement technique présentent toutes deux inconvénients et limitations.

Pour la première, les principaux handicaps sont la capacité de traitement de grandes quantités de données et le manque d’objectivité ou biais éditorial pouvant en résulter. (Voir les débats entourant le fonctionnement de l’annuaire DMOZ par exemple)

Quand à la seconde, beaucoup continuent de penser que les machines, aussi perfectionnées soient-elles, n’égalerons jamais l’intelligence et la sensibilité de l’homme lorsqu’il s’agit d’analyser un document pour juger de sa pertinence ou de son bien fondé. (Le spamindexing a encore, je le crains, de beaux jours devant lui)

La solution est donc peut être une collaboration et un ajustement de ses deux approches. Cela est bien dans l’ère du temps Web 2.0, avec les internautes acteurs, non plus seulement passif mais contribuant à la production de l’information.

Les algorithmes fournissent le volume et dégrossissent le travail, tandis que les utilisateurs impliqués affinent les résultats, leur nombre croissant permettant en partie de s’affranchir du problème de subjectivité.

Est-ce là l’avenir des moteurs ? Peut être. Mais ils continueront sans nul doute a explorer les deux voies.

Google a certes fait un pas vers « l’humain » avec Google Images Labeler, mais peu de temps auparavant, il avait racheté la société Neven Vision, pionnère dans la reconnaissance et l’extraction d’informations d’images.

vendredi 21 juillet 2006

L'avenir du Web Sémantique

Lors d’une récente conférence sur l’intelligence artificielle, une intéressante passe d’armes eut lieu entre Sir Tim Berners-Lee , le père du Web et actuel directeur du World Wide Web Consortium et Peter Norvig, directeur chez Google pour les questions de recherche et d’intelligence artificielle.

Beaucoup de commentaires ont déjà été fait sur cet échange, et c’est l’occasion pour nous de revenir sur ce qu’est le Web Sémantique.

L’idée sous jacente au Web Sémantique, est que les contenus des pages web puissent être lus aussi facilement par les machines que par les humains.

A l’heure actuelle, le web n’est qu’une énorme masse de données non structurées, mal organisées, avec très peu de liens pour regrouper des ensembles de documents entre eux et pratiquement impossibles à manipuler par les machines.

Le but du Web Sémantique est donc de permettre une meilleure catégorisation des contenus (ou classification, à la manière de ce qui peut se faire, par exemple, dans les bibliothèques), de les relier entre eux, ainsi que d'en identifier les sources, rendant ces contenus plus facilement accessibles et plus utiles.

Le Web Sémantique est conçu et a pour ambition d’interconnecter facilement toutes sortent de données et de permettre leur partage.

Comme le dit Tim Berners-Lee dans cette interview :

Le but du Web Sémantique est de créer un moyen universel pour l’échange de données, là ou les données peuvent être partagées et traitées aussi bien par des outils automatisés que par des humains.

Le Web Sémantique n’a pas pour sujet le sens d’un document dans une langue donnée. Il ne s’agit pas de marquer des documents HTML afin de permettre à des ordinateurs de comprendre de quoi ils parlent. Il ne s’agit pas d’intelligence artificielle et de compréhension par les machines du langage naturel, le mot sémantique a ici un autre sens. Il est question de données qui actuellement se trouvent dans des bases de données relationnelles, dans des documents XML, des feuilles de tableurs et des fichiers en formats propriétaires, et auxquels il serait utile de pouvoir accéder comme à une seule et immense base de donnée.

Pour réaliser cela, d’important changements dans la conception même de ce qu’est le Web et comment son contenu est crée sont nécessaires. Des technologies, des outils et des langages nouveaux doivent être utilisés.

C’est à cette tâche que s’est attelé le W3C, et selon Tim Berners-Lee, elle est désormais suffisamment avancée, et le moment est venu d’utiliser ces nouveaux outils.

Le principal de ces outils étant un langage sémantique, le RDF (Resource Description Framework). Ce langage a pour but, fondamentalement, de représenter les méta-données du contenu. Plus spécifiquement de fournir des informations sur les propriétés des ressources du Web, sur leurs relations avec d’autres ressources et de les identifier par des URI (Universal Resource Identifiers).

Ces URI ont une portée globale, elles sont centrales au Web Sémantique et l’étayent en permettant aux machines de traiter ces données directement en pointant non pas vers un document mais vers un objet de base de donnée. Ainsi, l’importance est transférée du document vers les données.

D’autre outils ont été, et sont encore en cours de développement, tels que OWL (Web Ontology Language), utilisé pour publier et partager des ensembles de termes – ontologies – supportant des recherches avancées, et SPARQL, un langage de requête dont le W3C a récemment annoncé le passage en ‘Candidate Recommendation’.

Les ‘ontologies’ peuvent, d’une certaine manière, être comparées aux ‘tags’ utilisés dans les systèmes de folksonomie. Mais le but en est très différent. Les ontologies sont une tentative de décrire très précisément des données et de permettre le mapping et l’intéraction entre ces données bien qu’elles soient dans différents formats. Aussi, les ontologies se doivent d’être extrêmement précises afin de lever toute ambiguïté.

Pour en revenir à l’échange entre Berners-Lee et Norvig, ce dernier avança quelques éléments pour expliquer les difficultés à implémenter le Web Sémantique et les problèmes à surmonter avant que celui-ci puisse se développer pleinement :

Ce que j’entends le plus est : "Pourquoi êtes-vous contre le Web Sémantique ?" Je ne suis pas contre le Web Sémantique. Mais du point de vue de Google, il y a plusieurs choses qui doivent être préalablement réglées, l’imcompétence étant la première d’entre elles.

Peter Norvig précisa qu’il ne faisait pas allusion à l’incompétence de Berners-Lee ou du W3C mais à celle des utilisateurs lambda et plus spécifiquement à celle des webmasters :

Nous avons à faire à des millions de webmasters qui ne savent pas configurer un serveur, ne savent pas écrire du HTML. Il est difficile pour eux de passer à un niveau supérieur.

L’autre point soulevé, est la compétition, certains acteurs qui sont leader sur leurs marché ne voient pas l’intérêt pour eux de standardiser.

Le troisième problème qu’il pointe est la "fraude" régnant actuellement :

Nous avons à faire, tous les jours, à des gens tentant de se positionner au mieux dans les résultats (des moteurs de recherche) et qui tentent de vendre à quelqu’un du Viagra alors que ce n’est pas ce qu’il recherche. Avec une surveillance humaine encore amoindrie dans le Web Sémantique, nous nous inquiétons qu’il devienne encore plus facile de tromper les utilisateurs.

Berners-Lee admit que la tricherie sur Internet est effectivement un problème, mais il argua du fait que justement, un des buts du Web Semantique est d’identifier la source de l’information, et de déterminer si et pourquoi on peut accorder sa confiance à une telle information.

Il termina en mettant en avant les choses magnifiques réalisées dans le passé par l’entreprise de Mountain View pour le web en général, la puissance de Google, et sa possibilité, du fait de cette situation, de réitérer dans le domaine du Web Sémantique.

Une des questions que l’on peut se poser est :

Google s’investira-t-il dans le Web Sémantique ?

Et si la réponse est non, qu’elles en seront les conséquences ?

Pour Google et pour l’avenir du Web Sémantique.

samedi 17 juin 2006

Quaero vu de l'intérieur

Le CNRS vient de publier un entretien sur Quaero avec Jean-Luc Gauvain, directeur de recherche à Limsi (Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur). Limsi est l'un des laboratoires à l'initiative du projet Quaero.

Il nous en dit plus sur Quaero, que certains ont défini, ( et que certains définissent encore ) comme le "futur Google européen".

Pour lui, Quaero est avant tout un programme industriel fédérant de nombreux partenaires. Aussi bien des industriels (Thomson, pilote du projet en France), que des PME, ou des laboratoires de recherche publics (CNRS) et universitaires (université de Karlsruhe, Aix-la-Chapelle).

Il explique que "le but de Quaero n'est pas tant de remplacer Google que d'offrir de nouveaux moyens de recherche", notamment pour des données multimédia.

Il détail également l'organisation du programme autour des projets "technologiques" (recherche d'information, indexation, traitement des données...) sur lesquels s'appuieront les projets "applicatifs" (portail grand public, moteur de recherche multimédia, vidéo à la demande...).

La distribution des tâches entre les partenaires est particulière dans la mesure ou "plusieurs partenaires travailleront sur un même domaine et avec un même objectif". Après évaluation, les pistes les plus prometteuses seront alors mises en commun. Cette approche, selon lui, favorisant l'excellence.

Pour ce qui est de la date de lancement de Quaero, Jean-Luc Gauvain rappelle que le projet doit avant tout obtenir l'aval de la Commission européenne.

Le projet, prévu pour s'étendre sur cinq ans, devrait lancer les premières applications dès sa première année, notamment le moteur de recherche multimédia.

English English

S'abonner

  • Add to Google
  • Ajouter à Mon Yahoo!
  • Abonnement Bloglines
  • Subscribe in NewsGator Onlines
  • S'abonner avec Netvibes
  • D'autres infos sur Twitter:

Sites amis