L’algorithme de Google, comment ca marche ?
Le lundi 4 juin 2007 à 02:39 :: Google :: #118
Un article bien intéressant sur le département « Search Quality » de Google, celui en charge de l’algorithme de classement, vient d’être publié par le New York Times. De la part d’un média généraliste, c’est suffisamment rare pour être salué.
Saul Hansel, un journaliste du NYT, a pu passer un moment au Googleplex, notamment avec Amit Singhal et Ubi Manber, 2 des responsables de ce département qui est au cœur du moteur de recherche.
Et on y apprend quelques petites choses, dont certaines confirment des suppositions, apportent quelques éclairages sur des phénomènes constatés, et d’autres mettent au jour de nouveaux concepts/processus à prendre en compte dans une démarche de référencement et d’optimisation.
L’article fait 4 pages, je vais donc simplement en reprendre quelques extraits que je pense être les plus intéressants, ceux qui lisent l’anglais ont tout intérêt à arrêter de perdre leur temps ici et à aller directement lire la source : Google Keeps Tweaking Its Search Engine.
D’abord le titre, qui peut se traduire par : Google ajuste continuellement son moteur de recherche
.
Ce n’est certes pas un scoop, mais le contenu de l’article rentre un peu plus dans les détails :
Millions of times a day, users click away from Google, disappointed that they couldn’t find the hotel, the recipe or the background of that hot guy. Google often finds what users want, but it doesn’t always. That’s why Amit Singhal and hundreds of other Google engineers are constantly tweaking the company’s search engine in an elusive quest to close the gap between often and always. Mr. Singhal is the master of what Google calls its “ranking algorithm” — the formulas that decide which Web pages best answer each user’s question. It is a crucial part of Google’s inner sanctum, a department called “search quality” that the company treats like a state secret.
Des millions de fois par jour, des internautes quittent Google déçus de n’avoir pas trouvé l’hôtel, la recette ou les informations sur une personne à la mode. Google trouve souvent ce que les utilisateurs recherchent, mais pas toujours.
C’est pourquoi Amit Singhal et des centaines d’ingénieurs de chez Google sont constamment en train d’ajuster le moteur de recherche dans le but difficile de passer de ‘souvent’ à ‘toujours’.
Mr Singhal est le maître de ce que Google appelle son « algorithme de classement » – la formule qui décide quelles pages fournissent les meilleures réponses aux questions des utilisateurs. C’est un des éléments cruciaux du saint des saints de Google, un département appelé « Search Quality » que l’entreprise protège comme un secret d’Etat.
Bon, voilà pour l’introduction. Sur les entrailles de la bête maintenant :
[…]The search-quality team makes about a half-dozen major and minor changes a week to the vast nest of mathematical formulas that power the search engine.
L’équipe du département qualité des recherches apporte environ une demi douzaine de modifications plus ou moins importantes par semaine à l’ensemble des formules mathématiques qui font tourner le moteur.
Any of Google’s 10,000 employees can use its “Buganizer” system to report a search problem, and about 100 times a day they do — listing Mr. Singhal as the person responsible to squash them. “Someone brings a query that is broken to Amit, and he treasures it and cherishes it and tries to figure out how to fix the algorithm,” says Matt Cutts.
N’importe lequel des 10.000 employés de Google peut utiliser son “Buganizer”, un système pour remonter un problème constaté sur une recherche, et ils le font environ 1000 fois par jour.
Mr Singhal en étant le destinataire et celui devant résoudre le problème.
Some complaints involve simple flaws that need to be fixed right away. Recently, a search for “French Revolution” returned too many sites about the recent French presidential election campaign — in which candidates opined on various policy revolutions — rather than the ouster of King Louis XVI. A search-engine tweak gave more weight to pages with phrases like “French Revolution” rather than pages that simply had both words.
Certains de ces problèmes sont des défauts qui requièrent d’être corrigés sur le champ.
Récemment, une recherche pour « French Revolution » renvoyait trop de sites concernant la récente campagne pour les élections présidentielles dans laquelle les candidats parlaient de révolutions à effectuer, plutôt que des sites traitant de la destitution de Louis XVI.
Un ajustement du moteur de recherche accorda plus de poids aux pages contenant des phrases comme « French Revolution » plutôt qu’aux pages utilisant simplement les 2 mots.
C’est intéressant de savoir (ou d’avoir la confirmation) que les hommes mettent parfois les mains dans le moteur, que les algorithmes ne font pas tout, et que pour des recherches très précises, pour des cas très particuliers, des ajustements manuels sont faits.
C’est assez loin de l’idée reçue, et entretenue (notamment par Matt Cutts au moment du désamorçage des Google Bombing) que les processus de classements et de filtrages sont et doivent être entièrement automatisés et dépendre uniquement des sacro-saints algos.
Deux autres « ajustements » sont cités en exemple, l’un remontant à 2005 et concernant une boutique de Palo Alto qui s’appelle Teak Patio et qui ne ressortait pas sur la requête « teak patio Palo Alto ».
So Mr. Singhal fired up one of Google’s prized and closely guarded internal programs, called Debug, which shows how its computers evaluate each query and each Web page. He discovered that Theteakpatio.com did not show up because Google’s formulas were not giving enough importance to links from other sites about Palo Alto.
Mr Singhal s’en occupa grâce à un logiciel développé en interne et précieusement gardé appelé Debug qui lui permet de voir comment ses ordinateurs évaluent chaque requête et chaque page Web.
Il découvrit que Theteakpatio.com n’apparaissait pas dans les résultats à cause des formules de Google qui n’accordaient pas assez d’importance aux liens faits depuis d’autres sites concernant Palo Alto.
La happy end de l’histoire :
Within two months of Mr. Brougher’s complaint, Mr. Singhal’s group had written a new mathematical formula to handle queries for hometown shops.
En moins de 2 mois, Mr Singhal et son équipe avaient écrit une nouvelle formule mathématique pour gérer les requêtes concernant les magasins locaux.
Un autre exemple plus savoureux, est celui relaté lorsque Google a lancé son service Google Finance.
Ils se sont rendu compte qu’il ne ressortait pas pour une recherche sur « Google Finance ».
Ca ne faisait pas très sérieux, mais rassurons nous, les ingénieurs de Google veillant au grain ont résolu le problème et Google Finance arrive désormais en tête des résultats.
Le fait que des ajustements soient opérés en cas de problème constaté ne signifie pas que tous sont traités de cette manière.
But Mr. Singhal often doesn’t rush to fix everything he hears about, because each change can affect the rankings of many sites. “You can’t just react on the first complaint,” he says.
Mais Mr Singhal bien souvent ne se presse pas pour résoudre tous les problèmes qui lui sont rapportés, car chaque changement a un effet sur le classement de nombreux sites.
On ne peut pas agir à la première plainte, dit-il.
So he monitors complaints on his white board, prioritizing them if they keep coming back. For much of the second half of last year, one of the recurring items was “freshness.” Freshness, which describes how many recently created or changed pages are included in a search result, is at the center of a constant debate in search: Is it better to provide new information or to display pages that have stood the test of time and are more likely to be of higher quality? Until now, Google has preferred pages old enough to attract others to link to them.
Aussi suit-il les plaintes sur sont tableau et leur attribue-t-il des priorités si elles sont récurrentes. Pour une grande partie de la seconde moitié de l’année dernière, une des plus fréquentes fût la « fraîcheur ».
La fraîcheur, qui se caractérise par combien de pages récemment créees ou modifiées sont inclues dans un résultat de recherche, est au centre d’un débat constant en matière de recherche : Est-il préférable de fournir une information nouvelle ou de proposer des pages qui ont subi l’épreuve du temps et ont plus de chance d’être d’une meilleure qualité ?
Jusqu’à maintenant, Google a favorisé les pages suffisamment vieilles et qui avaient su s’attirer des liens en provenance d’autres pages.
L’exemple type étant celui évoqué de Google Finance, qui, tout neuf, ne se plaçait pas sur son propre nom.
A la suite de quoi des mesures furent prises et lors d’une réunion :
Mr. Singhal introduced the freshness problem, explaining that simply changing formulas to display more new pages results in lower-quality searches much of the time. He then unveiled his team’s solution: a mathematical model that tries to determine when users want new information and when they don’t. (And yes, like all Google initiatives, it had a name: QDF, for “query deserves freshness.”)
Mr Singhal introduisit le problème de la fraîcheur, expliquant qu’un simple changement de la formule afin d’afficher plus de nouvelles pages entrainait la plupart du temps une baisse de la qualité des résultats.
Il dévoila alors la solution de son équipe : un modèle mathématique qui tente de déterminer quand l’utilisateur veut des informations nouvelles et quand il ne le veut pas. ( Modèle appelé QDF pour Query Deserve Freshness, ~ La requête mérite de la fraîcheur).
The QDF solution revolves around determining whether a topic is “hot.” If news sites or blog posts are actively writing about a topic, the model figures that it is one for which users are more likely to want current information. The model also examines Google’s own stream of billions of search queries, which Mr. Singhal believes is an even better monitor of global enthusiasm about a particular subject. As an example, he points out what happens when cities suffer power failures. “When there is a blackout in New York, the first articles appear in 15 minutes; we get queries in two seconds,” he says. Mr. Singhal says he tested QDF for a simple application: deciding whether to include a few news headlines among regular results when people do searches for topics with high QDF scores. Although Google already has a different system for including headlines on some search pages, QDF offered more sophisticated results, putting the headlines at the top of the page for some queries, and putting them in the middle or at the bottom for others.
La solution QDF tourne autour de la détermination de « l’actualité » (hot) d’un sujet.
Si des sites d’information ou des blogs sont actuellement en train d’écrire sur ce sujet, le modèle détermine qu’il fait sans doute parti de ceux pour lesquels l’utilisateur veut une information à jour, actuelle.
Le modèle étudie également le flux de Google sur les milliards de recherches effectuées, et qui, selon Mr Singhal, est même un meilleur moyen pour déterminer l’enthousiasme à propos d’un sujet particulier.
Comme exemple, il prend ce qui arrive lorsqu’une grande ville connait une coupure d’électricité. Lorsqu’une coupure survient à New York, les premiers articles apparaissent dans les 15 minutes, les premières requêtes, elles, dans les 2 secondes.
Mr Singhal dit qu’il testa QDF pour une application simple : la décision d’inclure ou non quelques titres de presse parmi les résultats lorsque les gens effectuent une requête ayant un haut score QDF.
Bien que Google possède déjà un système différent pour inclure de telles pages, QDF offrit des résultats de meilleure qualité, plaçant ces pages soit en haut des pages de résultats pour certaines requêtes soit dans le milieu ou en bas.
Cela explique sans doute certains des changements parfois constatés dans la façon dont les résultats sont affichés, et les pages classées (ou déclassées) et qui ne manquent jamais de générer quelques billets de blogs et des posts dans les forums.
L’article revient ensuite sur le fameux PageRank et développe :
Mr. Singhal has developed a far more elaborate system for ranking pages, which involves more than 200 types of information, or what Google calls “signals.” PageRank is but one signal. Some signals are on Web pages — like words, links, images and so on. Some are drawn from the history of how pages have changed over time. Some signals are data patterns uncovered in the trillions of searches that Google has handled over the years. “The data we have is pushing the state of the art,” Mr. Singhal says. “We see all the links going to a page, how the content is changing on the page over time.” Increasingly, Google is using signals that come from its history of what individual users have searched for in the past, in order to offer results that reflect each person’s interests. For example, a search for “dolphins” will return different results for a user who is a Miami football fan than for a user who is a marine biologist. This works only for users who sign into one of Google’s services, like Gmail.
Mr Singhal a développé un système bien plus élaboré pour déterminer le classement des pages qui prend en compte plus de 200 types d’informations, ce que Google appelle des “signaux”.
Le PageRank n’est qu’un signal parmi d’autres. Certains de ces signaux se trouve dans les pages – comme les mots, les liens, les images et autres.
Certains sont tirés de l’histoire des pages, comment elles ont évolué au fil du temps.
Certains signaux sont des motifs de données découverts dans les milliards de recherches que Google a géré depuis des années.
Les données que nous possédons sont exceptionnelles dit Mr Singhal. « Nous voyons tous les liens entrants sur une page, comment le contenu change sur la page dans le temps »
De plus en plus, Google utilise les signaux venant de l’historique de recherche des individus afin d’offrir des résultats qui reflètent les intérêts de l’individu.
Par exemple, une recherche sur « dolphin » [le nom d’une équipe de Miami] renverra des résultats différents pour un utilisateur fan de l’équipe de foot de Miami de ceux retournés à un utilisateur qui est biologiste marin.
Cela ne fonctionne que pour les utilisateurs utilisant un des services de Google nécessitant une authentification, comme Gmail.
Once Google corrals its myriad signals, it feeds them into formulas it calls classifiers that try to infer useful information about the type of search, in order to send the user to the most helpful pages. Classifiers can tell, for example, whether someone is searching for a product to buy, or for information about a place, a company or a person. Google recently developed a new classifier to identify names of people who aren’t famous. Another identifies brand names.
Une fois que Google a regroupé cette quantité phénoménale de signaux, il les traite grâce à des formules appelées « classificateurs » qui tentent de déterminer des informations utiles sur le type de recherche effectué, afin de retourner à l’utilisateur les pages les plus pertinentes.
Les classificateurs peuvent déterminer, par exemple, si quelqu’un cherche un produit à acheter, ou des informations sur un lieu, une entreprise ou une personne.
Google développa récemment un nouveau classificateur pour identifier les noms de gens qui ne sont pas célèbres. Un autre pour identifier les noms de marque.
These signals and classifiers calculate several key measures of a page’s relevance, including one it calls “topicality” — a measure of how the topic of a page relates to the broad category of the user’s query. A page about President Bush’s speech about Darfur last week at the White House, for example, would rank high in topicality for “Darfur,” less so for “George Bush” and even less for “White House.” Google combines all these measures into a final relevancy score.
Ces signaux et classificateurs calculent plusieurs mesures clefs pour la pertinence d’une page, y compris une appelée “topicality” (~thématique) – une mesure de la correspondance entre le thème de la page et la catégorie à laquelle appartient la requête de l’utilisateur.
Une page sur le discours du président Bush au sujet du Darfour la semaine dernière à la Maison Blanche par exemple, se classera en bonne place pour une « topicality » "Darfour", moins bien pour "George Bush" et encore moins pour "Maison Blanche".
Google combine toutes ces mesures dans un score final de pertinence.
J’ai un peu de mal à trouver une traduction satisfaisante pour « topicality », comme je le comprends, il y a à la fois les notions de "pertinence", "d’actualité", de "concordance thématique et temporelle’"…
Si un traducteur passe dans le coin, il est le bienvenu, parce que c’est pas mon métier et que je n’ai pas mon Harrap’s sous la main…
The sites with the 10 highest scores win the coveted spots on the first search page, unless a final check shows that there is not enough “diversity” in the results. “If you have a lot of different perspectives on one page, often that is more helpful than if the page is dominated by one perspective,” Mr. Cutts says. “If someone types a product, for example, maybe you want a blog review of it, a manufacturer’s page, a place to buy it or a comparison shopping site.”
Les sites avec les 10 plus hauts scores gagnent leur place parmi les résultats convoités de la première page à moins qu’un contrôle final montre qu’il n’y a pas assez de « diversité » dans les résultats.
« Si vous avez de nombreuses perspectives sur une page, c’est souvent plus utile que si la page est dominée par une seule » dit Matt Cutts.
« Si quelqu’un saisit le nom d’un produit par exemple, peut être veut-il une critique d’un blog sur le produit, ou la page du fabricant, un endroit pour l’acheter ou un site pour comparer les prix. »
Bon, sans m’en rendre compte, j’ai pratiquement tout – approximativement – traduit, j’espère que le NYT ne m’en tiendra pas rigueur et ne m’attaquera pas pour atteinte aux droits d’auteurs. Encore un lien vers l’article pour me faire pardonner : Google Keeps Tweaking Its Search Engine.
J’ai trouvé l’article du NYT via DazzlinDonna, et son billet Hoping for a stellar algo discussion. Et pour concrétiser cet espoir elle a ouvert un thread sur SEO Refugee.
Je viens de jeter un œil sur mon lecteur de flux, et Rand de SEOmoz vient de faire un billet : Remarkable Openness from Google's Black Box Thanks to Saul Hansel
Ainsi que Greg Linden de Geeking with Greg qui analyse tout particulièrement les problèmes soulevés par une intervention humaine dans l’ajustement de l’algorithme : The perils of tweaking Google by hand.
On est dimanche donc plutôt calme, mais j’imagine que dès lundi on commencera à lire pas mal d’analyses intéressantes sur les blogs SEO concernant cet article, à suivre donc.
lundi 4 juin 2007 | 02:39, Sergi
Blogmarks
Delicious
Scoopeo
Fuzz
Technorati
Mister Wong
English
Commentaires
1. Le lundi 4 juin 2007 à 10:13, par gégé
2. Le lundi 4 juin 2007 à 11:44, par Olivier Duffez
3. Le lundi 4 juin 2007 à 14:07, par Sergi
4. Le lundi 4 juin 2007 à 14:58, par Référencement Qualitatif
5. Le lundi 4 juin 2007 à 16:10, par cedric
6. Le lundi 4 juin 2007 à 19:03, par KZ
7. Le lundi 4 juin 2007 à 20:43, par guillaume
8. Le lundi 4 juin 2007 à 20:51, par Jean-Marie Le Ray
9. Le lundi 4 juin 2007 à 21:08, par Florian
10. Le mardi 5 juin 2007 à 03:13, par çaneditrien
11. Le mardi 5 juin 2007 à 03:28, par Bertrand
12. Le mardi 5 juin 2007 à 10:15, par cesu
13. Le mardi 5 juin 2007 à 10:37, par Bertrand P
14. Le mardi 5 juin 2007 à 10:40, par tuf
15. Le mardi 5 juin 2007 à 13:50, par alex
16. Le mardi 5 juin 2007 à 14:19, par Sergi
17. Le mardi 5 juin 2007 à 15:15, par alex
18. Le mardi 5 juin 2007 à 20:43, par Aurélien
19. Le mercredi 6 juin 2007 à 10:46, par Blog Master
20. Le mercredi 6 juin 2007 à 16:37, par Web-Ados
21. Le mercredi 6 juin 2007 à 17:14, par Olivier
22. Le mercredi 6 juin 2007 à 19:18, par seebz
23. Le jeudi 7 juin 2007 à 19:44, par Neoxy
24. Le jeudi 7 juin 2007 à 22:19, par Jeff
25. Le vendredi 8 juin 2007 à 00:40, par Sergi
26. Le vendredi 8 juin 2007 à 09:09, par Jeff
27. Le vendredi 8 juin 2007 à 13:13, par dd32
28. Le vendredi 8 juin 2007 à 15:51, par Sergi
29. Le mardi 12 juin 2007 à 16:10, par Sam
30. Le jeudi 14 juin 2007 à 23:41, par moto
31. Le mardi 8 avril 2008 à 01:55, par Alex
Ajouter un commentaire