Moteurs News

lundi 31 juillet 2006

AdSense, transparence et communication. En progrès, peut mieux faire.

A la suite de l’action en justice intentée contre Google (Lane Gift’s vs Google), l’accord à l’amiable proposé a été validé la semaine dernière par la court de l’Arkansas saisie de l’affaire.

Pour résumer l’histoire en quelques mots, en février 2005, Lane’s Gift & Collectibles and Caufield attaquèrent Google en justice, l’accusant de leur avoir fait payer des clics frauduleux, clics non légitimes sur des annonces publiées via le réseaux AdWords de Google. « Faux clics » dont le but est d’augmenter les revenus des sites les diffusant.

Un accord amiable portant sur 90 millions de dollars ( 30 millions pour les frais de justice, 60 millions pour l’indemnisation des annonceurs en crédit d’annonces sur Adwords ) avait été proposé. C’est cet accord qui vient d’être accepté.

Inutile de dire que Google s’en satisfait pleinement, 90 millions de dollars étant une somme presque ridicule au vu des montants générés par son réseau publicitaire, et qui aurait pu être bien plus importante si l’action avait été à son terme.

En outre, selon cet accord, tous les annonceurs AdWords qui ne se sont pas expressément exclus de ce recours, ne peuvent théoriquement plus attaquer Google de nouveaux pour ces mêmes faits. Pour ceux intéressés, vous avez jusqu’au 4 août pour faire valoir vos droits et demander un dédommagement, vous trouverez toutes les informations sur ce site.

Je m’en tiendrais là pour l’aspect juridique car ce n’est sans doute pas fini, un appel semble se dessiner.

Plusieurs choses intéressantes sont sorties de cette affaire.

Tout d’abord, le rapport commandé par la court à un expert indépendant, le Dr. Alexander Tuzhilin, sur les mesures prises par Google pour lutter contre la fraude aux clics. Ce texte de 47 pages est sans doute le document le plus exhaustif jamais publié sur ce sujet. Pour ceux qui n’aurait pas le courage ou le temps de le lire, je ne peux que vous recommander cette analyse détaillée de Danny Sullivan.

Bien que ce rapport ne nous dévoile pas tous les secrets de Google pour des raisons de confidentialités évidentes, il est néanmoins riche d’enseignements sur les différents systèmes mis en place pour filtrer les clics invalides et sur les critères de validité de ces clics.

Voici la conclusion du Dr. A. Tuzhilin :

On m’a demandé d’évaluer les efforts fournis par Google pour détecter les clics invalides et de conclure si ces efforts sont raisonnable ou pas. En me basant sur mon évaluation, je conclu que les efforts fournis par Google pour combattre les clics frauduleux sont raisonnables.

On sait que les « faux clics » sur les annonces dans le but d’augmenter les revenus des sites les diffusants posent un réel problème dans ce modèle PPC (Pay Per Click) des liens sponsorisés. Certaines études récentes estiment le taux de clics frauduleux à environ 15%. D’autres pensent que le taux de fraude pourrait monter jusqu’à 30%.

Mais des chiffres précis et réels sont très difficile à connaître dans la mesure ou Google et les autres moteurs de recherche se sont toujours refusés à communiquer les données relatives à la fraude aux clics pour des raisons de confidentialité.

Beaucoup d’annonceurs commencent à se plaindrent qu’aucune expertise indépendante des moteurs de recherche ne puisse être effectuée faute d’accès aux données. Considérant les sommes investies dans la publicité en ligne, il ne semble pas déraisonnable que les annonceurs puissent disposer d’analyses indépendantes sur la réalité de la fraude et sur les moyens mis en oeuvre par les moteurs pour la combattre.

Cette opacité et ce manque de communication de la part des moteurs de recherche et de Google en particulier ont souvent été décriées, tant par les annonceurs que par les diffuseurs. Les premiers estimant que Google leur facturait des clics qui n’auraient pas du l’être, les seconds lui reprochant de bannir des comptes d’éditeurs AdSense sans prouver la fraude, et parfois de manière non justifiée (au dire des propriétaires de sites bannis tout au moins).

Pour répondre à certaines de ces critiques, Google annonça peu de temps après le règlement juridique de l’accord amiable la mise en place d’un nouveau système d’information sur les clics invalides pour ses clients AdWords.

Dans le panneaux d’administration AdWords, le nombre et le taux de clics considérés par Google comme invalides sont désormais affichés.

Certains arguent du fait que cela ne change rien, dans la mesure où Google reste le seul à décider de la validité ou non d’un clic, ne fournit ni explication ni justification, et qu’aucune contre vérification n’est possible.

Pour ce qui est des éditeurs AdSense se récriant contre les sanctions en cas de fraude, voici un exemple récent de la difficulté de communication lors d’un échange de mails entre un éditeur en instance de bannissement et Google. (via Search Engine Roundtable) :

  • L’éditeur reçoit un mail de Google lui annonçant que des annonces publiées sur son site ont fait l’objet de clics invalides générés soit par des utilisateurs payés pour cliquer, soit par des programmes automatisant la tâche. Il le prévient que si d’autres clics frauduleux sont détectés, sont compte AdSense peut être annulé.
  • L’éditeur répond de sa bonne foi, expliquant qu’il n’utilise pas de telles techniques, et demande ce qu’il peut faire pour empêcher que de tels clics se reproduisent à l’avenir.
  • Google répond qu’il ne peuvent lui fournir aucuns détails mais qu’ils lui confirment que son compte est bien en infraction avec les Conditions Générales d’Utilisation et lui fournissent un lien vers ces dites CGU.
  • De nouveau l’éditeur exprime son désire de résoudre ce problème, et de se mettre en règle avec Google, il affirme qu’il n’a rien fait qui soit susceptible de violer les CGU, et que toutes informations de la part de Google sur la nature de ces violations pourraient lui permettre de comprendre et peut être d’empêcher le problème de se reproduire.

Le mail suivant de la part de Google, lui apprend que son compte AdSense a été désactivé.

Fin de l’histoire.

La fraude aux clics a encore de beaux jours devant elle si l’on en croit la plupart des experts sur le sujet. D’aucuns pensent qu’elle met en péril le modèle même des liens sponsorisés dans sa forme la plus répandue, le Pay Per Clicks, qui la favorise tout particulièrement et la rend inhérente au système.

C’est pourquoi d’autre approches sont étudiées, notamment le PPP (Pay Per Percentage) par Microsoft et le PPA (Pay Per Action) déjà en test chez Google.

Quoiqu’il en soit, il est indéniable que Google en particulier et les grands moteurs de recherche en général, ont encore beaucoup de progrès à faire pour atteindre un niveaux de transparence acceptable pour leurs clients.

Des efforts ont donc été fait récemment, mais l'appréciation reste :
En progrès peut mieux faire.

vendredi 21 juillet 2006

L'avenir du Web Sémantique

Lors d’une récente conférence sur l’intelligence artificielle, une intéressante passe d’armes eut lieu entre Sir Tim Berners-Lee , le père du Web et actuel directeur du World Wide Web Consortium et Peter Norvig, directeur chez Google pour les questions de recherche et d’intelligence artificielle.

Beaucoup de commentaires ont déjà été fait sur cet échange, et c’est l’occasion pour nous de revenir sur ce qu’est le Web Sémantique.

L’idée sous jacente au Web Sémantique, est que les contenus des pages web puissent être lus aussi facilement par les machines que par les humains.

A l’heure actuelle, le web n’est qu’une énorme masse de données non structurées, mal organisées, avec très peu de liens pour regrouper des ensembles de documents entre eux et pratiquement impossibles à manipuler par les machines.

Le but du Web Sémantique est donc de permettre une meilleure catégorisation des contenus (ou classification, à la manière de ce qui peut se faire, par exemple, dans les bibliothèques), de les relier entre eux, ainsi que d'en identifier les sources, rendant ces contenus plus facilement accessibles et plus utiles.

Le Web Sémantique est conçu et a pour ambition d’interconnecter facilement toutes sortent de données et de permettre leur partage.

Comme le dit Tim Berners-Lee dans cette interview :

Le but du Web Sémantique est de créer un moyen universel pour l’échange de données, là ou les données peuvent être partagées et traitées aussi bien par des outils automatisés que par des humains.

Le Web Sémantique n’a pas pour sujet le sens d’un document dans une langue donnée. Il ne s’agit pas de marquer des documents HTML afin de permettre à des ordinateurs de comprendre de quoi ils parlent. Il ne s’agit pas d’intelligence artificielle et de compréhension par les machines du langage naturel, le mot sémantique a ici un autre sens. Il est question de données qui actuellement se trouvent dans des bases de données relationnelles, dans des documents XML, des feuilles de tableurs et des fichiers en formats propriétaires, et auxquels il serait utile de pouvoir accéder comme à une seule et immense base de donnée.

Pour réaliser cela, d’important changements dans la conception même de ce qu’est le Web et comment son contenu est crée sont nécessaires. Des technologies, des outils et des langages nouveaux doivent être utilisés.

C’est à cette tâche que s’est attelé le W3C, et selon Tim Berners-Lee, elle est désormais suffisamment avancée, et le moment est venu d’utiliser ces nouveaux outils.

Le principal de ces outils étant un langage sémantique, le RDF (Resource Description Framework). Ce langage a pour but, fondamentalement, de représenter les méta-données du contenu. Plus spécifiquement de fournir des informations sur les propriétés des ressources du Web, sur leurs relations avec d’autres ressources et de les identifier par des URI (Universal Resource Identifiers).

Ces URI ont une portée globale, elles sont centrales au Web Sémantique et l’étayent en permettant aux machines de traiter ces données directement en pointant non pas vers un document mais vers un objet de base de donnée. Ainsi, l’importance est transférée du document vers les données.

D’autre outils ont été, et sont encore en cours de développement, tels que OWL (Web Ontology Language), utilisé pour publier et partager des ensembles de termes – ontologies – supportant des recherches avancées, et SPARQL, un langage de requête dont le W3C a récemment annoncé le passage en ‘Candidate Recommendation’.

Les ‘ontologies’ peuvent, d’une certaine manière, être comparées aux ‘tags’ utilisés dans les systèmes de folksonomie. Mais le but en est très différent. Les ontologies sont une tentative de décrire très précisément des données et de permettre le mapping et l’intéraction entre ces données bien qu’elles soient dans différents formats. Aussi, les ontologies se doivent d’être extrêmement précises afin de lever toute ambiguïté.

Pour en revenir à l’échange entre Berners-Lee et Norvig, ce dernier avança quelques éléments pour expliquer les difficultés à implémenter le Web Sémantique et les problèmes à surmonter avant que celui-ci puisse se développer pleinement :

Ce que j’entends le plus est : "Pourquoi êtes-vous contre le Web Sémantique ?" Je ne suis pas contre le Web Sémantique. Mais du point de vue de Google, il y a plusieurs choses qui doivent être préalablement réglées, l’imcompétence étant la première d’entre elles.

Peter Norvig précisa qu’il ne faisait pas allusion à l’incompétence de Berners-Lee ou du W3C mais à celle des utilisateurs lambda et plus spécifiquement à celle des webmasters :

Nous avons à faire à des millions de webmasters qui ne savent pas configurer un serveur, ne savent pas écrire du HTML. Il est difficile pour eux de passer à un niveau supérieur.

L’autre point soulevé, est la compétition, certains acteurs qui sont leader sur leurs marché ne voient pas l’intérêt pour eux de standardiser.

Le troisième problème qu’il pointe est la "fraude" régnant actuellement :

Nous avons à faire, tous les jours, à des gens tentant de se positionner au mieux dans les résultats (des moteurs de recherche) et qui tentent de vendre à quelqu’un du Viagra alors que ce n’est pas ce qu’il recherche. Avec une surveillance humaine encore amoindrie dans le Web Sémantique, nous nous inquiétons qu’il devienne encore plus facile de tromper les utilisateurs.

Berners-Lee admit que la tricherie sur Internet est effectivement un problème, mais il argua du fait que justement, un des buts du Web Semantique est d’identifier la source de l’information, et de déterminer si et pourquoi on peut accorder sa confiance à une telle information.

Il termina en mettant en avant les choses magnifiques réalisées dans le passé par l’entreprise de Mountain View pour le web en général, la puissance de Google, et sa possibilité, du fait de cette situation, de réitérer dans le domaine du Web Sémantique.

Une des questions que l’on peut se poser est :

Google s’investira-t-il dans le Web Sémantique ?

Et si la réponse est non, qu’elles en seront les conséquences ?

Pour Google et pour l’avenir du Web Sémantique.

mardi 18 juillet 2006

Les facteurs les plus importants pour les moteurs de recherche.

Quels sont les différents éléments pris en compte et quel sont leurs poids respectifs.

Fortune Interactive vient de publier une très intéressante étude comparative des trois principaux moteurs de recherche : Google, Yahoo! et MSN.

Le but de cette étude est de mettre en évidence les différences de ces trois algorithmes dans la détermination du classement d’une page dans les résultats de recherche.

Pour ce faire, Fortune Interactive a utilisée sa technologie propriétaire SEMLogic.

L’étude a portée sur l’analyse des cent premiers résultats fournis par Google, Yahoo! et Msn sur le mot « laptop », terme extrêmement concurrentiel.

Le principal résultats mis en évidence est l’importance des facteurs externes à la page dans la détermination du classement sur les pages de résultats. Selon les auteurs les facteurs d’optimisation externes surpassent n’importe lequel des facteurs internes, tel que la densité de mot clefs du titre , lequel reste le plus important de tous les éléments propre à la page.

Parmi ces facteurs externes, les principaux sont :

  • La qualité des liens entrants. Il se caractérise par l’analyse des éléments clefs de la page qui fait le lien. C’est cette qualité qui se répercute sur la page de destination du lien. Selon eux, c’est le seul élément qui a le même degré d’importance pour tout les moteurs, et c’est également celui qui a le plus de poids.
  • La pertinence du lien entrant. C’est la mesure de la pertinence du contenu de la page faisant le lien par rapport au mot clef analysé. Toujours selon eux, MSN et Yahoo! attribueraient à ce facteur le même degré d’importance, mais moins que Google ne le fait.
  • La densité de mot clef de l’ancre de la page faisant le lien. A ce facteur, Google et Yahoo! attribuent la même importance, mais un peu moins que MSN.
  • La quantité de liens entrants. Yahoo! et MSN attribuent la même importance à ce facteur, mais moins que Google. Selon l’étude, la quantité de liens entrants serait, pour les trois moteurs étudiés, le facteur externe le moins important pour déterminer le classement dans le pages de résultats.

L’intérêt de cette étude est non seulement de comparer l’importance que ces trois moteurs attribuent à ces facteurs, mais également l’importance relative que chacun leurs accordent.

Ainsi, selon eux, la qualité de liens entrant serait pour Google 43 fois plus importante que leurs quantité. La pertinence de la page faisant le lien serait elle 11,6 fois plus importante que la quantité de liens.

On peut évidemment arguer du fait qu’une étude portant sur cet unique terme, « laptop », ne saurait être pertinente, mais leurs auteurs et les fondateurs de Fortune Interactive, sont des personnalités reconnues dans le domaine des moteurs de recherche, et dans l’étude de leurs algorithmes. En outre, cette étude n’est que la première d’une série de trois qui permettront sans doute de conforter ou d’invalider ces résultats.

Les résultats complets et détaillés de cette étude sont disponibles sur le site de Fortune Interactive : http://www.fortuneinteractive.com/laptop.php

English English

S'abonner

  • Add to Google
  • Ajouter à Mon Yahoo!
  • Abonnement Bloglines
  • Subscribe in NewsGator Onlines
  • S'abonner avec Netvibes
  • D'autres infos sur Twitter:

Sites amis