L'avenir du Web Sémantique
Le vendredi 21 juillet 2006 à 23:06 :: Technologies :: #8
Lors d’une récente conférence sur l’intelligence artificielle, une intéressante passe d’armes eut lieu entre Sir Tim Berners-Lee , le père du Web et actuel directeur du World Wide Web Consortium et Peter Norvig, directeur chez Google pour les questions de recherche et d’intelligence artificielle.
Beaucoup de commentaires ont déjà été fait sur cet échange, et c’est l’occasion pour nous de revenir sur ce qu’est le Web Sémantique.
L’idée sous jacente au Web Sémantique, est que les contenus des pages web puissent être lus aussi facilement par les machines que par les humains.
A l’heure actuelle, le web n’est qu’une énorme masse de données non structurées, mal organisées, avec très peu de liens pour regrouper des ensembles de documents entre eux et pratiquement impossibles à manipuler par les machines.
Le but du Web Sémantique est donc de permettre une meilleure catégorisation des contenus (ou classification, à la manière de ce qui peut se faire, par exemple, dans les bibliothèques), de les relier entre eux, ainsi que d'en identifier les sources, rendant ces contenus plus facilement accessibles et plus utiles.
Le Web Sémantique est conçu et a pour ambition d’interconnecter facilement toutes sortent de données et de permettre leur partage.
Comme le dit Tim Berners-Lee dans cette interview :
Le but du Web Sémantique est de créer un moyen universel pour l’échange de données, là ou les données peuvent être partagées et traitées aussi bien par des outils automatisés que par des humains.
Le Web Sémantique n’a pas pour sujet le sens d’un document dans une langue donnée. Il ne s’agit pas de marquer des documents HTML afin de permettre à des ordinateurs de comprendre de quoi ils parlent. Il ne s’agit pas d’intelligence artificielle et de compréhension par les machines du langage naturel, le mot sémantique a ici un autre sens. Il est question de données qui actuellement se trouvent dans des bases de données relationnelles, dans des documents XML, des feuilles de tableurs et des fichiers en formats propriétaires, et auxquels il serait utile de pouvoir accéder comme à une seule et immense base de donnée.
Pour réaliser cela, d’important changements dans la conception même de ce qu’est le Web et comment son contenu est crée sont nécessaires. Des technologies, des outils et des langages nouveaux doivent être utilisés.
C’est à cette tâche que s’est attelé le W3C, et selon Tim Berners-Lee, elle est désormais suffisamment avancée, et le moment est venu d’utiliser ces nouveaux outils.
Le principal de ces outils étant un langage sémantique, le RDF (Resource Description Framework). Ce langage a pour but, fondamentalement, de représenter les méta-données du contenu. Plus spécifiquement de fournir des informations sur les propriétés des ressources du Web, sur leurs relations avec d’autres ressources et de les identifier par des URI (Universal Resource Identifiers).
Ces URI ont une portée globale, elles sont centrales au Web Sémantique et l’étayent en permettant aux machines de traiter ces données directement en pointant non pas vers un document mais vers un objet de base de donnée. Ainsi, l’importance est transférée du document vers les données.
D’autre outils ont été, et sont encore en cours de développement, tels que OWL (Web Ontology Language), utilisé pour publier et partager des ensembles de termes – ontologies – supportant des recherches avancées, et SPARQL, un langage de requête dont le W3C a récemment annoncé le passage en ‘Candidate Recommendation’.
Les ‘ontologies’ peuvent, d’une certaine manière, être comparées aux ‘tags’ utilisés dans les systèmes de folksonomie. Mais le but en est très différent. Les ontologies sont une tentative de décrire très précisément des données et de permettre le mapping et l’intéraction entre ces données bien qu’elles soient dans différents formats. Aussi, les ontologies se doivent d’être extrêmement précises afin de lever toute ambiguïté.
Pour en revenir à l’échange entre Berners-Lee et Norvig, ce dernier avança quelques éléments pour expliquer les difficultés à implémenter le Web Sémantique et les problèmes à surmonter avant que celui-ci puisse se développer pleinement :
Ce que j’entends le plus est : "Pourquoi êtes-vous contre le Web Sémantique ?" Je ne suis pas contre le Web Sémantique. Mais du point de vue de Google, il y a plusieurs choses qui doivent être préalablement réglées, l’imcompétence étant la première d’entre elles.
Peter Norvig précisa qu’il ne faisait pas allusion à l’incompétence de Berners-Lee ou du W3C mais à celle des utilisateurs lambda et plus spécifiquement à celle des webmasters :
Nous avons à faire à des millions de webmasters qui ne savent pas configurer un serveur, ne savent pas écrire du HTML. Il est difficile pour eux de passer à un niveau supérieur.
L’autre point soulevé, est la compétition, certains acteurs qui sont leader sur leurs marché ne voient pas l’intérêt pour eux de standardiser.
Le troisième problème qu’il pointe est la "fraude" régnant actuellement :
Nous avons à faire, tous les jours, à des gens tentant de se positionner au mieux dans les résultats (des moteurs de recherche) et qui tentent de vendre à quelqu’un du Viagra alors que ce n’est pas ce qu’il recherche. Avec une surveillance humaine encore amoindrie dans le Web Sémantique, nous nous inquiétons qu’il devienne encore plus facile de tromper les utilisateurs.
Berners-Lee admit que la tricherie sur Internet est effectivement un problème, mais il argua du fait que justement, un des buts du Web Semantique est d’identifier la source de l’information, et de déterminer si et pourquoi on peut accorder sa confiance à une telle information.
Il termina en mettant en avant les choses magnifiques
réalisées dans le passé par l’entreprise de Mountain View pour le web en général, la puissance de Google, et sa possibilité, du fait de cette situation, de réitérer dans le domaine du Web Sémantique.
Une des questions que l’on peut se poser est :
Google s’investira-t-il dans le Web Sémantique ?
Et si la réponse est non, qu’elles en seront les conséquences ?
Pour Google et pour l’avenir du Web Sémantique.
vendredi 21 juillet 2006 | 23:06, Sergi




English

Commentaires
1. Le jeudi 27 juillet 2006 à 16:48, par xavier
2. Le jeudi 27 juillet 2006 à 17:16, par zouzouwizman
3. Le jeudi 27 juillet 2006 à 19:05, par Sergi
Ajouter un commentaire