Google vous offre sa base de données (6 DVD)
Le dimanche 6 août 2006 à 23:38 :: Google :: #11
Google vient d’annoncer qu’il mettrait prochainement à disposition son index «N-gram». Il sera disponible sous la forme de 6 DVD, sans doute payants.
Cet ensemble de données, est utilisé par Google dans plusieurs de ses projets de recherche, tels que les systèmes de traduction automatique, de correction orthographique, d’extraction d’informations, ou encore de reconnaissance vocale.
C’est sans doute un des plus grands ensemble de données de ce type mis à la disposition de tous ceux intéressés. Et c’est une opportunité exceptionnelle pour tous les groupes travaillant dans ce domaine de recherche, parfois trop petits pour avoir la capacité technique et financière de réaliser ou d’accéder à ce type d’ensemble de données.
Il a été constitué à partir du traitement de plus de mille milliards (1.011.582.453.213) de mots extraits de pages web.
Il se compose de plus d’un million (1.146.580.664) de séquences de 5 mots étant apparues au moins 40 fois et de 13.653.070 mots uniques.
Les mots dont l’occurrence étant inférieure à 200 n’ayant pas été retenus.
L’utilité de ce corpus :
Un modèle N-gram (ou N-gramme) est utilisé pour déterminer la probabilité d’occurrence d’une lettre ou d’un mot à partir d’une séquence donnée. L’hypothèse de base du N-gramme est que étant donné une séquence de n éléments, la probabilité d’occurrence d’un élément en position i ne dépends que des éléments n-1.
Ainsi, à partir d’un début de phrase, il est possible de déterminer une probabilité d’apparition des mots qui la finiront.
Ex :
- Les chats aiment
- Les chats aiment le
- Les chats aiment le lait
- Les chats aiment le poisson
Ce type de modèle est utilisé notamment dans le traitement du langage naturel ou de la reconnaissance vocale. Mais son efficacité dépend essentiellement du corpus sur lequel il se base.
Plus celui-ci est important, plus les résultats seront précis et pertinents. Et c’est là tout intérêt du dataset mis à disposition par Google.
La contrepartie déjà évoquée par certains, est que les spammeurs seront bien capables d’en profiter eux aussi, et qu’il fournira une nourriture riche et utile aux algorithmes de génération aléatoire de phrases.
Quoiqu’il en soit, c’est à mon sens une très bonne initiative de la part de Google de partager ce type de ressources et d’en faire profiter la communauté. Cela ne peut que contribuer à faire avancer les recherches dans ce domaine, on ne peut que s’en réjouir.
dimanche 6 août 2006 | 23:38, Sergi
Blogmarks
Delicious
Scoopeo
Fuzz
Technorati
Mister Wong
English
Commentaires
Aucun commentaire pour le moment.
Ajouter un commentaire