Rechercher des mots dans 5 millions de livres

2010/12/17 § 1 commentaire

Google vient de lancer un énième outil.

Ca s’appelle Ngram Viewer (du n-gramme de Claude Shannon I guess) et ça vous permet de voir l’évolution d’un mot sur 2 siècles (1800-2000) dans 5 millions de livres (si vous faites partie d’un labo, hein, l’utilisateur lambda n’a accès qu’à un corpus limité, faut pas rêver).

La base de données compte « 361 millards de mots anglais, 45 milliards de mots français et espagnols, 37 milliards de mots allemands et des milliards de mots russes, chinois, hébreux. »

Le mot, un organisme vivant

Je vois tout de suite l’intérêt d’un tel programme, pour un linguiste ou un poète par exemple.

C’est l’occasion pour eux de saisir le mot comme un organisme, dont on mesure la naissance, l’évolution, parfois la disparition, qu’on peut voir, en temps réel, croître ou décroître, sorte de cellule qui se divise indéfiniment.

Naissance du mot "blog"

Utilisation

Il y a bien d’autres intérêts à un tel outil. Le magazine Science devrait publier demain une étude sur ce corpus, menée par Harvard.

Ce que le corpus montre déjà (d’après Slate) :

  • L’évolution de la grammaire : « burned » remplace « burnt » à partir de 1860 en anglais.
  • Une corrélation forte entre les noms de maladie et les pics d’épidémie.
  • L’existence d’une énorme quantité de matière lexicale obscure : plus de la moitié des mois n’apparaissent dans aucun dico.

Ce qu’il permettra (entre autres) :

  • De mesurer l’influence d’une personnalité au cours du temps
  • D’établir des liens entre un événement historique/une mesure politique et son impact dans la société
  • De mesurer l’évolution quantitative du lexique
  • De retracer l’évolution historique d’un mot

Humanisme numérique et Google Books

Ce programme s’inscrit en fait dans les efforts de Google pour développer les « Digitals humanities » (leur manifeste est ici).

C’est aussi l’occasion pour l’entreprise de soigner son image, écornée par une numérisation d’ampleur qui a parfois donné l’impression qu’elle avait été réalisée sans réflexion. L’humanisme numérique est un des outils de cette revalorisation.

Advertisements

§ Une réponse à Rechercher des mots dans 5 millions de livres

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Qu’est-ce que ceci ?

Vous lisez actuellement Rechercher des mots dans 5 millions de livres à SoBookOnline.

Méta

%d blogueurs aiment cette page :