lundi 7 février 2011

L'expansion du lexique. Les mots du Web

.
Au début de février 2011, l'anglais comptait 1 008 879 mots selon le Global Language Monitor (GLM) et 1 022 000 selon la Harvard Google/Study qui a compté les mots présents dans 15 millions de livres et révèle que cet univers lexical est en expansion au rythme de 160 mots par semaine. Ces comptages, pour discutables qu'ils soient, dans leur principe et dans leur marketing, sont sans doute réalistes. Déjà, remarque un lexicologue, il existe au moins un million d'insectes et chacun a son nom...
En comparaison de ces comptages sur le Web, The Oxford English Dictionary (OED, 1989, papier) ne propose que 301 100 entrées dans son édition de 2005. Ce nombre double (616 500) lorsque l'on prend en compte les mots dérivés, les composés, etc. L'édition en ligne (ODO), libérée des contraintes matérielles (encombrement), croît à  raison de 2 500 mots par trimestre (révisions comprises) et elle s'en tient à la synchronie, l'OED couvrant les aspects diachroniques (évolution des mots). Sur ce dernier point voir OED vs ODO.
Le GLM a une politique encore plus ouverte que l'OED, acceptant largement tous les mots, y compris ceux issus du tissage de mots anglais avec des mots d'autres langues (chinois, espagnol, hindi, etc.), les termes inventés par le cinéma (hollywords), etc. 
  • Les frontières du corpus qui donne naissance à un dictionnaire sont floues. Qu'est ce qu'un mot qui n'est compris que par quelques uns ? Quand un mot inusité cesse t-il d'être pris en compte ? Quelle fréquence d'usage, quelle extension géographique ? Que faire des mots de spécialistes (sciences, techniques), des régionalismes, des sociolectes et géolectes ? La délimitation est arbitraire ; il n'est pas commode d'établir le périmètre des mots d'une langue.
  • Dans la plupart des cas, on recense les mots écrits, les corpus étant puisés dans des livres, des journaux. Mais les mots que l'on dit, que l'on entend, comment les recenser ? Rares sont les bases de mots issues de l'oralité ; le Français fondamental de Georges Gougenheim élaboré dans les années 1950, à fin didactique, en ce domaine, fut révolutionnaire. 
  • Il ne peut exister d'échantillon représentatif des mots d'une langue car il ne peut exister de base de sondage d'où l'on pourrait tirer des mots de manière aléatoire.
Le Grand Robert compte 100 000 mots (et 800 000 formes fléchies, soit en moyenne 8 formes fléchies par mot). On on estime que le vocabulaire français passe à 700 000 termes et au-delà lorsque l'on incorpore le français technique et diverses créations lexicales récentes. Ainsi, d'un dictionnaire traditionnel à l'enregistrement de toutes les pratiques présentes par écrit sur le Web, le nombre de mots varie de 1 à 10. 
Et de touts ces mots, on dit que les Français n'utilisent en moyenne que 3 000 à 30 000, selon leur capital culturel et scolaire.
  • Le lexique d'Internet est 250 fois plus riche que le vocabulaire courant (25 fois plus riche que celui du public dit cultivé). Donc la fréquence des mots est fondamentale, donc leur lemmatisation aussi. Plus la fréquence d'un mot est basse (son rang élevé), plus il est probable qu'il est discriminant (cf. les travaux de Zipf, revus par Benoît Mandelbrot, à partir des résultats de Claude E. Shannon). 
  • Sans lemmatisation, l'orthographe brouille tous les calculs ; la maîtrise de l'orthographe varie selon l'âge et selon le capital culturel, cf. l'échelle Dubois-Buyse). Certaines "fautes" d'orthographe ont une source et une valeur socio-linguistiques (elles ciblent), d'autres sont des fautes de frappe (mais on dit que ces fautes - typo- rapporteraient gros sous la forme de typosquatting !).
Références 
Claude E. Shannon, Warren Waever, The Mathematical Theory of Communication, 1949
François Ters, Georges Mayer, Daniel Reichenbach, L'échelle Dubois-Buyse, 1988
Pierre Bourdieu et al., Rapport pédagogique et communication, 1968
Léon Brillouin, La science et la théorie de l'information, 1959 (Editions Jacques Gabay, 1988)
Benoit Mandelbrot,"Information Theory and Psycholinguistics", in Language by R.C. Oldfield and J.C. Marshall, 1968 pp. 263-275.
.

Aucun commentaire: