Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus, Geyken Alexander

Project Control, Project Closing, Timeline template

Get Started. It's Free
or sign up with your email address
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus, Geyken Alexander by Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus, Geyken Alexander

1. Corpus et dictionnaires : une comparaison quantitative

1.1. taille des corpus

1.1.1. nombre de tokens

1.1.1.1. =chaîne de caractère entre deux blancs

1.1.2. nombre de types

1.1.2.1. =tokens différents dans le corpus

1.2. taille des dictionnaires

1.2.1. nombre d'entrées annoncées

1.3. corpus de "première génération"

1.3.1. ex de corpus: Brown Corpus, Limas Corpus ...

1.3.2. millions de tokens + 50000 types pour Brown et 110000 types pour Limas

1.3.3. trop petit pour entrer en compétition avec un grand dictionnaire monolingue

1.3.3.1. ex de dictionnaire : DWB, Littré ...

1.3.3.2. nombre de type pas comparable avec nombre d'entrées d'un dictionnaire

1.4. Constat

1.4.1. rapports de grandeur s'inversent

1.4.1.1. ex: BNC ( 650000 types) dépasse le nombre d'entrées du ODE

1.4.1.2. ex: corpus DWDS dépasse de plus de 7 fois le nombre d'entrées du plus grand dictionnaire monolingue allemand (les frères GRIMM)

1.4.1.3. ex: DWDS-E contient 9 millions de types, soit 4 fois plus que le DWDS

1.4.2. augmentation du nombre de tokens entraîne augmentation du nombre de types

1.5. Comment comparer ce nombre de types avec le nombre d'entrées d'un dictionnaire ?

1.5.1. mot-forme

1.5.1.1. =tokens analysables morphologiquement

1.5.2. lexème

1.5.2.1. =forme regroupant des mots-formes qui ne se distinguent que par leur flexion

1.5.3. éliminer certaines formes du corpus

1.5.3.1. mots-formes d'autres langues, chiffres, dates ...

1.5.3.2. noms propres

1.5.3.3. mots-composés (transparent)

1.5.3.4. Loi de Zipf

1.5.3.4.1. =la majorité des types d’un corpus apparaît très rarement

1.5.3.4.2. nombre de types susceptibles d’être intégrés dans un dictionnaires diminue davantage

2. Corpus équilibré

2.1. Mots-simples ou composés

2.1.1. grands dictionnaires monolingues contiennent toujours des entrées qui ne sont pas présentes dans les corpus (HAUSSER)

2.1.1.1. ne concordent pas avec les informations présentes dans les « fiches » d’exemples attestés collectés par les lexicographes

2.1.2. ex: comparaison entre Webster et BNC

2.1.2.1. existe une série de mots présents dans le Webster qui ne sont pas attestés dans le BNC

2.1.2.1.1. ex: aspheric, dynamotor...

2.1.3. ex: comparaison entre la liste des entrées du dictionnaire Wörterbuch der Gegenwartssprache avec la liste des mots-formes du corpus DWDS

2.1.3.1. une centaine d’entrées ne sont pas présentes en tant que lexème dans le corpus

2.1.4. certaines acceptations présentes dans les dictionnaires et pas dans les corpus

2.1.4.1. ex: "dope" dont l’emploi adjectival est attesté dans le NODE

2.1.5. mots-composés encore moins présents dans les corpus

2.2. Expressions figées

2.2.1. étude de la répartition et du nombre d’occurrences de certaines expressions figées dans un grand corpus (DWDS-E)

2.2.1.1. But : décrire l’accroissement du nombre d’occurrences des expressions figées pour déduire la taille minimale qu’un corpus devait avoir pour pouvoir constituer une base d’études solide sur les expressions figées.

2.2.1.2. procédure d’échantillonnage correct (croissance régulière de la courbe)

2.2.1.3. corpus de la taille du BNC (100 millions de tokens) pas suffisant pour servir de base empirique

2.2.1.4. recherche de variantes lexicales ou syntaxiques totalement impossible.

2.3. conclusion

2.3.1. corpus équilibrés trop petits pour pouvoir servir de base à l’élaboration d’un grand dictionnaire monolingue