Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

Get Started. It's Free
or sign up with your email address
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus by Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

1. Les types regroupent beaucoup d’éléments qui ne forment pas des entrées de dictionnaire

2. Définition corpus

2.1. collection de données langagières

2.2. critères linguistiques et extralinguistiques

2.3. échantillon représentatif d'une langue

3. Chiffres

3.1. Taille dictionnaire = nombre d'entrées énoncées

3.2. Taille corpus = nombre de tokens + nombre de types

3.2.1. Ex : Brown / Lima --> Environ 50 à 110000 types BNC --> 650000 types > OED DWDS-E --> 9000000 types IDS --> 2 milliards mots

4. Mots simples / mots composés

4.1. Différences WDG / Dictionnaire

4.1.1. Entrées différentes, non connues, acceptions non attestées dans corpus.

5. Certains corpus ont des Lacunes lexicoraphiques

6. Expressions figées

6.1. Etude sur répartition et nombre (fréquence) d'occurences dans DWDS-E

6.1.1. Déterminer la taille minimale d'un corpus

6.1.2. Résultats : courbe croissante

6.1.3. Corpus type BNC (équilibrés) insuffisant pour étudier expressions figées

7. Genre grammatical

7.1. informations différente selon corpus / taille du corpus / dictionnaire

8. Archaisme

8.1. But : les annoter

9. MOURLAUD Morgane L3 SDL Groupe 2