The DWDS corpus: A reference corpus for the German language of the 20th century Section 7: ...

Kom i gang. Det er Gratis
eller tilmeld med din email adresse
The DWDS corpus: A reference corpus for the German language of the 20th century Section 7: Numérisation af Mind Map: The DWDS corpus: A reference corpus for the German language of the 20th century       Section 7: Numérisation

1. méthodes

1.1. reconnaissance optique de caractères : (OCR)

1.1.1. faible coût/efficacité

1.1.2. taux de reconnaissance de 95% à99%

1.1.2.1. acceptable

1.1.3. correction création index

1.1.3.1. noms

1.1.3.2. dates

1.1.3.3. évènements

1.1.4. but lexicographique

1.1.4.1. tous mots

1.1.4.1.1. mots clés

1.1.4.2. taux d'erreurs faible

1.1.5. conversion XML

1.1.5.1. effort manuel

1.1.6. DWSD Kerncorpus

1.1.6.1. petits échantillons

1.1.6.1.1. diversité texte

1.2. transcription manuelle

1.2.1. coût élevé

1.2.2. pas plus de 5 erreurs pour 10 000 caractères

1.2.3. surmonte problèmes liés OCR

1.2.4. codage simultané

2. sélection initiale de texte

2.1. pas considération

2.1.1. statut copyright

2.1.2. disponibilité textes format électronique

2.2. Kerncorpus

2.2.1. 60% textes format électronique

2.2.1.1. CD-ROMs

2.2.1.2. maisons d'édition

2.2.1.3. conversion des données

2.2.1.3.1. format structuré

2.2.2. 40 millions de "tokens"

2.2.2.1. numérisation papier

3. Pré-révision

3.1. scanners d'image

3.2. logiciel

3.2.1. opérations fondamentales

3.2.1.1. copier

3.2.1.2. coller

3.2.1.3. insertion de texte

3.3. étapes

3.3.1. sélection documents

3.3.1.1. significatif

3.3.2. contrôle qualité texte de contribution

3.3.3. majoration parties difficiles

4. production dossiers

4.1. format UMTF-8 avec majoration XML

4.2. validation contre DTD

4.2.1. variation genres de texte

4.3. adhésion directives Text Encoding Initiative

5. Codage

5.1. fait par des humains

5.1.1. sans connaissances particulières

5.1.1.1. contenu textes

5.1.1.2. XML

5.2. par des natifs

6. COMBRE Alexia, L3 SDL