Anmelden     Home    Kontakt    Impressum 
 




Testen Sie jetzt die Beta von DWDS 2.0
DWDS · Textbasis · Kerncorpus                      Hilfe  


Kerncorpus

"Juilland-D"-Corpus

Corpus Gesprochene Sprache

Berliner Wendecorpus

 

Kerncorpus

Textsorten

Die Auswahl der Texte wurde von der Arbeitsgruppe DWDS und Mitgliedern der Berlin-Brandenburgischen Akademie der Wissenschaften begleitet und begutachtet. Ziel war es, dem Ideal der Repräsentativität möglichst nahe zu kommen, und ein lexikographisches Corpus zusammenzustellen, das als ausgewogen und hinreichend groß in Bezug auf den Forschungsgegenstand "deutscher Wortschatz des 20. Jahrhunderts" bewertet werden kann. Das DWDS-Kerncorpus ist folgendermaßen verteilt:

  • Schöne Literatur (ca. 26%)
  • Journalistische Prosa (ca. 27%)
  • Fachprosa (ca. 22%)
  • Gebrauchstexte (ca. 20%)
  • (Transkribierte) Texte gesprochener Sprache (ca. 5%)

Rechtevereinbarungen

Bereits frühzeitig hat das Projekt daher Nutzungsvereinbarungen mit Verlagen wie Aufbau, Diogenes Verlag, Eichborn, S. Fischer Verlagsgruppe, Hoffmann & Campe, Kiepenheuer & Witsch, K.G. Saur Verlag, Spiegel, Suhrkamp, Ullstein, ZEIT sowie öffentlichen und privaten Textgebern (z.B. Deutsches Rundfunkarchiv, Digitale Bibliothek) getroffen. Somit kann das Projekt z.B. Werke von Thomas und Heinrich Mann, Martin Walser, Heinrich Böll, Jürgen Habermas oder Victor Klemperer für die Internetrecherchen zur Verfügung stellen.

Aktuelles Kerncorpus - online

Das Kerncorpus-online folgt weitestmöglich den oben genannten Verteilungen bis auf die Textsorte gesprochene Sprache, die seit Oktober 2006 als eigenes Corpus verfügbar ist. Das Kerncorpus-online ist je nach Texteinwerbungen Veränderungen unterworfen und wird daher versioniert. Die Änderungen verändern nicht die Corpusgröße als solche; sie stellen eine qualitative Veränderung dar.

Einige Zahlen (aktuelle Kerncorpus-Version 0.95, Stand 25.6.2005):


Anzahl fortlaufender Textwörter (tokens) - gesamt: 122.816.010
Anzahl fortlaufender Textwörter (tokens) - ohne Zahlen und Satzzeichen: 100.600.993 
Anzahl verschiedener Wörter (types): 2.224.542
Anzahl Dokumente: 79.830

Verteilung der Textwörter

"Ideale" geplante Verteilung:

21.05%        für Gebrauchsliteratur
28.42%        für Belletristik  
23.15%        für Wissenschaft
27.36%        für Zeitung

Die tatsächliche Verteilung weicht von der "idealen" Verteilung ab (Toleranzabweichung von 12,5%), da derzeit noch 3 Dekaden deutlich unter den geplanten Größen liegen.  Dies sind die Dekaden 7+8 der Gebrauchsliteratur sowie 9. Dekade in der Textsorte Belletristik). Es ist geplant, diese drei Textsortendekaden in den nächsten 12 Monaten aufzufüllen.

Textsorte Dekade (20. Jh)
Anzahl laufender Textwörter
Belletristik 1
2542807
Belletristik 2 3259726
Belletristik 3 3212220
Belletristik 3261446
Belletristik 5
2078014
Belletristik 6
3234186
Belletristik 7
2227026
Belletristik 8
2391338
Belletristik 9
2023919
Belletristik 10
2332459
Gebrauchsliteratur 1 2286829
Gebrauchsliteratur 2
2421260
Gebrauchsliteratur 3
2438427
Gebrauchsliteratur 4
2151094
Gebrauchsliteratur 5
2442199
Gebrauchsliteratur 6
2402293
Gebrauchsliteratur 7
1292670
Gebrauchsliteratur 8
1363232
Gebrauchsliteratur 9
2419838
Gebrauchsliteratur 10
2414668
Wissenschaft 1
2374435
Wissenschaft 2
2725471
Wissenschaft 3
2444098
Wissenschaft 4
2550222
Wissenschaft 5
2147141
Wissenschaft 6
2596157
Wissenschaft 7
2390911
Wissenschaft 8
2371863
Wissenschaft 9
2399778
Wissenschaft 10
2371571
Zeitung 1
2346961
Zeitung 2
2546206
Zeitung 3
3139119
Zeitung 4
3138888
Zeitung 5
2842066
Zeitung 6
2804838
Zeitung 7
2803179
Zeitung 8
2802643
Zeitung 9
2804187
Zeitung 10
2805608