Kerncorpus "Juilland-D"-Corpus Corpus Gesprochene Sprache Berliner Wendecorpus |
KerncorpusTextsortenDie Auswahl der Texte wurde von der Arbeitsgruppe DWDS und Mitgliedern der Berlin-Brandenburgischen Akademie der Wissenschaften begleitet und begutachtet. Ziel war es, dem Ideal der Repräsentativität möglichst nahe zu kommen, und ein lexikographisches Corpus zusammenzustellen, das als ausgewogen und hinreichend groß in Bezug auf den Forschungsgegenstand "deutscher Wortschatz des 20. Jahrhunderts" bewertet werden kann. Das DWDS-Kerncorpus ist folgendermaßen verteilt:
RechtevereinbarungenBereits frühzeitig hat das Projekt daher Nutzungsvereinbarungen mit Verlagen wie Aufbau, Diogenes Verlag, Eichborn, S. Fischer Verlagsgruppe, Hoffmann & Campe, Kiepenheuer & Witsch, K.G. Saur Verlag, Spiegel, Suhrkamp, Ullstein, ZEIT sowie öffentlichen und privaten Textgebern (z.B. Deutsches Rundfunkarchiv, Digitale Bibliothek) getroffen. Somit kann das Projekt z.B. Werke von Thomas und Heinrich Mann, Martin Walser, Heinrich Böll, Jürgen Habermas oder Victor Klemperer für die Internetrecherchen zur Verfügung stellen. Aktuelles Kerncorpus - onlineDas Kerncorpus-online folgt weitestmöglich den oben genannten Verteilungen bis auf die Textsorte gesprochene Sprache, die seit Oktober 2006 als eigenes Corpus verfügbar ist. Das Kerncorpus-online ist je nach Texteinwerbungen Veränderungen unterworfen und wird daher versioniert. Die Änderungen verändern nicht die Corpusgröße als solche; sie stellen eine qualitative Veränderung dar. Einige Zahlen (aktuelle Kerncorpus-Version 0.95, Stand 25.6.2005):
Verteilung der Textwörter "Ideale" geplante Verteilung: 21.05% für Gebrauchsliteratur Die tatsächliche Verteilung weicht von der "idealen" Verteilung ab (Toleranzabweichung von 12,5%), da derzeit noch 3 Dekaden deutlich unter den geplanten Größen liegen. Dies sind die Dekaden 7+8 der Gebrauchsliteratur sowie 9. Dekade in der Textsorte Belletristik). Es ist geplant, diese drei Textsortendekaden in den nächsten 12 Monaten aufzufüllen.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||