Referenzkorpora

Deutsches Textarchiv (1473–1927)

Das Deutsche Textarchiv stellt einen disziplinen- und gattungsübergreifenden Grundbestand deutschsprachiger Texte bereit. Die Textauswahl erfolgte auf der Grundlage einer von Akademiemitgliedern erstellten und ausführlich kommentierten, umfangreichen Bibliografie. In Ergänzung wurden einschlägige Literaturgeschichten und (Fach-)Bibliografien ausgewertet. Aus der Gesamtliste der auf diesem Wege ermittelten Titel wurde von der DTA-Projektgruppe ein hinsichtlich der repräsentierten Textsorten und Disziplinen ausgewogenes Korpus zusammengestellt. Der Kernzeitraum dieses Korpus (1600–1900) wurde zwischenzeitlich um weitere Dokumente aus dem Zeitraum 1473–1927 erweitert. Die Webseite des Deutschen Textarchivs bietet weitere Informationen insbesondere zur Textauswahl.

DWDS-Kernkorpus (1900–1999)

Das DWDS-Kernkorpus des 20. Jahrhunderts ist ein nach Textsorten und zeitlich über das gesamte Jahrhundert ausgewogenes Korpus. Die Auswahl der Texte wurde von der Arbeitsgruppe DWDS und Mitgliedern der Berlin-Brandenburgischen Akademie der Wissenschaften begleitet und begutachtet. Ziel war es, dem Ideal der Repräsentativität möglichst nahe zu kommen, und ein lexikografisches Korpus zusammenzustellen, das als ausgewogen und hinreichend groß in Bezug auf den Forschungsgegenstand „deutscher Wortschatz des 20. Jahrhunderts“ bewertet werden kann.

Zur bibliografischen Datenbank des DWDS-Kernkorpus …

Der Aufbau des DWDS-Kernkorpus wurde von der Deutschen Forschungsgemeinschaft in den Jahren 2000 bis 2003 gefördert. Die Annotation der Daten und Metadaten erfolgt in XML nach den TEI-Richtlinien. Die meisten Texte des DWDS-Kernkorpus sind urheberrechtlich geschützt. Die Texte als Ganzes können nicht heruntergeladen werden. Die Suche nach Textzitaten ist über die Webseite kostenfrei möglich.

Das DWDS-Kernkorpus besteht aus den 5 Textsorten Belletristik, Gebrauchsliteratur, Wissenschaft, Zeitung und Gesprochene Sprache. Für die Textsorte Gesprochene Sprache konnte keine vollständige zeitliche Ausgewogenheit erreicht werden. Diese Textsorte steht als eigenständiges Korpus (unter Spezialkorpora) zur Verfügung. Für alle anderen vier Textsorten konnte hingegen ein ausgewogenes Korpus einer Größe von etwa 100 Millionen Textwörtern (120 Millionen Tokens) erstellt werden. Das Verhältnis der Textsorten der auf der Webseite veröffentlichten Version des DWDS-Kernkorpus ist wie folgt (in Klammern werden die jeweiligen Anteile am Gesamtkorpus in Prozent angegeben):

  • Belletristik (28,42 %),
  • Zeitung (27,36 %),
  • Wissenschaft (23,15 %) und
  • Gebrauchsliteratur (21,05 %).

Für die Recherche konnte mit über 20 Verlagen Nutzungsvereinbarungen erzielt werden, insbesondere mit dem Aufbau-Verlag, dem Diogenes-Verlag, dem Eichborn-Verlag, der S.-Fischer-Verlagsgruppe, Hoffmann & Campe, Kiepenheuer & Witsch, dem K.G.-Saur-Verlag, dem SPIEGEL, Suhrkamp, Ullstein, der ZEIT sowie öffentlichen und privaten Textgebern (z. B. dem Deutschen Rundfunkarchiv und der Digitalen Bibliothek). Somit kann das Projekt z. B. Werke von Thomas und Heinrich Mann, Martin Walser, Heinrich Böll, Jürgen Habermas oder Victor Klemperer für die wortbezogene Internetrecherche zur Verfügung stellen.

Wir stellen momentan drei Versionen des Kernkorpus der deutschen Sprache des 20. Jahrhunderts für Ihre Recherchen bereit:

  • Version 1 vom Mai 2005 über die Webseite retro.dwds.de,
  • Version 2 vom Juli 2008 über die Webseite eins.dwds.de und
  • Version 3 vom September 2016 über die Webseite www.dwds.de (aktuelle Version).

Die jeweilige Textbasis dieser Versionen des Kernkorpus bleibt unverändert und steht Ihnen damit als stabile Referenz für ihre Recherchen und Forschungsergebnisse zur Verfügung.

Beachten Sie jedoch, dass die linguistischen Annotationen (Lemmatisierung, Wortarten) der Version 3 regelmäßig aktualisiert werden. Dies bedeutet, dass alle Abfragen, die auf linguistischen Annotationen beruhen, je nach Zeitpunkt der Recherche leicht unterschiedliche Ergebnisse liefern können. Verwenden Sie daher, wenn die Abfrage persistente Ergebnisse liefern soll, den „literalen“ Operator @. Auch hier gilt jedoch eine Einschränkung: Da sich mit der linguistischen Annotation auch die Tokenisierung ändern kann, kann es auch hier zu Änderungen des Abfrageergebnisses kommen. Diese Änderungen sind jedoch marginal.

Beispiele:

  • Abkürzungen: "5." = Kardinalzahl + Satzeende oder Ordinalzahl,
  • Zusammenziehungen von mehreren Wörtern: "ist's" = ist + 's (2 Tokens)

Zitieren von Rechercheergebnissen

  • für Version 3: aus DWDS-Kernkorpus, bereitgestellt durch das DWDS, <https://www.dwds.de/r?corpus=kern>, <aktuelles Datum>
  • für Version 2: aus DWDS-Kernkorpus, bereitgestellt durch das DWDS, <https://eins.dwds.de/ressourcen/korpora/#part_1>, <aktuelles Datum>
  • für Version 1: aus DWDS-Kernkorpus, bereitgestellt durch das DWDS, <http://retro.dwds.de/?corpus=1>, <aktuelles Datum>

Weiterführende Literatur

DWDS-Kernkorpus 21 (2000–2010)

Das DWDS-Kernkorpus des 21. Jahrhunderts ist ein zeitlich und nach Textsorten (Belletristik, Gebrauchsliteratur, Wissenschaft, Journalistische Prosa) differenziertes, momentan aber noch nicht ausgewogenes Korpus. Es enthält belletristische und wissenschaftliche Texte aus den Jahren 2000 bis 2006 sowie Zeitungstexte. Das Korpus wird fortlaufend um Texte aller Textsorten ergänzt, sobald wir die Rechte für die Anzeige dieser Texte erhalten.

Weiterführende Literatur

  • Alexander Geyken, 2007: The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London, S. 23–41.