Korpora im DWDS

Einleitung

Gefördert von der Deutschen Forschungsgemeinschaft hat das Projekt DWDS von 2000 bis 2003 eine große Textbasis erstellt. Hierbei entstand das DWDS-Kernkorpus, das erste zeitlich und nach Textsorten ausgewogene Textkorpus der deutschen Sprache des 20. Jahrhunderts. Seitdem wurden eine Reihe weiterer Korpora in die DWDS-Abfrageplattform eingebunden. Alle Korpora enthalten Metadaten zu Textsorten, Autor, Titel, Verlag und Erscheinungsdatum. Die in ihnen enthaltenen Wörter sind lemmatisiert und mit Wortartinformationen versehen. Sie sind – soweit die Nutzungsvereinbarungen mit den Textgebern dies zulassen – mit der linguistischen Suchmaschine DDC über die DWDS-Webseite abfragbar.

Für die Recherche im DWDS stehen zur Verfügung:

  • 13 Mrd. Textwörter in historischen und gegenwartssprachlichen Textkorpora, davon
  • 5,9 Mrd. Textwörter öffentlich recherchierbar.

Die Statistiken über alle DWDS-Korpora sind auf einer gesonderten Seite abfragbar.

Wir unterscheiden folgende Arten von Korpora:

  • Referenzkorpora – zeitlich und hinsichtlich der Textsortenverteilung ausgewogene Korpora,
  • Zeitungskorpora – entweder retrodigitalisierte oder rein digital erstellte Texte großer Tages- und Wochenzeitungen und
  • Spezialkorpora – für besondere Sprachbereiche zusammengestellte Korpora.

Übersicht über die Korpora des DWDS