Korpora im DWDS

Einleitung

Gefördert von der Deutschen Forschungsgemeinschaft hat das Projekt DWDS von 2000 bis 2003 eine große Textbasis erstellt. Hierbei entstand das DWDS-Kernkorpus, das erste zeitlich und nach Textsorten ausgewogene Textkorpus der deutschen Sprache des 20. Jahrhunderts. Seitdem wurden eine Reihe weiterer Korpora in die DWDS-Abfrageplattform eingebunden. Alle Korpora enthalten Metadaten zu Textsorten, Autor, Titel, Verlag und Erscheinungsdatum. Die in ihnen enthaltenen Wörter sind lemmatisiert und mit Wortartinformationen versehen. Sie sind – soweit die Nutzungsvereinbarungen mit den Textgebern dies zulassen – mit der linguistischen Suchmaschine DDC über die DWDS-Webseite abfragbar.

Für die Recherche im DWDS stehen zur Verfügung:

  • 13 Mrd. Textwörter in historischen und gegenwartssprachlichen Textkorpora, davon
  • 5,5 Mrd. Textwörter öffentlich recherchierbar.

Die Statistiken über alle DWDS-Korpora sind auf einer gesonderten Seite abfragbar.

Wir unterscheiden folgende Arten von Korpora:

  • Referenzkorpora – zeitlich und hinsichtlich der Textsortenverteilung ausgewogene Korpora,
  • Zeitungskorpora – entweder retrodigitalisierte oder rein digital erstellte Texte großer Tages- und Wochenzeitungen und
  • Spezialkorpora – für besondere Sprachbereiche zusammengestellte Korpora.

Übersicht über die Korpora des DWDS

DiaCollo

Für viele Korpora bieten wir auch die Recherchemöglichkeit mit dem Tool DiaCollo an, die entsprechenden Verweise darauf finden Sie in der Übersicht über die Korpora im DWDS.