Anmelden | Registrierung beim DWDS
Mobil | Hilfe zur Suche | Kontakt | Impressum

Ressourcen - Korpora

0. Vorbemerkung
1. Referenzkorpora
2. Zeitungskorpora
3. Spezialkorpora
4. Einige Zahlen zu den Korpora

0. Vorbemerkung

Gefördert von der Deutschen Forschungsgemeinschaft hat das Projekt DWDS von 2000 bis 2003 eine große Textbasis erstellt. Hierbei entstand das DWDS-Kernkorpus, das erste zeitlich und nach Textsorten ausgewogene Textcorpus der deutschen Sprache des 20. Jahrhunderts. Seitdem wurden eine Reihe weiterer Korpora in das DWDS-Abfrageplattform eingebunden. Diese umfassen insgesamt über 2,5 Milliarden Tokens, von denen allerdings nur etwa 1,8 Milliarden für die Suche auf der Webseite öffentlich sind bzw. für die statistischen Auswertungsmodule herangezogen werden können.

Alle Korpora sind lemmatisiert, mit Wortartinformationen versehen, enthalten Metadaten zu Textsorten, Autor, Titel, Verlag und Erscheinungsdatum und sind - soweit die Nutzungsvereinbarungen mit den Textgebern dies zulassen - mit der linguistischen Suchmaschine DDC über die DWDS-Webseite abfragbar.

1. Referenzkorpora

Kernkorpus des 20./21. Jahrhunderts

Das Kernkorpus des 20. Jahrhunderts ist ein zeitlich und nach Textsorten (Belletristik, Gebrauchsliteratur, Wissenschaft, Journalistische Prosa) ausgewogenes Korpus des gesamten 20. Jahrhunderts. Textgrundlage sind Werke der Literatur, wissenschaftliche Texte, Gebrauchstexte und Zeitungstexte, die in einem ausgewogenen Verhältnis zueinander stehen. 

Das Kernkorpus des 21. Jahrhunderts wird nach den gleichen Prinzipien zusammengestellt. Es befindet sich momentan im Aufbau. In den belletristischen Texten und den Zeitungstexten kann bereits recherchiert werden.

Die Texte können über die DWDS-Website kostenlos abgefragt werden und in Form von Konkordanzen angezeigt werden. Für diese Präsentationsform konnten mit über 20 Verlagen Nutzungsvereinbarungen erzielt werden. ... weitere Informationen

Kernkorpus des Deutschen Textarchivs (ca. 1600 bis 1900) – im Aufbau

Das Deutsche Textarchiv (DTA) ist ein DFG-gefördertes Projekt am Zentrum Sprache der BBAW mit einer Laufzeit von 2007 bis 2015. Ziel des Projekts ist es, einen disziplinen- und gattungsübergreifenden Grundbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900 bereitzustellen. Dabei wird ein Umfang von 1300 Werken oder umgerechnet ca. 400.000 Seiten angestrebt. Die Textauswahl erfolgt auf der Grundlage einer von Akademiemitgliedern der BBAW kommentierten und ergänzten, umfangreichen Bibliographie. Aus dieser wird von der DTA-Projektgruppe ein nach Textsorten und Disziplinen ausgewogenes Textkorpus, das sogenannte DTA-Kernkorpus, zusammengestellt. Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung in der Regel die Erstausgaben der Werke zugrunde gelegt. Das DTA-Korpus wird fortlaufend, auch im Rahmen des BMBF-Verbundprojekts CLARIN-D erweitert. Erfahren Sie hier mehr über den Erstellungsprozess und die Qualitätssicherungsumgebung des Deutschen Textarchivs.

Das elektronische Volltextkorpus des DTA ist über die Webseite des unter einer cc-Lizenz frei zugänglich und mittels computerlinguistischer Methoden schreibweisentolerant durchsuchbar. Es soll darüber hinaus als Panel auf der DWDS-Website eingebunden werden. 

"Juilland-D"-Korpus

Das "Juilland-D"-Korpus ist ein zeitlich und nach Textsorten ausgewogenes Korpus aus der Zeit von 1920-1939 nach den Vorgaben von Juilland.
Umfang: 500.000 Textwörter (tokens) in 392 Dokumenten. ... weitere Informationen

Das Korpus ist kostenlos ohne vorherige Anmeldung auf der DWDS-Webseite als Panel abfragbar. Erfahren Sie hier, wie Sie Panels auf der Webseite hinzuladen können. 

C4-Korpus

Der Berliner Anteil des C4-Korpus umfasst mit ca. 20 Millionen Tokens eine Teilmenge des Kernkorpus des 20. Jahrhunderts. ... weitere Informationen

Das Korpus ist kostenlos abfragbar, erfordert aber eine Anmeldung, da viele der Texte urheberrechtlich geschützt sind. Erfahren Sie hier, wie Sie Panels auf der Webseite hinzuladen können.

DDR-Korpus

Das DDR-Korpus umfasst 9 Millionen Textwörter in 1150 Texten aus der Zeit von 1949 bis 1990, die in der DDR erschienen sind bzw. von DDR-Schriftstellern geschrieben und in der Bundesrepublik veröffentlicht wurden. 

Das Korpus ist kostenlos abfragbar, erfordert aber eine Anmeldung, da viele der Texte urheberrechtlich geschützt sind. Erfahren Sie hier, wie Sie Panels auf der Webseite hinzuladen können.

2. Zeitungskorpora

Das DWDS-Projekt kann aufgrund von Nutzungsvereinbarungen mit den nachstehenden Verlagen auch einige größere Zeitungskorpora für die Recherche bzw. für lexikographische Auswertungszwecke zur Verfügung stellen. Wir danken den Verlagen der u.g. Zeitungen dafür, dass sie diese Nutzung ihrer Daten erlaubt haben.

Berliner Zeitung

Dieses Korpus umfasst alle online erschienenen Artikel der Berliner Zeitung aus der Zeit vom Januar 1994 bis Dezember 2005. Umfang: 252 Millionen Textwörter (Tokens) in 869.000 Artikeln.

Das Korpus ist kostenlos ohne vorherige Anmeldung auf der DWDS-Webseite als Panel abfragbar. Erfahren Sie hier, wie Sie Panels auf der Webseite hinzuladen können.

Der Tagesspiegel

Dieses Korpus enthält alle online erschienenen Artikel zwischen 1996 und Juni 2005. Umfang: 170 Millionen Textwörter (Tokens) in 350.000 Artikeln.

Das Korpus ist kostenlos ohne vorherige Anmeldung auf der DWDS-Webseite als Panel abfragbar. Erfahren Sie hier, wie Sie Panels auf der Webseite hinzuladen können.

Potsdamer Neueste Nachrichten

Dieses Korpus enthält alle online erschienenen Artikel zwischen 2003 und Juni 2005. Umfang: ca. 15 Millionen Textwörter (Tokens) in ca. 42.000 Artikeln.

Das Korpus ist kostenlos ohne vorherige Anmeldung auf der DWDS-Webseite als Panel abfragbar. Erfahren Sie hier, wie Sie Panels auf der Webseite hinzuladen können.

Die ZEIT

Das ZEIT-Korpus umfasst alle ZEIT-Ausgaben, soweit diese auf zeit.de in digitaler Form zur Verfügung stehen, von 1946 bis heute, sowie Artikel, die nur auf zeit.de online erschienen sind. Einige Artikel mussten jedoch aus technischen Gründen aussortiert werden. Das ZEIT-Korpus wird in unregelmäßigen Abständen aktualisiert.

In der gegenwärtigen Version verteilt sich die Textmenge folgendermaßen:

Jahr Textwörter Sätze Anteil ZEIT online (Textwörter)
1946-1949 3392931 276818 0
1950-1959 13680320 1115062 0
1960-1969 23564801 2104311 0
1970-1979 26647399 2381316 0
1980-1989 32377333 3028080 0
1990-1999 33510005 3352693 82317
2000-2009 52111078 5568271 17179938
2010-2014 40478403 4357952 26806929
Gesamt 225762270 22184503  

Stand: 13.10.2014

BILD und WELT

Das Bildkorpus umfasst alle erschienenen Artikel der Bildzeitung aus der Zeit vom 02.05.1997 - 29.04.2006. Umfang: 121 Millionen Textwörter (Tokens) in 550.000 Artikeln.

Das Korpus der WELT umfasst alle erschienenen Artikel der WELT aus der Zeit vom 01.03.1999 - 29.04.2006. Umfang: 240 Millionen Textwörter (Tokens) in 600.000 Artikeln.

Beide Korpora stehen aufgrund von Nutzungsvereinbarungen mit dem Axel-Springer Verlag nur für interne Recherchezwecke bzw. für die Auswertungen im DWDS-Wortprofil und den Guten-Beispielen ausschnittsweise zur Verfügung.

Süddeutsche Zeitung

Dieses Korpus umfasst alle erschienenen Artikel der Süddeutschen Zeitung aus der Zeit vom 01.01.1994 - 31.12.2004. Umfang: 453 Millionen Textwörter (Tokens) in 1.100.000 Artikeln.

Das Korpus steht aufgrund von Nutzungsvereinbarungen mit dem Verlag nur für interne, lexikographische Recherchezwecke bzw. für die Auswertungen im DWDS-Wortprofil und den Guten-Beispielen zur Verfügung; es kann den Nutzern auch nach Anmeldung nicht angezeigt werden.

3. Spezialkorpora

Das DWDS-Projekt stellt Ihnen einige Spezialkorpora unterschiedlichen Umfangs für Ihre Recherchen zur Verfügung.

Korpus jüdischer Periodika

Dieses Korpus entstand durch eine Kooperation mit dem Projekt Compactmemory. Es umfasst gut 26 Millionen Textwörter (Tokens) auf ca. 50.000 Seiten. Die Textgrundlage bilden 8 komplette Zeitschriften aus der Zeit von 1887 bis 1938.

Das Korpus ist kostenlos ohne vorherige Anmeldung auf der DWDS-Webseite als Panel abfragbar. Erfahren Sie hier, wie Sie Panels auf der Webseite hinzuladen können.

Wendekorpus

Das "Berliner Wendekorpus" umfasst 77 Interviews mit Ost- und Westberlinern zu deren persönlichen Wendeereignissen. Das Projekt wurde, unterstützt von der DFG, an der Freien Universität Berlin unter der Leitung von Norbert Dittmar durchgeführt. Das Korpus umfasst ca. 250.000 Tokens. ... weitere Informationen

Das Korpus ist kostenlos ohne vorherige Anmeldung auf der DWDS-Webseite als Panel abfragbar. Erfahren Sie hier, wie Sie Panels auf der Webseite hinzuladen können. 

Korpus Gesprochene Sprache

 Das Korpus Gesprochene Sprache umfasst Transkripte von Reden, Parlamentsprotokollen und Interviews aus dem gesamten 20.  Jahrhundert im Umfang von ca. 2,5 Millionen Tokens. ... weitere Informationen

Bemerkung: Dieses Korpus ist derzeit nur unter der alten Webseite Retro recherchierbar: Beispielanfrage für Berlin 

 

4. Einige Zahlen zu den Korpora

Die folgende Tabelle enthält Zahlen zur Tokengröße, Anzahl der Sätze sowie der Dokumente. 

Alle in der Tabelle aufgeführten Korpora sind auch Teil des DWDS-Wortprofils 2012 sowie dem Werkzeug zur Extraktion guter Beispiele

Korpus Tokens Sätze Dokumente
Kernkorpus 125.990.080 7.046.937 79.312
Berliner Zeitung 242.046.373 15.951.701 869.023
Bild 121.520.037 12.629.828 548.181
Süddeutsche Zeitung 453.945.194 29.125.790 1.099.920
Tagesspiegel 184.202.717 10.392.257 394.465
WELT 238.403.711 15.787.624 600.007
ZEIT 417.422.714 23.631.230 499.520
Gesamt 1.783.530.826 114.565.367 4.090.428