Spezialkorpora

Das DWDS-Projekt stellt folgende Spezialkorpora für die Korpusrecherche bzw. für lexikografische Auswertungszwecke zur Verfügung. Die Texte als Ganzes können nicht heruntergeladen werden. Die Suche nach Textzitaten ist über die Webseite kostenfrei möglich.

Referenz- und Zeitungskorpora (aggregiert, frei)

Dieses Korpus aggregiert folgende Korpora:

Blogs

Das Blog-Korpus ist Teil eines künftigen Referenzkorpus zur internetbasierten Kommunikation. Es besteht aus Beiträgen und Kommentaren, die auf Blogs veröffentlicht worden sind. Diese sind mehrheitlich auf Deutsch und die Betreiber haben die Wiederveröffentlichung der Texte mittels Creative-Commons-Lizenzen ausdrücklich gefördert. Aus diesem Grund stehen Korpus und Belege selber unter CC-BY-SA-Lizenz. Das Korpus wird regelmäßig aktualisiert.

Weiterführende Literatur:

  • Adrien Barbaresi, Kay-Michael Würzner, 2014: For a fistful of blogs: Discovery and comparative benchmarking of republishable German content. In: Proceedings of NLP4CMC workshop (KONVENS 2014), Hildesheim University Press, S. 2-10. [PDF]

Webkorpus 2016

Hinweis: Dieses Korpus ist seit dem 1. Oktober 2018 nicht mehr recherchierbar. Alternativ können Sie das Webkorpus 2016b nutzen, darin sind alle Dokumente aus dem „Webkorpus 2016“ enthalten.

Webkorpus 2016b

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Hinweis: Dieses Korpus wird ab dem 2. Januar 2019 nicht mehr recherchierbar sein. Alternativ können Sie das Webkorpus 2016c nutzen, darin sind alle Dokumente aus dem „Webkorpus 2016b“ enthalten.

Empirisch können riesige Textsammlungen Hypothesen genauer oder ausführlicher belegen. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsächlich realisiert wird. Dieses Webkorpus besteht aus einer Auswahl von Webseiten auf Deutsch (vor allem aus Deutschland, Österreich und der Schweiz) und wird in Zusammenarbeit mit der ÖAW (Academiae Corpora) zusammengestellt. Es beinhaltet derzeit ca. 6,5 Mrd. laufende Wortformen aus 16,5 Mio. Dokumenten. Die Basis besteht aus mehreren hunderttausenden unterschiedlichen Webseiten, die ein Datum aufweisen, das Korpus enthält also vergleichsweise viele Blogeinträge. Die Webseiten werden sowohl professionell (z. B. Nachrichten- und Firmenseiten) als auch privat (Vereine, Gemeinschaften, Hobbys) betrieben, so dass das Korpus Sprechsituationen unterschiedlichster Art abdeckt. Dabei wird ein Gleichgewicht durch Merkmale (eine Untermenge von bis zu 500 Seiten für jede Homepage) und förmliche Kontrollen angestrebt: nur qualitativ bessere Dokumente, für die Metadaten (wie das Datum) sowie Text extrahiert werden konnten, werden zum Teil des Korpus.

Diese Ressource wird über die Zeit verbessert. Leichte Veränderungen sind möglich, die einer qualitativ feineren Kalibrierung entsprechen, sowohl inhaltlich als auf der Metadatenebene (z. B. Extraktion des Titels und des Datums). Jede neue Version wird mit einem Kennzeichen dokumentiert (z. B. 2016b).

Weiterführende Literatur:

Veröffentlichte Softwareteile:

  • Extraktion von dem Datum in beliebigen Webseiten (Github)

Webkorpus 2016c

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Das Webkorpus 2016c ist eine enger kalibrierte Teilmenge des Webkorpus 2016b. Es beruht auf denselben Daten, wobei Inhalte (u. a. Metadaten wie das Datum) hinsichtlich ihrer Zuverlässigkeit strenger gefiltert worden sind.

Dortmunder Chat-Korpus

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Das Dortmunder Chat-Korpus dokumentiert anhand einer Sammlung von Mitschnitten (sog. „Logfiles“) die Sprachverwendung in unterschiedlichen Typen von Chat-Anwendungen. Es ist als Grundlage und Hilfsmittel für sprachwissenschaftliche Untersuchungen zur synchronen internetbasierten Kommunikation konzipiert. Das Korpus umfasst mit über 140 000 Chat-Beiträgen bzw. 1,06 Millionen laufenden Wortformen umfangreiches Datenmaterial aus diversen Einsatzformen der Chat-Technologie. Der Bestand reicht von Chats im Hochschulkontext (E-Learning, Online-Zusammenarbeit, kollektive Experten-Interviews) und im Praxisbereich Beratung & Support über Chat-Events im Medienkontext (Chats mit Politikern und Medienakteuren oder begleitend zu TV-Ereignissen) bis hin zu „Plauder“-Chats im Freizeitbereich, die im IRC-Netzwerk oder in Webchat-Communities stattgefunden haben.

Das Dortmunder Chat-Korpus ist Ergebnis eines Lehrstuhlprojekts am Lehrstuhl für Linguistik der deutschen Sprache und Sprachdidaktik, das unter der Leitung von Prof. Dr. Angelika Storrer und Dr. Michael Beißwenger am Institut für deutsche Sprache und Literatur der Technischen Universität Dortmund realisiert wurde.

Weiterführende Literatur:

Filmuntertitel

Das Untertitelkorpus ist eine Sammlung von Film- und Serienuntertiteln auf Basis des deutschsprachigen Teils der Communityplattform opensubtitles.org.

Es enthält ca. 12 000 Dokumente. Das Untertitelkorpus wurde 2013/14 erstellt.

Polytechnisches Journal

Das Projekt Dingler Online an der Humboldt-Universität zu Berlin (Laufzeit 2007–2013) hat im Rahmen eines DFG-Projekts alle 375 Bände des „Polytechnischen Journals“ (1820–1931) digitalisiert. Die Ressource (205 000 Seiten) ist im Volltext erfasst und vollständig in TEI-P5 annotiert. Mit Auslaufen des Projekts werden die Ressourcen über das CLARIN-Zentrum der BBAW vorgehalten und sind damit nachhaltig als Forschungsdaten für die Nachnutzung verfügbar.

DDR

Das DDR-Korpus umfasst ca. 1 100 Texte aus der Zeit von 1949 bis 1990, die in der DDR erschienen sind bzw. die von DDR-Schriftstellern geschrieben und in der Bundesrepublik veröffentlicht wurden.

Gesprochene Sprache

Das Korpus Gesprochene Sprache umfasst Transkripte von Reden, Parlamentsprotokollen und Interviews aus dem gesamten 20. Jahrhundert.

Teilkorpora:

  • Reden (diverse): Redensammlungen u. a. von Kaiser Wilhelm, Hitler, Ulbricht, Honecker sowie Auszüge aus O-Ton Berlin (1947–1961, ca. 200 000 Tokens),
  • Rundfunkansprachen von 1929 bis 1944 (in Kooperation mit dem Deutschen Rundfunkarchiv wurden etwa 80 Stunden Tonmaterial transkribiert, Umfang ca. 400 000 Tokens),
  • Auszüge aus österreichischen Parlamentsprotokollen (1948–1956 – dank einer Kooperation mit Thomas Kuhn; das Korpus enthält 5 Parlamentsdebatten zum Bundesfinanzgesetz, insgesamt 200 000 Tokens),
  • Auszüge aus ca. 250 Spiegel-Interviews zwischen 1980 und 2000 (ca. 400 000 Tokens; nur im Zitatkontext verfügbar, d. h. drei Wörter links und rechts vom gesuchten Stichwort),
  • Auszüge aus dem Literarischen Quartett von 1988 bis 2001 (dank einer Kooperation mit DirectMedia, ca. 450 000 Tokens),
  • Auszüge aus dem Projekt Emigrantendeutsch in Israel von Anne Betten, Germanistik Universität Salzburg. Dieses Teilkorpus umfasst 12 Transkripte (Transkripte in der einfachen Lesefassung nach den Regeln für die Phonai-Bände 42 und 45) im Umfang von 300 000 Tokens aus den Jahren 1989–1994,
  • Auszüge aus Bundestagsprotokollen von 1998 bis 1999 (enthält 5 Sitzungsprotokolle aus dem 14. Bundestag, ca. 300 000 Tokens).

Text+Berg

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Dieses Korpus umfasst die deutsch- und mehrsprachigen Ausgaben des „Jahrbuchs des Schweizer-Alpenclubs“. Die digitale Ausgabe der Bände wurde im Rahmen des Projekts „Text+Berg digital“ an der Universität Zürich erarbeitet (vgl. http://textberg.ch).