Spezialkorpora

Das DWDS-Projekt stellt folgende Spezialkorpora für die Korpusrecherche bzw. für lexikografische Auswertungszwecke zur Verfügung. Die Texte als Ganzes können nicht heruntergeladen werden. Die Suche nach Textzitaten ist über die Webseite kostenfrei möglich.

Blogs

Das Blog-Korpus ist Teil eines künftigen Referenzkorpus zur internetbasierten Kommunikation. Es besteht aus Beiträgen und Kommentaren, die auf Blogs veröffentlicht worden sind. Diese sind mehrheitlich auf Deutsch und die Betreiber haben die Wiederveröffentlichung der Texte mittels Creative-Commons-Lizenzen ausdrücklich gefördert. Aus diesem Grund stehen Korpus und Belege selber unter CC-BY-SA-Lizenz. Das Korpus wird regelmäßig aktualisiert.

Weiterführende Literatur:

  • Adrien Barbaresi, Kay-Michael Würzner, 2014: For a fistful of blogs: Discovery and comparative benchmarking of republishable German content. In: Proceedings of NLP4CMC workshop (KONVENS 2014), Hildesheim University Press, S. 2-10. [PDF]

Webkorpus

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Das Webkorpus besteht aus einer Auswahl von Webseiten auf Deutsch (vor allem aus Deutschland, Österreich und der Schweiz) und wird in Zusammenarbeit mit der ÖAW (Academy Corpora) zusammengestellt. Für jede Homepage wurde eine Untermenge von bis zu 500 Seiten heruntergeladen und einer förmlichen Kontrolle unterzogen: nur die Dokumente, für die Metadaten (wie das Datum) sowie Text extrahiert werden konnten, werden zum Teil des Korpus. Das Korpus wird laufend aktualisiert, es beinhaltet derzeit ca. 3 Mrd. laufender Wortformen aus 7 Mio. Dokumenten. Die Basis besteht aus 200 000 unterschiedlichen Webseiten, die professionell (z. B. Nachrichten- und Firmenseiten) oder privat (u. a. Vereine, Gemeinschaften, Hobbies) betrieben werden. Details zum Aufbauverfahren befinden sich in Barbaresi, Adrien. "Efficient construction of metadata-enhanced web corpora." Proceedings of the 10th Web as Corpus Workshop, ACL, 2016, p. 7-16.

Dortmunder Chat-Korpus

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Das Dortmunder Chat-Korpus dokumentiert anhand einer Sammlung von Mitschnitten (sog. „Logfiles“) die Sprachverwendung in unterschiedlichen Typen von Chat-Anwendungen. Es ist als Grundlage und Hilfsmittel für sprachwissenschaftliche Untersuchungen zur synchronen internetbasierten Kommunikation konzipiert. Das Korpus umfasst mit über 140 000 Chat-Beiträgen bzw. 1,06 Millionen laufenden Wortformen umfangreiches Datenmaterial aus diversen Einsatzformen der Chat-Technologie. Der Bestand reicht von Chats im Hochschulkontext (E-Learning, Online-Zusammenarbeit, kollektive Experten-Interviews) und im Praxisbereich Beratung & Support über Chat-Events im Medienkontext (Chats mit Politikern und Medienakteuren oder begleitend zu TV-Ereignissen) bis hin zu „Plauder“-Chats im Freizeitbereich, die im IRC-Netzwerk oder in Webchat-Communities stattgefunden haben.

Das Dortmunder Chat-Korpus ist Ergebnis eines Lehrstuhlprojekts am Lehrstuhl für Linguistik der deutschen Sprache und Sprachdidaktik, das unter der Leitung von Prof. Dr. Angelika Storrer und Dr. Michael Beißwenger am Institut für deutsche Sprache und Literatur der Technischen Universität Dortmund realisiert wurde.

Weiterführende Literatur:

Filmuntertitel

Das Untertitelkorpus ist eine Sammlung von Film- und Serienuntertiteln auf Basis des deutschsprachigen Teils der Communityplattform opensubtitles.org.

Es enthält ca. 12 000 Dokumente. Das Untertitelkorpus wurde 2013/14 erstellt.

Polytechnisches Journal

Das Projekt Dingler Online an der Humboldt-Universität zu Berlin (Laufzeit 2007–2013) hat im Rahmen eines DFG-Projekts alle 375 Bände des „Polytechnischen Journals“ (1820–1931) digitalisiert. Die Ressource (205 000 Seiten) ist im Volltext erfasst und vollständig in TEI-P5 annotiert. Mit Auslaufen des Projekts werden die Ressourcen über das CLARIN-Zentrum der BBAW vorgehalten und sind damit nachhaltig als Forschungsdaten für die Nachnutzung verfügbar.

DDR

Das DDR-Korpus umfasst ca. 1 100 Texte aus der Zeit von 1949 bis 1990, die in der DDR erschienen sind bzw. die von DDR-Schriftstellern geschrieben und in der Bundesrepublik veröffentlicht wurden.

Gesprochene Sprache

Das Korpus Gesprochene Sprache umfasst Transkripte von Reden, Parlamentsprotokollen und Interviews aus dem gesamten 20. Jahrhundert.

Teilkorpora:

  • Reden (diverse): Redensammlungen u. a. von Kaiser Wilhelm, Hitler, Ulbricht, Honecker sowie Auszüge aus O-Ton Berlin (1947–1961, ca. 200 000 Tokens),
  • Rundfunkansprachen von 1929 bis 1944 (in Kooperation mit dem Deutschen Rundfunkarchiv wurden etwa 80 Stunden Tonmaterial transkribiert, Umfang ca. 400 000 Tokens),
  • Auszüge aus österreichischen Parlamentsprotokollen (1948–1956 – dank einer Kooperation mit Thomas Kuhn; das Korpus enthält 5 Parlamentsdebatten zum Bundesfinanzgesetz, insgesamt 200 000 Tokens),
  • Auszüge aus ca. 250 Spiegel-Interviews zwischen 1980 und 2000 (ca. 400 000 Tokens; nur im Zitatkontext verfügbar, d. h. drei Wörter links und rechts vom gesuchten Stichwort),
  • Auszüge aus dem Literarischen Quartett von 1988 bis 2001 (dank einer Kooperation mit DirectMedia, ca. 450 000 Tokens),
  • Auszüge aus dem Projekt Emigrantendeutsch in Israel von Anne Betten, Germanistik Universität Salzburg. Dieses Teilkorpus umfasst 12 Transkripte (Transkripte in der einfachen Lesefassung nach den Regeln für die Phonai-Bände 42 und 45) im Umfang von 300 000 Tokens aus den Jahren 1989–1994,
  • Auszüge aus Bundestagsprotokollen von 1998 bis 1999 (enthält 5 Sitzungsprotokolle aus dem 14. Bundestag, ca. 300 000 Tokens).

Weitere Informationen: