Spezialkorpora

Das DWDS-Projekt stellt folgende Spezialkorpora für die Korpusrecherche bzw. für lexikografische Auswertungszwecke zur Verfügung. Die Texte als Ganzes können nicht heruntergeladen werden. Die Suche nach Textzitaten ist über die Webseite kostenfrei möglich.

Referenz- und Zeitungskorpora (aggregiert, frei)

Dieses Korpus aggregiert folgende Korpora:

Dortmunder Chat-Korpus

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Das Dortmunder Chat-Korpus dokumentiert anhand einer Sammlung von Mitschnitten (sog. „Logfiles“) die Sprachverwendung in unterschiedlichen Typen von Chat-Anwendungen. Es ist als Grundlage und Hilfsmittel für sprachwissenschaftliche Untersuchungen zur synchronen internetbasierten Kommunikation konzipiert. Das Korpus umfasst mit über 140 000 Chat-Beiträgen bzw. 1,06 Millionen laufenden Wortformen umfangreiches Datenmaterial aus diversen Einsatzformen der Chat-Technologie. Der Bestand reicht von Chats im Hochschulkontext (E-Learning, Online-Zusammenarbeit, kollektive Experten-Interviews) und im Praxisbereich Beratung & Support über Chat-Events im Medienkontext (Chats mit Politikern und Medienakteuren oder begleitend zu TV-Ereignissen) bis hin zu „Plauder“-Chats im Freizeitbereich, die im IRC-Netzwerk oder in Webchat-Communities stattgefunden haben.

Das Dortmunder Chat-Korpus ist Ergebnis eines Lehrstuhlprojekts am Lehrstuhl für Linguistik der deutschen Sprache und Sprachdidaktik, das unter der Leitung von Prof. Dr. Angelika Storrer und Dr. Michael Beißwenger am Institut für deutsche Sprache und Literatur der Technischen Universität Dortmund realisiert wurde.

Weiterführende Literatur:

Filmuntertitel

Das Untertitelkorpus ist eine Sammlung von Film- und Serienuntertiteln auf Basis des deutschsprachigen Teils der Communityplattform opensubtitles.org.

Es enthält ca. 12 000 Dokumente. Das Untertitelkorpus wurde 2013/14 erstellt.

Polytechnisches Journal

Das Projekt Dingler Online an der Humboldt-Universität zu Berlin (Laufzeit 2007–2013) hat im Rahmen eines DFG-Projekts alle 375 Bände des „Polytechnischen Journals“ (1820–1931) digitalisiert. Die Ressource (205 000 Seiten) ist im Volltext erfasst und vollständig in TEI-P5 annotiert. Mit Auslaufen des Projekts werden die Ressourcen über das CLARIN-Zentrum der BBAW vorgehalten und sind damit nachhaltig als Forschungsdaten für die Nachnutzung verfügbar.

DDR

Das DDR-Korpus umfasst ca. 1 100 Texte aus der Zeit von 1949 bis 1990, die in der DDR erschienen sind bzw. die von DDR-Schriftstellern geschrieben und in der Bundesrepublik veröffentlicht wurden.

Gesprochene Sprache

Das Korpus Gesprochene Sprache umfasst Transkripte von Reden, Parlamentsprotokollen und Interviews aus dem gesamten 20. Jahrhundert.

Teilkorpora:

  • Reden (diverse): Redensammlungen u. a. von Kaiser Wilhelm, Hitler, Ulbricht, Honecker sowie Auszüge aus O-Ton Berlin (1947–1961, ca. 200 000 Tokens),
  • Rundfunkansprachen von 1929 bis 1944 (in Kooperation mit dem Deutschen Rundfunkarchiv wurden etwa 80 Stunden Tonmaterial transkribiert, Umfang ca. 400 000 Tokens),
  • Auszüge aus österreichischen Parlamentsprotokollen (1948–1956 – dank einer Kooperation mit Thomas Kuhn; das Korpus enthält 5 Parlamentsdebatten zum Bundesfinanzgesetz, insgesamt 200 000 Tokens),
  • Auszüge aus ca. 250 Spiegel-Interviews zwischen 1980 und 2000 (ca. 400 000 Tokens; nur im Zitatkontext verfügbar, d. h. drei Wörter links und rechts vom gesuchten Stichwort),
  • Auszüge aus dem Literarischen Quartett von 1988 bis 2001 (dank einer Kooperation mit DirectMedia, ca. 450 000 Tokens),
  • Auszüge aus dem Projekt Emigrantendeutsch in Israel von Anne Betten, Germanistik Universität Salzburg. Dieses Teilkorpus umfasst 12 Transkripte (Transkripte in der einfachen Lesefassung nach den Regeln für die Phonai-Bände 42 und 45) im Umfang von 300 000 Tokens aus den Jahren 1989–1994,
  • Auszüge aus Bundestagsprotokollen von 1998 bis 1999 (enthält 5 Sitzungsprotokolle aus dem 14. Bundestag, ca. 300 000 Tokens).

Text+Berg

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Dieses Korpus umfasst die deutsch- und mehrsprachigen Ausgaben des „Jahrbuchs des Schweizer-Alpenclubs“. Die digitale Ausgabe der Bände wurde im Rahmen des Projekts „Text+Berg digital“ an der Universität Zürich erarbeitet (vgl. http://textberg.ch).

Berliner Wendekorpus

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Das „Berliner Wendekorpus“ umfasst 77 Interviews mit Ost- und Westberlinern zu deren persönlichen Wendeereignissen. Das Projekt wurde, unterstützt von der DFG, an der Freien Universität Berlin unter der Leitung von Norbert Dittmar durchgeführt. Das Korpus umfasst ca. 280 000 Tokens.

Im Projekt wurden 39 Ostberliner und 38 Westberliner im Rahmen eines narrativen Interviews zum Ereignis am 9. November und zu anderen persönlichen Wendeereignissen befragt. Der soziale Umbruch beim Mauerfall 1989 sollte im Rahmen des Projekts als Sammlung individueller Erfahrungen im Sinne eines kollektiven Gedächtnisses dokumentiert werden. Im Fokus der Untersuchung waren dabei Umbruchdiskurse, mit denen jene Muster der gesprochenen Sprache heraus gearbeitet werden sollten, die typisch für Ost- bzw. Westdeutsche sind. Den Hintergrund der Untersuchung bildete die Annahme, dass Umbruchsituationen mit Erscheinungen der sprachlichen Stabilität bzw. Instabilität von Individuen und Gruppen als Folge von subjektiv motivierten Eigeninitiativen oder einschneidender irreversibler gesellschaftlicher Veränderungen verstanden werden können.

Die Datenerhebung umfasste den Zeitraum Herbst 1993 bis März 1996. Alle Gespräche wurden auf Tonband aufgezeichnet und 1998 am Institut für Deutsche Sprache in Mannheim digitalisiert. In einem Kooperationsprojekt zwischen der FU-Berlin und dem DWDS wurden im Sommer 2006 alle transkribierten Dialoge hochsprachlich normalisiert. Aus den Textdokumenten wurden XML/TEI-Dokumente erstellt, in welchen normalisierte und transkribierte Fassung aligniert sind. Die normalisierte Fassung ist darüber hinaus lemmatisiert und mit Part-of-Speech-Tags versehen.

Die Transkripte des Wendekorpus lassen sich 'literal' oder 'hochsprachlich' durchsuchen. Mit Abfrage des Index $w sucht man 'literal' in den Transkriptionen (beispielsweise nach 'ick', 'maua' oder 'mauer'). Mit Abfrage des Index $v sucht man hochsprachlich, also nach 'ich' oder 'Mauer'.

Politische Reden (1982–2017)

Das Korpus fasst derzeit Reden von vier Schlüsselrollen der BRD zusammen: Bundespräsident, Bundestagspräsident, Bundeskanzler sowie Bundesminister des Auswärtigen. Hinzu kommen auch Reden von angeschlossenen StaatsministerInnen und StaatssekretärInnen (Kabinett). Der Schwerpunkt liegt aktuell auf der Zeit von 1990 bis 2017, das Korpus soll künftig erweitert werden.

Beispielanfragen:

Weiterführende Informationen: