Anmelden     Home    Kontakt    Impressum 
 




Testen Sie jetzt die Beta von DWDS 2.0
DWDS · Textbasis · Corpus Gesprochene Sprache                      Hilfe  


Kerncorpus

"Juilland-D"-Corpus

Corpus Gesprochene Sprache

Berliner Wendecorpus

 

Corpus Gesprochene Sprache

Kurzbeschreibung

Das Corpus Gesprochene Sprache umfasst Transkripte aus dem gesamten 20. Jh. Jahrhundert im Umfang von ca. 2,5 Millionen tokens.

Teilcorpora

  1. Reden (diverse): Redensammlungen u.a. von Kaiser Wilhelm, Hitler, Ulbricht, Honecker sowie Auszüge aus O-Ton Berlin (1947-1961) (ca. 200.000 tokens),
  2. Rundfunkansprachen von 1929-1944 (in Kooperation mit dem Deutschen Rundfunkarchiv wurden etwa 80 Stunden Tonmaterial transkribiert, Umfang ca. 400.000 tokens),
  3. Auszüge aus österreichischen Parlamentsprotokollen (1948-1956 - dank einer Kooperation mit Thomas Kuhn; das Corpus enthält 5 Parlamentsdebatten zum Bundesfinanzgesetz, insgesamt 200.000 tokens),
  4. Auszüge aus ca. 250 Spiegel-Interviews zwischen 1980 und 2000 (ca. 400.000 tokens; nur im Zitatkontext verfügbar, d.h. drei Wörter links und rechts vom gesuchten Stichwort),
  5. Auszüge aus dem Literarischen Quartett von 1988-2001 (dank einer Kooperation mit DirectMedia, ca. 450.000 tokens),
  6. Auszüge aus dem Projekt Emigrantendeutsch in Israel von Anne Betten, Germanistik Univ. Salzburg. Dieses Teilcorpus umfasst 12 Transkripte (Transkripte in der einfachen Lesefassung nach den Regeln für die Phonai-Bände 42 und 45) im Umfang von 300.000 tokens aus den Jahren 1989-1994,
  7. Auszüge aus Bundestagsprotokollen von 1998-1999 (enthält 5 Sitzungsprotokolle aus dem 14. Bundestag, ca. 300.000 tokens).

Recherche im Corpus Gesprochene Sprache

Die Suche im Corpus Gesprochene Sprache erfolgt direkt über folgenden link .

Das Corpus Gesprochene Sprache enthält Äußerungen von 756 Sprechern. Davon konnten 635 Sprecher normalisiert werden, d.h. Nach- und Vornamen konnten ermittelt werden. Über den Aktenreiter Filter innerhalb der Corpussuche kann nach einzelnen Sprechern gefiltert werden. 

Bei der Trefferanzeige in Form von KWIC-Zeilen werden die in der Sprecherkürzel mit ausgegeben; der vollständige Sprechername erscheint, wenn man mit der Maus über das Sprecherkürzel fährt (als mouse over).

Annotation der Corpora

Alle Texte bzw. -auszüge sind xml/tei annotiert, die Sprecher sind mit dem speaker-Element ausgezeichnet, die Normalisierung erfolgt über die Kombination der Attribute id (innerhalb des Elements castitem) und who (innerhalb des Elements sp)