Kerncorpus
"Juilland-D"-Corpus
Corpus Gesprochene Sprache
Berliner Wendecorpus
|
|
Corpus Gesprochene Sprache
Kurzbeschreibung
Das Corpus Gesprochene Sprache umfasst Transkripte aus dem gesamten
20. Jh. Jahrhundert im Umfang von ca. 2,5 Millionen tokens.
Teilcorpora
- Reden (diverse): Redensammlungen u.a. von Kaiser Wilhelm, Hitler, Ulbricht, Honecker sowie Auszüge aus O-Ton Berlin (1947-1961) (ca. 200.000 tokens),
- Rundfunkansprachen von 1929-1944 (in Kooperation mit dem Deutschen Rundfunkarchiv wurden etwa 80 Stunden Tonmaterial transkribiert, Umfang ca. 400.000 tokens),
- Auszüge aus österreichischen Parlamentsprotokollen (1948-1956 - dank einer
Kooperation mit Thomas Kuhn; das Corpus enthält 5 Parlamentsdebatten
zum Bundesfinanzgesetz, insgesamt 200.000 tokens),
- Auszüge aus ca. 250 Spiegel-Interviews zwischen 1980 und 2000 (ca. 400.000 tokens; nur im
Zitatkontext verfügbar, d.h. drei Wörter links und rechts vom gesuchten
Stichwort),
- Auszüge aus dem Literarischen Quartett von 1988-2001 (dank einer Kooperation mit DirectMedia, ca. 450.000 tokens),
- Auszüge aus dem Projekt Emigrantendeutsch in Israel von Anne Betten, Germanistik Univ. Salzburg. Dieses Teilcorpus umfasst 12 Transkripte (Transkripte in der einfachen Lesefassung nach den Regeln für die Phonai-Bände 42 und 45) im Umfang von 300.000 tokens aus den Jahren 1989-1994,
- Auszüge aus Bundestagsprotokollen von 1998-1999 (enthält 5 Sitzungsprotokolle aus dem 14. Bundestag, ca. 300.000 tokens).
Recherche im Corpus Gesprochene Sprache
Die Suche im Corpus Gesprochene Sprache erfolgt direkt über folgenden link .
Das Corpus Gesprochene Sprache enthält Äußerungen von 756 Sprechern. Davon konnten 635 Sprecher normalisiert werden, d.h. Nach- und Vornamen konnten ermittelt werden. Über den Aktenreiter Filter innerhalb der Corpussuche kann nach einzelnen Sprechern gefiltert werden.
Bei der Trefferanzeige in Form von KWIC-Zeilen werden die in der Sprecherkürzel mit ausgegeben; der vollständige Sprechername erscheint, wenn man mit der Maus über das Sprecherkürzel fährt (als mouse over).
Annotation der Corpora
Alle Texte bzw. -auszüge sind xml/tei annotiert, die Sprecher sind mit dem speaker-Element ausgezeichnet, die Normalisierung erfolgt über die Kombination der Attribute id (innerhalb des Elements castitem) und who (innerhalb des Elements sp)
|