Statistische Auswertungen

Einleitung

Das DWDS bietet drei wortbezogene statistische Auswertungen an. Diese Auswertungen basieren auf den Korpora des Projekts, insbesondere auf dem DWDS-Kernkorpus und den DWDS-Zeitungskorpora.

Wortverlaufskurve

Das DWDS bietet Zugriff auf verschiedene Textkorpora, die insgesamt einen Zeitraum von über 400 Jahren umfassen. Damit ist es möglich, zu jedem Eingabewort die Verlaufskurven in den Textkorpora zu ermitteln. Deren Grundlage sind zum einen drei zeitlich und nach Textsorten ausgewogene Textkorpora:

  • Deutsches Textarchiv (1600–1900),
  • DWDS-Kernkorpus (1900–1999),
  • DWDS-Kernkorpus 21 (2000–2010).

Zum anderen wurden zur Abdeckung des 21. Jahrhunderts folgende Zeitungskorpora gewählt:

  • Berliner Zeitung (1994–2005),
  • Tagesspiegel (1996–2005),
  • Die ZEIT (1946–2016).

Mehrere Arten der Visualisierung sind möglich: normalisiert (d. h. es werden die Frequenzwerte pro Million laufender Textwörter angezeigt) oder in Absolutwerten (d. h. die absoluten Häufigkeiten werden dargestellt).

Aus der Wortverlaufskurve lässt sich z. B. entnehmen, wann ein Wort aufkam (Beispiel: Stress) oder wann es außer Gebrauch kam (Beispiele: Backfisch, Perron).

Weitere Informationen zu den Wortverlaufskurven …

DWDS-Wortprofil

Das DWDS-Wortprofil ist das Ergebnis einer automatischen syntaktischen und statistischen Analyse sehr großer Korpora. Es liefert einen kompakten Überblick über statistisch signifikante und damit typische Wortverbindungen.

Beispiele hierfür sind Attribut-Nomen-Verbindungen wie schöne Bescherung oder Verb-Objekt-Verbindungen wie Flasche entkorken.

Die Darstellung der Wortverbindungen erfolgt in Form einer Schlagwortwolke oder in Tabellenform. Darüber kann direkt per Mausklick auf die einzelnen Korpusbelege für jede Verbindung zugegriffen werden.

Über das Wortprofil ist es zudem möglich, zwei Wörter miteinander zu vergleichen. Es können sowohl Gemeinsamkeiten als auch Unterschiede ermittelt werden.

  • Öffentlich recherchierbar ist das „Wortprofil 2012“: dieses basiert auf Korpora im Umfang von etwa 1,8 Milliarden Textwörtern und enthält 11,9 Millionen verschiedene Kookkurrenzen für insgesamt 105 000 Lemmaformen.
  • Intern für die lexikografische Arbeit verfügbar ist das „Wortprofil 2016“: dieses basiert auf Korpora im Umfang von etwa 2,7 Milliarden Textwörtern und enthält 21,2 Millionen verschiedene Kookkurrenzen für insgesamt 140 000 Lemmaformen.

Weiterführende Literatur

  • Didakowski, Jörg und Alexander Geyken (2014): From DWDS corpora to a German word profile–methodological problems and solutions. In: OPAL – Online publizierte Arbeiten zur Linguistik 2/2014, S. 39–47.
  • Geyken, Alexander (2011): Statistische Wortprofile zur schnellen Analyse der Syntagmatik in Textkorpora. In: A. Abel & R. Zanin (Eds.), Korpora in Lehre und Forschung (pp. 115–137). Bozen, Italien: Bozen University Press.

DiaCollo – Kollokationsanalyse in diachroner Perspektive

DiaCollo ist ein Werkzeug für das Auffinden von typischen Wortverbindungen (Kollokationen) zu einem Stichwort in einem bestimmten Zeitraum und die visuell aufbereitete Darstellung der Ergebnisse. Die Basis für diese Anwendung sind große und gut erschlossene Textkorpora. DiaCollo unterstützt die Inhaltsanalyse großer Mengen von Texten und ist deshalb besonders für Geschichts- und Politikwissenschaftler von großem Interesse.

Anhand der Wörter, mit denen zusammen ein Stichwort in einem bestimmten Zeitraum häufig auftaucht, lässt sich der Wandel in der Bedeutung dieses Stichworts nachzeichnen. Wenn es sich bei dem Stichwort um ein Schlüsselwort in politischen oder gesellschaftlichen Diskursen handelt, dann können die Veränderungen in der Verwendung des Wortes auch als Zeichen für politische, kulturelle etc. Veränderungen gedeutet werden (Bsp. „Krise“).

Darüber hinaus kann man mit DiaCollo die parallelen Änderungen in der Verwendungshäufigkeit von Gruppen von Wörtern betrachten und vergleichen. Die Wortgruppen können über die Form oder die Bedeutung der Wörter ausgewählt werden.