Statistische Auswertungen

Einleitung

Das DWDS bietet drei wortbezogene statistische Auswertungen an. Diese Auswertungen basieren auf den Korpora des Projekts, insbesondere auf dem DWDS-Kernkorpus und den DWDS-Zeitungskorpora.

DWDS-Wortprofil

Das DWDS-Wortprofil ist das Ergebnis einer automatischen syntaktischen und statistischen Analyse sehr großer Korpora. Es liefert einen kompakten Überblick über statistisch signifikante und damit typische Wortverbindungen.

Beispiele hierfür sind Attribut-Nomen-Verbindungen wie schöne Bescherung oder Verb-Objekt-Verbindungen wie Flasche entkorken.

Die Darstellung der Wortverbindungen erfolgt in Form einer Schlagwortwolke oder in Tabellenform. Darüber kann direkt per Mausklick auf die einzelnen Korpusbelege für jede Verbindung zugegriffen werden.

Über das Wortprofil ist es zudem möglich, zwei Wörter miteinander zu vergleichen. Es können sowohl Gemeinsamkeiten als auch Unterschiede ermittelt werden.

  • Öffentlich recherchierbar ist das „Wortprofil 2012“: dieses basiert auf Korpora im Umfang von etwa 1,8 Milliarden Textwörtern und enthält 11,9 Millionen verschiedene Kookkurrenzen für insgesamt 105 000 Lemmaformen.
  • Intern für die lexikografische Arbeit verfügbar ist das „Wortprofil 2016“: dieses basiert auf Korpora im Umfang von etwa 2,7 Milliarden Textwörtern und enthält 21,2 Millionen verschiedene Kookkurrenzen für insgesamt 140 000 Lemmaformen.

Weiterführende Literatur

  • Didakowski, Jörg und Alexander Geyken (2014): From DWDS corpora to a German word profile–methodological problems and solutions. In: OPAL – Online publizierte Arbeiten zur Linguistik 2/2014, S. 39–47.
  • Geyken, Alexander (2011): Statistische Wortprofile zur schnellen Analyse der Syntagmatik in Textkorpora. In: A. Abel & R. Zanin (Eds.), Korpora in Lehre und Forschung (pp. 115–137). Bozen, Italien: Bozen University Press.

DiaCollo

DiaCollo ist ein Werkzeug für das Auffinden von typischen Wortverbindungen (Kollokationen) zu einem Stichwort im zeitlichen Verlauf und die visuell aufbereitete Darstellung der Ergebnisse.

Wortverlaufskurve

In einem Wortverlaufsdiagramm wird für ein Stichwort dargestellt, wie sich dessen Vorkommenshäufigkeit im Zeitraum von 1600 bis heute entwickelt. Grundlage für die Zeitverläufe sind drei Korpora:

  • Deutsches Textarchiv: für den Zeitraum von 1600 bis 1900
  • DWDS-Kernkorpus: für den Zeitraum ab 1900
  • Die ZEIT: für den Zeitraum nach 1945

Aus der Wortverlaufskurve lässt sich z. B. entnehmen, wann ein Wort aufkam (Beispiel: Stress) oder wann es außer Gebrauch kam (Beispiele: Backfisch, Perron).