Verlaufskurven im DWDS

Datengrundlage

Das DWDS bietet Zugriff auf verschiedene Textkorpora, die insgesamt einen Zeitraum von über 400 Jahren umfassen. Damit ist es möglich, zu jedem Eingabewort die Verlaufskurven in den Textkorpora zu ermitteln. Deren Grundlage sind zum einen drei zeitlich und nach Textsorten ausgewogene Textkorpora:

  • Deutsches Textarchiv (1600–1900),
  • DWDS-Kernkorpus (1900–1999),
  • DWDS-Kernkorpus 21 (2000–2010).

Zum anderen wurden zur Abdeckung des 21. Jahrhunderts folgende Zeitungskorpora gewählt:

Zeitung von bis
BamS 1996 2017
BILD (Bund) 2006 2017
BILD 1997 2006
Berliner Zeitung 1945 2005
Frankfurter Rundschau 1997 2000
neues deutschland 1946 1990
Neue Zeit 1945 1994
NZZ 1970 2017
Potsdamer Neueste Nachrichten 2003 2005
SPIEGEL Online 1999 2017
SPIEGEL Print 1947 2014
Der Standard 2000 2016
Süddeutsche Zeitung 1992 2016
Tagesspiegel 1996 2005
taz 1986 1999
WamS 1997 2017
Welt 1999 2017
Westdeutsche Zeitung 2007 2015
Die ZEIT 1946 2016

Mehrere Arten der Visualisierung sind möglich: normalisiert (d. h. es werden die Frequenzwerte pro Million laufender Textwörter angezeigt) oder in Absolutwerten (d. h. die absoluten Häufigkeiten werden dargestellt).

Aus der Wortverlaufskurve lässt sich z. B. entnehmen, wann ein Wort aufkam (Beispiel: Stress) oder wann es außer Gebrauch kam (Beispiele: Backfisch, Perron).

Hinweise

Sie können beliebige DDC-Anfragen an das Verlaufskurven-Tool stellen. Das gilt nicht für die Korpora „Zeitungen“ und „Referenz- und Zeitungskorpora“, dort sind momentan aus Performanzgründen nur einfache Abfragen möglich. Bitte beachten Sie die Dokumentation zur Korpussuche.

Geglättete Ansicht

Zur leichteren Interpretierbarkeit der Wortverlaufskurven wird ein Glättungsverfahren eingesetzt, einzelne Ausreißer werden abgeschnitten. Gerade bei mittel- und niedrigfrequenten Wörtern (d. h. unterhalb einer Schwelle von 1 pro Million Tokens) kann es aber passieren, dass die geglätteten Kurven die tatsächlichen Frequenzanstiege und -abfälle nicht adäquat darstellen. In diesem Fall besteht die Möglichkeit, auf die Ansicht „Rohfrequenzen“ umzustellen.

Welche Probleme kann es mit der Wortverlaufskurve geben?

Mangelnde Ausgewogenheit der Korpora: Die Korpusgrößen sind weder zeitlich noch über die Textsorten hinweg gleichverteilt. Das DWDS bemüht sich um urheberrechtliche Vereinbarungen, um eine größere Ausgewogenheit der Korpora zu erreichen.

Absolute Häufigkeiten: Mit diesem aggregierten Korpus lassen sich Wortverlaufskurven von hochfrequenten Wörtern einigermaßen verlässlich darstellen. Anders ist dies bei mittel- und niedrigfrequenten Wörtern. Hier können Ausreißer in Einzelwerken dazu führen, dass die Wortverläufe verzerrt dargestellt werden. Auch hier empfiehlt sich der Wechsel zur Ansicht „Rohfrequenzen“.

Erweiterte Ansicht

Parameter Default
Normalisierung norm Datum+Textklasse

Kategorisierungsfunktion zur Berechnung des Nenners für die Ergebnis-Skalierung pro Million Tokens (Workaround für nicht-balancierte Korpora).

Datum+Textklasse heisst: Wenn n Treffer von insgesamt m Tokens in der Schnittmenge von Zeitabschnitt x und Textklasse z liegen, dann ist der normalisierte (und anzuzeigende) Wert yx,z = f × (x,z) = N/M × 1000000 Treffer pro Million Tokens.

Parameter Default
Glättung smooth Kurve

Methode zur graphischen Glättung der Kurven (Interpolierung).

Parameter Default
Gesamtwerte anzeigen grand 1

Wenn gesetzt, wird zusätzlich zu den Textklassen-spezifischen Kurven eine „Gesamt“-Kurve angezeigt.

Parameter Default
Zeitintervall slice 10

Zeitscheiben-Breite (natürliche Zahl S) mit optionalem Offset O, notiert S+O oder S-O.

Ein Datenpunkt y wird berechnet für jedes Paar aus Zeitscheibe x und Textsorte z, wobei der Index jeder Zeitscheibe modulo $slice immer gleich O ist; d. h. für $slice = 10+0 wäre S = 10, O = 0, und es gäbe Zeitscheiben 1900, 1910, 1920, …

Für $slice = 5 + 0 (S = 5, O = 0) gäbe es 1900, 1905, 1910, …

Jeder Treffer wird genau einer Zeitscheibe zugeordnet, in dem das Offset vom Ursprungsjahr des Treffers abgezogen wird, das Ergebnis modulo S berechnet, anschließend mit S multipliziert und mit O addiert wird:

Parameter Default
Fenster window 3

Fensterbreite für gleitenden Mittelwert (Glättung), als natürliche Zahl w (Anzahl Zeitscheiben). Bei $window = w = 0 wird ein „reines“ Histogramm berechnet, d. h.:

Bei $window = w = 1 werden die unmittelbar benachbarten Zeitabschnitte zur Hilfe gezogen:

Allgemein für $window = w und $slice = S mit $wbase = b ∈ {0,1}:

Parameter Default
Glättungskoeffizient wbase 0

Invers-Distanz Glättungsbasis (reelle Zahl b); wobei b = 0 (Default) intern auf b = 1 abgebildet wird (Gleichgewichtung aller zu yx,z beitragenden Zeitscheiben). Kann benutzt werden, um den Beitrag von benachbarten Zeitscheiben entsprechend ihrem x-Abstand zur Zielzeitscheibe zu gewichten („fernerliegende“ Nachbarscheiben tragen weniger bei). Berechnet yx,z als:

Akzeptiert auch den Wert „e“: e = exp(1) ≈ 2.71828…

Parameter Default
Zeitbereich xrange 1600:2016

Anzuzeigendes Datenintervall für die x-Achse (Datum).

Parameter Default
Konfidenz prune 0

Inverses Konfidenzintervall für Ausreißererkennung (0: kein Pruning, .05 ~ 95% Konfidenzintervall). Berechnet zunächst eine Fehlerverteilung für die normalisierten Datenpunkte (nach Normalisierung aber vor Glättung) gegenüber einer doppelt-exponentialgefilterten „Erwartungsfunktion“ (berechnet mit PDL::Stats::TS::filter_exp(), vorwärts+rückwärts gemittelt). Die beobachteten „Fehler“ werden unter Annahme einer Normalverteilung in p-Werte überführt, und alle Datenpunkte mit p-Werten außerhalb des angegebenen Konfidenzbereichs werden als Ausreißer behandelt. Ausreißer-Rohwerte werden ersetzt durch eine lineare Interpolierung der nächstliegenden nicht-Ausreißer-Datenpunkte. Vgl. http://kaskade.dwds.de/~jurish/pubs/jurish-verlaufskurven-2016-05-31.pdf.

Parameter Default
Logarithmische Glättung logavg 0

Wenn gesetzt, werden die gleitenden Mittelwerte yx,z bzgl. der entsprechenden Logarithmen berechnet und anschließend auf absolute Werte zurückprojiziert (für eine Glättungskonstante ε, Default ε = ½):

Parameter Default
Logarithmische Skalierung logscale 0

Wenn gesetzt, werden die angezeigten Achsen logarithmisch skaliert.