Verlaufskurven im DWDS

Hinweise

Sie können beliebige DDC-Anfragen an das Verlaufskurven-Tool stellen. Bitte beachten Sie die Dokumentation zur Korpussuche.

Geglättete Ansicht

Zur leichteren Interpretierbarkeit der Wortverlaufskurven wird ein Glättungsverfahren eingesetzt, einzelne Ausreißer werden abgeschnitten. Gerade bei mittel- und niedrigfrequenten Wörtern (d. h. unterhalb einer Schwelle von 1 pro Million Tokens) kann es aber passieren, dass die geglätteten Kurven die tatsächlichen Frequenzanstiege und -abfälle nicht adäquat darstellen. In diesem Fall besteht die Möglichkeit, auf die Ansicht „Rohfrequenzen“ umzustellen.

Welche Probleme kann es mit der Wortverlaufskurve geben?

Mangelnde Ausgewogenheit der Korpora: Der Wortverlaufskurve liegt das größte im DWDS verfüg- und frei nutzbare Korpus zugrunde. Dieses besteht aus den Teilkorpora Deutsches Textarchiv, DWDS-Kernkorpus 20 und 21, Berliner Zeitung, Tagesspiegel und Die ZEIT. Es besitzt einen Gesamtumfang von etwa 1,5 Milliarden Textwörtern. Die Korpusgrößen sind weder zeitlich noch über die Textsorten hinweg gleichverteilt (Übersicht). Das DWDS bemüht sich um urheberrechtliche Vereinbarungen, um eine größere Ausgewogenheit der Korpora zu erreichen.

Absolute Häufigkeiten: Mit diesem aggregierten Korpus lassen sich Wortverlaufskurven von hochfrequenten Wörtern einigermaßen verlässlich darstellen. Anders ist dies bei mittel- und niedrigfrequenten Wörtern. Hier können Ausreißer in Einzelwerken dazu führen, dass die Wortverläufe verzerrt dargestellt werden. Auch hier empfiehlt sich der Wechsel zur Ansicht „Rohfrequenzen“.

Erweiterte Ansicht

Parameter Default
Normalisierung norm Datum+Textklasse

Kategorisierungsfunktion zur Berechnung des Nenners für die Ergebnis-Skalierung pro Million Tokens (Workaround für nicht-balancierte Korpora).

Datum+Textklasse heisst: Wenn n Treffer von insgesamt m Tokens in der Schnittmenge von Zeitabschnitt x und Textklasse z liegen, dann ist der normalisierte (und anzuzeigende) Wert yx,z = f × (x,z) = N/M × 1000000 Treffer pro Million Tokens.

Parameter Default
Glättung smooth Kurve

Methode zur graphischen Glättung der Kurven (Interpolierung).

Parameter Default
Gesamtwerte anzeigen grand 1

Wenn gesetzt, wird zusätzlich zu den Textklassen-spezifischen Kurven eine „Gesamt“-Kurve angezeigt.

Parameter Default
Zeitintervall slice 10

Zeitscheiben-Breite (natürliche Zahl S) mit optionalem Offset O, notiert S+O oder S-O.

Ein Datenpunkt y wird berechnet für jedes Paar aus Zeitscheibe x und Textsorte z, wobei der Index jeder Zeitscheibe modulo $slice immer gleich O ist; d. h. für $slice = 10+0 wäre S = 10, O = 0, und es gäbe Zeitscheiben 1900, 1910, 1920, …

Für $slice = 5 + 0 (S = 5, O = 0) gäbe es 1900, 1905, 1910, …

Jeder Treffer wird genau einer Zeitscheibe zugeordnet, in dem das Offset vom Ursprungsjahr des Treffers abgezogen wird, das Ergebnis modulo S berechnet, anschließend mit S multipliziert und mit O addiert wird:

Parameter Default
Fenster window 3

Fensterbreite für gleitenden Mittelwert (Glättung), als natürliche Zahl w (Anzahl Zeitscheiben). Bei $window = w = 0 wird ein „reines“ Histogramm berechnet, d. h.:

Bei $window = w = 1 werden die unmittelbar benachbarten Zeitabschnitte zur Hilfe gezogen:

Allgemein für $window = w und $slice = S mit $wbase = b ∈ {0,1}:

Parameter Default
Glättungskoeffizient wbase 0

Invers-Distanz Glättungsbasis (reelle Zahl b); wobei b = 0 (Default) intern auf b = 1 abgebildet wird (Gleichgewichtung aller zu yx,z beitragenden Zeitscheiben). Kann benutzt werden, um den Beitrag von benachbarten Zeitscheiben entsprechend ihrem x-Abstand zur Zielzeitscheibe zu gewichten („fernerliegende“ Nachbarscheiben tragen weniger bei). Berechnet yx,z als:

Akzeptiert auch den Wert „e“: e = exp(1) ≈ 2.71828…

Parameter Default
Zeitbereich xrange 1600:2016

Anzuzeigendes Datenintervall für die x-Achse (Datum).

Parameter Default
Konfidenz prune 0

Inverses Konfidenzintervall für Ausreißererkennung (0: kein Pruning, .05 ~ 95% Konfidenzintervall). Berechnet zunächst eine Fehlerverteilung für die normalisierten Datenpunkte (nach Normalisierung aber vor Glättung) gegenüber einer doppelt-exponentialgefilterten „Erwartungsfunktion“ (berechnet mit PDL::Stats::TS::filter_exp(), vorwärts+rückwärts gemittelt). Die beobachteten „Fehler“ werden unter Annahme einer Normalverteilung in p-Werte überführt, und alle Datenpunkte mit p-Werten außerhalb des angegebenen Konfidenzbereichs werden als Ausreißer behandelt. Ausreißer-Rohwerte werden ersetzt durch eine lineare Interpolierung der nächstliegenden nicht-Ausreißer-Datenpunkte. Vgl. http://kaskade.dwds.de/~jurish/pubs/jurish-verlaufskurven-2016-05-31.pdf.

Parameter Default
Logarithmische Glättung logavg 0

Wenn gesetzt, werden die gleitenden Mittelwerte yx,z bzgl. der entsprechenden Logarithmen berechnet und anschließend auf absolute Werte zurückprojiziert (für eine Glättungskonstante ε, Default ε = ½):

Parameter Default
Logarithmische Skalierung logscale 0

Wenn gesetzt, werden die angezeigten Achsen logarithmisch skaliert.