Verlaufskurven im DWDS

Datengrundlage

Das DWDS bietet Zugriff auf moderne und historische Textkorpora, mit denen Wortverläufe für einen Zeitraum von über 400 Jahren recherchiert werden können.

  1. DWDS-Zeitungskorpus (ab 1945) (voreingestellte Ansicht im DWDS): Für die Zeit nach 1945 liegen sehr große und bereits digitalisierte Volltextsammlungen vor. Das DWDS greift hier auf ein ca. 5 Milliarden Textwörter umfassendes Zeitungskorpus zurück, welches eine Vielzahl wichtiger überregionaler Tages- und Wochenzeitungen umfasst. Aufgrund lizenzrechtlicher Beschränkungen ist hier der Zugriff auf Belegstellen nicht möglich. Die in der Wortverlaufskurve angezeigten Daten werden jährlich aktualisiert und immer für den Zeitraum bis 31. Dezember des aktuell vorherigen Jahres angezeigt.
  2. DWDS-Referenzkorpora (1600–1999): Für die Zeit vor 1945 liegen mengenmäßig kleinere Textkorpora vor (insgesamt ca. 250 Millionen Textwörter). Dies sind das Deutsche Textarchiv (1473–1927) sowie das DWDS-Kernkorpus (1900–1999). Bei diesen beiden Korpora handelt es sich um sogenannte Referenzkorpora, also Textsammlungen, die gegenüber dem Zeitungskorpus den Vorteil besitzen, dass sie mehrere Textsorten (Wissenschaft, Belletristik, journalistische Prosa und Gebrauchsliteratur) in ausgewogenen Anteilen umfassen.
  3. Referenz- und Zeitungskorpora (aggregiert, frei): Dieses Korpus umfasst die unter (2) genannten Korpora sowie die „freien“ Anteile aus (1). Nachteil gegenüber (1) ist, dass die Verlaufskurven ungenauer sind; Vorteil ist, dass der Rückgriff auf Belege in den Grafiken möglich ist.

Mehrere Arten der Visualisierung sind möglich: normalisiert (d. h. es werden die Frequenzwerte pro Million laufender Textwörter angezeigt) oder in Absolutwerten (d. h. die absoluten Häufigkeiten werden dargestellt). In der voreingestellten Sicht werden die Frequenzwerte normalisiert und mit einem gleitenden Durchschnitt dargestellt.

Aus der Wortverlaufskurve lässt sich z. B. entnehmen, ob bzw. wann ein Wort an Bedeutung gewann (Beispiel: Stress, Demografie) oder wann es außer Gebrauch kam (Beispiele: Backfisch, baldigst).

Hinweise

Sie können beliebige DDC-Anfragen an das Verlaufskurven-Tool stellen. Bitte beachten Sie die Dokumentation zur Korpussuche.

Geglättete Ansicht

Zur leichteren Interpretierbarkeit der Wortverlaufskurven wird ein Glättungsverfahren eingesetzt, einzelne Ausreißer werden abgeschnitten. Gerade bei mittel- und niedrigfrequenten Wörtern (d. h. unterhalb einer Schwelle von 1 pro Million Tokens) kann es aber passieren, dass die geglätteten Kurven die tatsächlichen Frequenzanstiege und -abfälle nicht adäquat darstellen. In diesem Fall besteht die Möglichkeit, auf die Ansicht „Rohfrequenzen“ umzustellen.

Welche Probleme kann es mit der Wortverlaufskurve geben?

Mangelnde Ausgewogenheit der Korpora: Die Korpusgrößen sind weder zeitlich noch über die Textsorten hinweg gleichverteilt. Das DWDS bemüht sich um urheberrechtliche Vereinbarungen, um eine größere Ausgewogenheit der Korpora zu erreichen.

Absolute Häufigkeiten: Mit aggregierten Korpora lassen sich Wortverlaufskurven von hochfrequenten Wörtern einigermaßen verlässlich darstellen. Anders ist dies bei mittel- und niedrigfrequenten Wörtern. Hier können Ausreißer in Einzelwerken dazu führen, dass die Wortverläufe verzerrt dargestellt werden. Auch hier empfiehlt sich der Wechsel zur Ansicht „Rohfrequenzen“.

Erweiterte Ansicht

Parameter Default
Normalisierung norm Datum+Textklasse

Kategorisierungsfunktion zur Berechnung des Nenners für die Ergebnis-Skalierung pro Million Tokens (Workaround für nicht-balancierte Korpora).

Datum+Textklasse heisst: Wenn n Treffer von insgesamt m Tokens in der Schnittmenge von Zeitabschnitt x und Textklasse z liegen, dann ist der normalisierte (und anzuzeigende) Wert yx,z = f × (x,z) = N/M × 1000000 Treffer pro Million Tokens.

Parameter Default
Glättung smooth Kurve

Methode zur graphischen Glättung der Kurven (Interpolierung).

Parameter Default
Gesamtwerte anzeigen grand 1

Wenn gesetzt, wird zusätzlich zu den Textklassen-spezifischen Kurven eine „Gesamt“-Kurve angezeigt.

Parameter Default
Zeitintervall slice 1 für DWDS-Zeitungskorpus, 10 sonst

Zeitscheiben-Breite (natürliche Zahl S) mit optionalem Offset O, notiert S+O oder S-O.

Ein Datenpunkt y wird berechnet für jedes Paar aus Zeitscheibe x und Textsorte z, wobei der Index jeder Zeitscheibe modulo $slice immer gleich O ist; d. h. für $slice = 10+0 wäre S = 10, O = 0, und es gäbe Zeitscheiben 1900, 1910, 1920, …

Für $slice = 5 + 0 (S = 5, O = 0) gäbe es 1900, 1905, 1910, …

Jeder Treffer wird genau einer Zeitscheibe zugeordnet, in dem das Offset vom Ursprungsjahr des Treffers abgezogen wird, das Ergebnis modulo S berechnet, anschließend mit S multipliziert und mit O addiert wird:

Parameter Default
Fenster window 3

Fensterbreite für gleitenden Mittelwert (Glättung), als natürliche Zahl w (Anzahl Zeitscheiben). Bei $window = w = 0 wird ein „reines“ Histogramm berechnet, d. h.:

Bei $window = w = 1 werden die unmittelbar benachbarten Zeitabschnitte zur Hilfe gezogen:

Allgemein für $window = w und $slice = S mit $wbase = b ∈ {0,1}:

Parameter Default
Glättungskoeffizient wbase 0

Invers-Distanz Glättungsbasis (reelle Zahl b); wobei b = 0 (Default) intern auf b = 1 abgebildet wird (Gleichgewichtung aller zu yx,z beitragenden Zeitscheiben). Kann benutzt werden, um den Beitrag von benachbarten Zeitscheiben entsprechend ihrem x-Abstand zur Zielzeitscheibe zu gewichten („fernerliegende“ Nachbarscheiben tragen weniger bei). Berechnet yx,z als:

Akzeptiert auch den Wert „e“: e = exp(1) ≈ 2.71828…

Parameter Default
Zeitbereich xrange

Anzuzeigendes Datenintervall für die x-Achse (Datum).

Parameter Default
Konfidenz prune 0

Inverses Konfidenzintervall für Ausreißererkennung (0: kein Pruning, .05 ~ 95% Konfidenzintervall). Berechnet zunächst eine Fehlerverteilung für die normalisierten Datenpunkte (nach Normalisierung aber vor Glättung) gegenüber einer doppelt-exponentialgefilterten „Erwartungsfunktion“ (berechnet mit PDL::Stats::TS::filter_exp(), vorwärts+rückwärts gemittelt). Die beobachteten „Fehler“ werden unter Annahme einer Normalverteilung in p-Werte überführt, und alle Datenpunkte mit p-Werten außerhalb des angegebenen Konfidenzbereichs werden als Ausreißer behandelt. Ausreißer-Rohwerte werden ersetzt durch eine lineare Interpolierung der nächstliegenden nicht-Ausreißer-Datenpunkte. Vgl. http://kaskade.dwds.de/~jurish/pubs/jurish-verlaufskurven-2016-05-31.pdf.

Parameter Default
Logarithmische Glättung logavg 0

Wenn gesetzt, werden die gleitenden Mittelwerte yx,z bzgl. der entsprechenden Logarithmen berechnet und anschließend auf absolute Werte zurückprojiziert (für eine Glättungskonstante ε, Default ε = ½):

Parameter Default
Logarithmische Skalierung logscale 0

Wenn gesetzt, werden die angezeigten Achsen logarithmisch skaliert.