Der deutsche Wortschatz von 1600 bis heute.

Verlaufskurven im DWDS

Inhalt dieses Dokuments

Datengrundlage

Das DWDS bietet Zugriff auf moderne und historische Textkorpora, mit denen Wortverläufe für einen Zeitraum von über 400 Jahren recherchiert werden können.

  1. DTA-Gesamt+DWDS-Kernkorpus (1600–1999): Für den Zeitraum des 17. bis 20. Jahrhunderts liegen mengenmäßig kleinere Textkorpora vor (insgesamt ca. 370 Millionen Tokens). Dies sind das Deutsche Textarchiv mit seinen Erweiterungen sowie das DWDS-Kernkorpus. Bei diesen Korpora handelt es sich vornehmlich um sogenannte Referenzkorpora, also Textsammlungen, die gegenüber dem Zeitungskorpus den Vorteil besitzen, dass sie mehrere Textsorten (Wissenschaft, Belletristik, journalistische Prosa und Gebrauchsliteratur) in ausgewogenen Anteilen umfassen.
  2. DWDS-Zeitungskorpus (voreingestellte Ansicht im DWDS): Für die Zeit ab 1946 liegen sehr große und bereits digitalisierte Volltextsammlungen vor. Das DWDS greift hier auf ein ca. 22 Milliarden Tokens (ca. 18 Mrd. Textwörter) umfassendes Zeitungskorpus zurück, welches eine Vielzahl wichtiger überregionaler Tages- und Wochenzeitungen umfasst. Aufgrund lizenzrechtlicher Beschränkungen ist hier der Zugriff auf Belegstellen nicht möglich. Die in der Wortverlaufskurve angezeigten Daten werden regelmäßig aktualisiert. (Hinweis: Mit Update vom 19.11.2021 wurde die Datengrundlage des DWDS-Zeitungskorpus um alle Mantel- und Regionalteile der Zeitungen des ZDL-Regionalkorpus erweitert.)
  3. ZDL-Regionalkorpus (ab 1993): Dieses Korpus setzt sich aus Lokal- und Regionalteilen deutscher Zeitungen zusammen, die jeweils bestimmten Arealen zugeordnet sind: D-Nordwest, D-Nordost, D-Mittelwest, D-Mittelost, D-Südwest und D-Südwest. In der Visualisierung wird neben dem Gesamtverlauf der Verlauf pro Areal angezeigt. Der Default-Zeitraum in der Visualisierung ist der größte Zeitraum, in dem es Zeitungsdaten aus allen Arealen gibt (gegenwärtig ab 2005).
  4. Referenz- und Zeitungskorpora (aggregiert, frei): Dieses Korpus umfasst die unter (2) genannten Korpora sowie die „freien“ Anteile aus (1). Nachteil gegenüber (1) ist, dass die Verlaufskurven ungenauer sind; Vorteil ist, dass der Rückgriff auf Belege in den Grafiken möglich ist.

Mehrere Arten der Visualisierung sind möglich: In der voreingestellten Sicht („geglättet“) werden die Frequenzwerte normalisiert, sie werden pro Million laufender Tokens angezeigt und mit einem gleitenden Durchschnitt (von 3 * Zeitintervallgröße) dargestellt. Darüber hinaus lassen sich die Frequenzwerte in absoluten Zahlen („Rohfrequenzen“) darstellen. In der erweiterten Ansicht lassen sich die verschiedenen Werte parametrisieren (insbesondere gesamter Zeitbereich, Zeitintervall, Fenstergröße, Konfidenz, Glättungsart und -koeffizient).

Aus der Wortverlaufskurve lässt sich z. B. entnehmen, ob bzw. wann ein Wort an Bedeutung gewann (Beispiel: Stress, Demografie) oder wann es außer Gebrauch kam (Beispiele: Backfisch, baldigst).

Hinweise

Sie können beliebige DDC-Anfragen an das Verlaufskurven-Tool stellen. Bitte beachten Sie die Dokumentation zur Korpussuche.

Geglättete Ansicht

Zur leichteren Interpretierbarkeit der Wortverlaufskurven wird ein Glättungsverfahren eingesetzt, einzelne Ausreißer werden abgeschnitten. Gerade bei mittel- und niedrigfrequenten Wörtern (d. h. unterhalb einer Schwelle von 1 pro Million Tokens) kann es aber passieren, dass die geglätteten Kurven die tatsächlichen Frequenzanstiege und -abfälle nicht adäquat darstellen. In diesem Fall besteht die Möglichkeit, auf die Ansicht „Rohfrequenzen“ umzustellen.

Welche Probleme kann es mit der Wortverlaufskurve geben?

Mangelnde Ausgewogenheit der Korpora: Die Korpusgrößen sind weder zeitlich noch über die Textsorten hinweg gleichverteilt. Das DWDS bemüht sich um urheberrechtliche Vereinbarungen, um eine größere Ausgewogenheit der Korpora zu erreichen.

Absolute Häufigkeiten: Mit aggregierten Korpora lassen sich Wortverlaufskurven von hochfrequenten Wörtern einigermaßen verlässlich darstellen. Anders ist dies bei mittel- und niedrigfrequenten Wörtern. Hier können Ausreißer in Einzelwerken dazu führen, dass die Wortverläufe verzerrt dargestellt werden. Auch hier empfiehlt sich der Wechsel zur Ansicht „Rohfrequenzen“.

Erweiterte Ansicht

Parameter Default
Normalisierung norm Datum+Textklasse

Kategorisierungsfunktion zur Berechnung des Nenners für die Ergebnis-Skalierung pro Million Tokens (Workaround für nicht-balancierte Korpora).

Datum+Textklasse heisst: Wenn $n$ Treffer von insgesamt $m$ Tokens in der Schnittmenge von Zeitabschnitt $x$ und Textklasse $z$ liegen, dann ist der normalisierte (und anzuzeigende) Wert $y_{x,z} = f \times (x,z) = \frac{n}{m} \times 1000000$ Treffer pro Million Tokens.

Parameter Default
Glättung smooth Kurve

Methode zur graphischen Glättung der Kurven (Interpolierung).

Parameter Default
Gesamtwerte anzeigen grand 1

Wenn gesetzt, wird zusätzlich zu den Textklassen-spezifischen Kurven eine „Gesamt“-Kurve angezeigt.

Parameter Default
Zeitintervall slice 1 für DWDS-Zeitungskorpus, 10 sonst

Zeitscheiben-Breite (natürliche Zahl $S$) mit optionalem Offset $O$, notiert $S+O$ oder $S-O$.

Ein Datenpunkt $y$ wird berechnet für jedes Paar aus Zeitscheibe $x$ und Textsorte $z$, wobei der Index jeder Zeitscheibe modulo $slice$ immer gleich $O$ ist; d. h. für $slice = 10+0$ wären $S=10$ und $O=0$ und es gäbe Zeitscheiben 1900, 1910, 1920, …

Für $slice = 5 + 0$ mit $S = 5$ und $O = 0$ gäbe es 1900, 1905, 1910, …

Jeder Treffer wird genau einer Zeitscheibe zugeordnet, in dem das Offset vom Ursprungsjahr des Treffers abgezogen wird, das Ergebnis modulo $S$ berechnet, anschließend mit $S$ multipliziert und mit $O$ addiert wird:

$$\slice(hit) = O + S \times \floor \left(\frac{\date(hit) - O}{S}\right)$$
Parameter Default
Fenster window 3

Fensterbreite für gleitenden Mittelwert (Glättung), als natürliche Zahl $w$ (Anzahl Zeitscheiben). Bei $window = w = 0$ wird ein „reines“ Histogramm berechnet, d. h.:

$$ \begin{align} y_{x,z} = y_{x,z}^0 &= \count(x,z) \\ &= \left| \slice^{-1}(x) \cap \class^{-1}(z) \right|\\ &= \left| \left\{ hit \in \Corpus : \slice(hit) = x\; \& \class(hit) = z \right\} \right| \end{align} $$

Bei $window = w = 1$ werden die unmittelbar benachbarten Zeitabschnitte zur Hilfe gezogen:

$$ \begin{align} y_{x,z} = y^1_{x,z} &= \avg(y_{x-S,z}^0, y_{x,z}^0,y_{x+S,z}^0)\\ &= \frac{\count(x-S,z)+\count(x,z)+\count(x+S,z)}{3} \end{align} $$

Allgemein für $window = w$ und $slice = S$ mit $wbase = b \in \set{0,1}$:

$$ \begin{align} y_{x,z} = y_{x,z}^w &= \avg_{i=-w}^w\left(y_{x+iS,z}^0\right) \\ &= \frac{1}{1+2w} \sum_{i=-w}^w \count(x+iS,z) \end{align} $$
Parameter Default
Glättungskoeffizient wbase 0

Invers-Distanz Glättungsbasis (reelle Zahl b); wobei $b=0$ (Default) intern auf $b=1$ abgebildet wird (Gleichgewichtung aller zu $y_{x,z}$ beitragenden Zeitscheiben). Kann benutzt werden, um den Beitrag von benachbarten Zeitscheiben entsprechend ihrem $x$-Abstand zur Zielzeitscheibe zu gewichten („fernerliegende“ Nachbarscheiben tragen weniger bei). Berechnet $y_{x,z}$ als:

$$ \begin{align} y_{x,z} = y_{x,z}^{w,b} &= E_{i=-w}^{w}\left[b^{-i}\right]y_{x+iS,z}^0 \\ &= \frac{1}{1+2\sum_{i=1}^{w}b^{-i}}\sum_{i=-w}^{w}b^{-i}y_{x+iS,z}^0 \end{align} $$

Akzeptiert auch den Wert „e“: $e = \exp(1) \approx 2.71828\dots$

Parameter Default
Zeitbereich xrange

Anzuzeigendes Datenintervall für die x-Achse (Datum).

Parameter Default
Konfidenz prune 0

Inverses Konfidenzintervall für Ausreißererkennung (0: kein Pruning, .05 ~ 95% Konfidenzintervall). Berechnet zunächst eine Fehlerverteilung für die normalisierten Datenpunkte (nach Normalisierung aber vor Glättung) gegenüber einer doppelt-exponentialgefilterten „Erwartungsfunktion“ (berechnet mit PDL::Stats::TS::filter_exp(), vorwärts+rückwärts gemittelt). Die beobachteten „Fehler“ werden unter Annahme einer Normalverteilung in p-Werte überführt, und alle Datenpunkte mit p-Werten außerhalb des angegebenen Konfidenzbereichs werden als Ausreißer behandelt. Ausreißer-Rohwerte werden ersetzt durch eine lineare Interpolierung der nächstliegenden nicht-Ausreißer-Datenpunkte. Vgl. https://kaskade.dwds.de/~jurish/pubs/jurish-verlaufskurven-2016-05-31.pdf.

Parameter Default
Logarithmische Glättung logavg 0

Wenn gesetzt, werden die gleitenden Mittelwerte $y_{x,z}$ bzgl. der entsprechenden Logarithmen berechnet und anschließend auf absolute Werte zurückprojiziert (für eine Glättungskonstante $\epsilon$, Default $\epsilon = \frac{1}{2}$):

$$ y = \exp\left(\dots\: \log(y_{x+iS,z}^0+\epsilon) \dots\right)-\epsilon $$
Parameter Default
Logarithmische Skalierung logscale 0

Wenn gesetzt, werden die angezeigten Achsen logarithmisch skaliert.

Zugriff auf die Rohdaten

Über die dstar-Umgebung können Sie Zugriff auf die Rohdaten in verschiedenen Formaten erhalten. Momentan ist das für folgende Korpora möglich: