Verlaufskurven im DWDS
Inhalt dieses Dokuments
- Datengrundlage
- Hinweise
- Geglättete Ansicht
- Welche Probleme kann es mit der Wortverlaufskurve geben?
- Erweiterte Ansicht
- Zugriff auf die Rohdaten
Datengrundlage
Das DWDS bietet Zugriff auf moderne und historische Textkorpora, mit denen Wortverläufe für einen Zeitraum von über 400 Jahren recherchiert werden können.
- DTA-Gesamt+DWDS-Kernkorpus (1600–1999): Für den Zeitraum des 17. bis 20. Jahrhunderts liegen mengenmäßig kleinere Textkorpora vor (insgesamt ca. 370 Millionen Tokens). Dies sind das Deutsche Textarchiv mit seinen Erweiterungen sowie das DWDS-Kernkorpus. Bei diesen Korpora handelt es sich vornehmlich um sogenannte Referenzkorpora, also Textsammlungen, die gegenüber dem Zeitungskorpus den Vorteil besitzen, dass sie mehrere Textsorten (Wissenschaft, Belletristik, journalistische Prosa und Gebrauchsliteratur) in ausgewogenen Anteilen umfassen.
- DWDS-Zeitungskorpus (voreingestellte Ansicht im DWDS): Für die Zeit ab 1946 liegen sehr große und bereits digitalisierte Volltextsammlungen vor. Das DWDS greift hier auf ein ca. 22 Milliarden Tokens (ca. 18 Mrd. Textwörter) umfassendes Zeitungskorpus zurück, welches eine Vielzahl wichtiger überregionaler Tages- und Wochenzeitungen umfasst. Aufgrund lizenzrechtlicher Beschränkungen ist hier der Zugriff auf Belegstellen nicht möglich. Die in der Wortverlaufskurve angezeigten Daten werden regelmäßig aktualisiert. (Hinweis: Mit Update vom 19.11.2021 wurde die Datengrundlage des DWDS-Zeitungskorpus um alle Mantel- und Regionalteile der Zeitungen des ZDL-Regionalkorpus erweitert.)
- ZDL-Regionalkorpus (ab 1993): Dieses Korpus setzt sich aus Lokal- und Regionalteilen deutscher Zeitungen zusammen, die jeweils bestimmten Arealen zugeordnet sind: D-Nordwest, D-Nordost, D-Mittelwest, D-Mittelost, D-Südwest und D-Südwest. In der Visualisierung wird neben dem Gesamtverlauf der Verlauf pro Areal angezeigt. Der Default-Zeitraum in der Visualisierung ist der größte Zeitraum, in dem es Zeitungsdaten aus allen Arealen gibt (gegenwärtig ab 2005).
- Referenz- und Zeitungskorpora (aggregiert, frei): Dieses Korpus umfasst die unter (2) genannten Korpora sowie die „freien“ Anteile aus (1). Nachteil gegenüber (1) ist, dass die Verlaufskurven ungenauer sind; Vorteil ist, dass der Rückgriff auf Belege in den Grafiken möglich ist.
Mehrere Arten der Visualisierung sind möglich: In der voreingestellten Sicht („geglättet“) werden die Frequenzwerte normalisiert, sie werden pro Million laufender Tokens angezeigt und mit einem gleitenden Durchschnitt (von 3 * Zeitintervallgröße) dargestellt. Darüber hinaus lassen sich die Frequenzwerte in absoluten Zahlen („Rohfrequenzen“) darstellen. In der erweiterten Ansicht lassen sich die verschiedenen Werte parametrisieren (insbesondere gesamter Zeitbereich, Zeitintervall, Fenstergröße, Konfidenz, Glättungsart und -koeffizient).
Aus der Wortverlaufskurve lässt sich z. B. entnehmen, ob bzw. wann ein Wort an Bedeutung gewann (Beispiel: Stress, Demografie) oder wann es außer Gebrauch kam (Beispiele: Backfisch, baldigst).
Hinweise
Sie können beliebige DDC-Anfragen an das Verlaufskurven-Tool stellen. Bitte beachten Sie die Dokumentation zur Korpussuche.
Geglättete Ansicht
Zur leichteren Interpretierbarkeit der Wortverlaufskurven wird ein Glättungsverfahren eingesetzt, einzelne Ausreißer werden abgeschnitten. Gerade bei mittel- und niedrigfrequenten Wörtern (d. h. unterhalb einer Schwelle von 1 pro Million Tokens) kann es aber passieren, dass die geglätteten Kurven die tatsächlichen Frequenzanstiege und -abfälle nicht adäquat darstellen. In diesem Fall besteht die Möglichkeit, auf die Ansicht „Rohfrequenzen“ umzustellen.
Welche Probleme kann es mit der Wortverlaufskurve geben?
Mangelnde Ausgewogenheit der Korpora: Die Korpusgrößen sind weder zeitlich noch über die Textsorten hinweg gleichverteilt. Das DWDS bemüht sich um urheberrechtliche Vereinbarungen, um eine größere Ausgewogenheit der Korpora zu erreichen.
Absolute Häufigkeiten: Mit aggregierten Korpora lassen sich Wortverlaufskurven von hochfrequenten Wörtern einigermaßen verlässlich darstellen. Anders ist dies bei mittel- und niedrigfrequenten Wörtern. Hier können Ausreißer in Einzelwerken dazu führen, dass die Wortverläufe verzerrt dargestellt werden. Auch hier empfiehlt sich der Wechsel zur Ansicht „Rohfrequenzen“.
Erweiterte Ansicht
Parameter | Default | |
---|---|---|
Normalisierung | norm | Datum+Textklasse |
Kategorisierungsfunktion zur Berechnung des Nenners für die Ergebnis-Skalierung pro Million Tokens (Workaround für nicht-balancierte Korpora).
Datum+Textklasse
heisst: Wenn $n$ Treffer von insgesamt $m$
Tokens in der Schnittmenge von Zeitabschnitt $x$ und Textklasse $z$
liegen, dann ist der normalisierte (und anzuzeigende) Wert
$y_{x,z} = f \times (x,z) = \frac{n}{m} \times 1000000$
Treffer pro Million Tokens.
Parameter | Default | |
---|---|---|
Glättung | smooth | Kurve |
Methode zur graphischen Glättung der Kurven (Interpolierung).
Parameter | Default | |
---|---|---|
Gesamtwerte anzeigen | grand | 1 |
Wenn gesetzt, wird zusätzlich zu den Textklassen-spezifischen Kurven eine „Gesamt“-Kurve angezeigt.
Parameter | Default | |
---|---|---|
Zeitintervall | slice | 1 für DWDS-Zeitungskorpus, 10 sonst |
Zeitscheiben-Breite (natürliche Zahl $S$) mit optionalem Offset $O$, notiert $S+O$ oder $S-O$.
Ein Datenpunkt $y$ wird berechnet für jedes Paar aus Zeitscheibe $x$
und Textsorte $z$, wobei der Index jeder Zeitscheibe modulo $slice$
immer gleich $O$ ist; d. h. für $slice = 10+0$ wären
$S=10$ und $O=0$ und es gäbe Zeitscheiben 1900, 1910, 1920, …
Für $slice = 5 + 0$ mit $S = 5$ und $O = 0$
gäbe es 1900, 1905, 1910, …
Jeder Treffer wird genau einer Zeitscheibe zugeordnet, in dem das Offset vom Ursprungsjahr des Treffers abgezogen wird, das Ergebnis modulo $S$ berechnet, anschließend mit $S$ multipliziert und mit $O$ addiert wird:
$$\slice(hit) = O + S \times \floor \left(\frac{\date(hit) - O}{S}\right)$$Parameter | Default | |
---|---|---|
Fenster | window | 3 |
Fensterbreite für gleitenden Mittelwert (Glättung), als natürliche Zahl $w$ (Anzahl Zeitscheiben). Bei $window = w = 0$ wird ein „reines“ Histogramm berechnet, d. h.:
$$ \begin{align} y_{x,z} = y_{x,z}^0 &= \count(x,z) \\ &= \left| \slice^{-1}(x) \cap \class^{-1}(z) \right|\\ &= \left| \left\{ hit \in \Corpus : \slice(hit) = x\; \& \class(hit) = z \right\} \right| \end{align} $$Bei $window = w = 1$ werden die unmittelbar benachbarten Zeitabschnitte zur Hilfe gezogen:
$$ \begin{align} y_{x,z} = y^1_{x,z} &= \avg(y_{x-S,z}^0, y_{x,z}^0,y_{x+S,z}^0)\\ &= \frac{\count(x-S,z)+\count(x,z)+\count(x+S,z)}{3} \end{align} $$Allgemein für $window = w$ und $slice = S$ mit $wbase = b \in \set{0,1}$:
$$ \begin{align} y_{x,z} = y_{x,z}^w &= \avg_{i=-w}^w\left(y_{x+iS,z}^0\right) \\ &= \frac{1}{1+2w} \sum_{i=-w}^w \count(x+iS,z) \end{align} $$Parameter | Default | |
---|---|---|
Glättungskoeffizient | wbase | 0 |
Invers-Distanz Glättungsbasis (reelle Zahl b); wobei $b=0$ (Default) intern auf $b=1$ abgebildet wird (Gleichgewichtung aller zu $y_{x,z}$ beitragenden Zeitscheiben). Kann benutzt werden, um den Beitrag von benachbarten Zeitscheiben entsprechend ihrem $x$-Abstand zur Zielzeitscheibe zu gewichten („fernerliegende“ Nachbarscheiben tragen weniger bei). Berechnet $y_{x,z}$ als:
$$ \begin{align} y_{x,z} = y_{x,z}^{w,b} &= E_{i=-w}^{w}\left[b^{-i}\right]y_{x+iS,z}^0 \\ &= \frac{1}{1+2\sum_{i=1}^{w}b^{-i}}\sum_{i=-w}^{w}b^{-i}y_{x+iS,z}^0 \end{align} $$Akzeptiert auch den Wert „e“: $e = \exp(1) \approx 2.71828\dots$
Parameter | Default | |
---|---|---|
Zeitbereich | xrange |
Anzuzeigendes Datenintervall für die x-Achse (Datum).
Parameter | Default | |
---|---|---|
Konfidenz | prune | 0 |
Inverses Konfidenzintervall für Ausreißererkennung (0: kein Pruning, .05 ~ 95% Konfidenzintervall).
Berechnet zunächst eine Fehlerverteilung für die normalisierten Datenpunkte (nach Normalisierung aber vor
Glättung) gegenüber einer doppelt-exponentialgefilterten
„Erwartungsfunktion“ (berechnet mit PDL::Stats::TS::filter_exp()
,
vorwärts+rückwärts gemittelt). Die beobachteten „Fehler“ werden unter Annahme einer
Normalverteilung in p-Werte überführt, und alle Datenpunkte mit p-Werten außerhalb
des angegebenen Konfidenzbereichs werden als Ausreißer behandelt. Ausreißer-Rohwerte werden ersetzt
durch eine lineare Interpolierung der nächstliegenden nicht-Ausreißer-Datenpunkte. Vgl.
https://kaskade.dwds.de/~jurish/pubs/jurish-verlaufskurven-2016-05-31.pdf.
Parameter | Default | |
---|---|---|
Logarithmische Glättung | logavg | 0 |
Wenn gesetzt, werden die gleitenden Mittelwerte $y_{x,z}$ bzgl. der entsprechenden Logarithmen berechnet und anschließend auf absolute Werte zurückprojiziert (für eine Glättungskonstante $\epsilon$, Default $\epsilon = \frac{1}{2}$):
$$ y = \exp\left(\dots\: \log(y_{x+iS,z}^0+\epsilon) \dots\right)-\epsilon $$Parameter | Default | |
---|---|---|
Logarithmische Skalierung | logscale | 0 |
Wenn gesetzt, werden die angezeigten Achsen logarithmisch skaliert.
Zugriff auf die Rohdaten
Über die dstar-Umgebung können Sie Zugriff auf die Rohdaten in verschiedenen Formaten erhalten. Momentan ist das für folgende Korpora möglich:
- Blogs
- Berliner Zeitung (1994–2005)
- Korpus Patiententexte (1834–1957)
- DDR
- Polytechnisches Journal
- DTA-Kern+Erweit. (1465–1969)
- DTA-Erweiterungen (1465–1969)
- DTA-Kernkorpus (1598–1913)
- DWDS-Kernkorpus (1900–1999)
- DWDS-Kernkorpus 21 (2000–2010)
- Neuer Deutscher Novellenschatz (1884–1887)
- Politische Reden (1982–2020)
- Referenz- und Zeitungskorpora (frei)
- Soldatenbriefe (1745–1872)
- Gesprochene Sprache
- stimm-los – Wiedergefundene Perlen der Literatur
- Filmuntertitel
- Die ZEIT (1946–2018)