DWDS-Wortprofil

Das DWDS-Wortprofil ist das Ergebnis einer statistischen Analyse sehr großer Korpora, welche mittels moderner neuronaler Technologie syntaktisch analysisiert wurde. Es liefert kompakten Überblick über statistisch signifikante und damit typische Wortverbindungen. Beispiele hierfür sind Attribut-Nomen-Verbindungen wie schöne Bescherung oder Verb-Objekt-Verbindungen wie Flasche entkorken.

Mit dem DWDS-Wortprofil ist es möglich, auf strukturierte Weise Kookkurrenzinformationen zu nutzen, wobei immer ein Bezug zu den Korpusbelegen gegeben ist. Es werden Kookkurrenzen für verschiedene grammatische Relationen wie z. B. Subjekt, Akkusativ-/Dativobjekt, Genitivattribut, Adjektivattribut, präpositionales Komplement/Modifizierer etc. angeboten. Die Kookkurrenzen sind mithilfe von computerlinguistischen Verfahren automatisch extrahiert. Als Korpusgrundlage dient das Korpus „Kernkorpus Basis“ (die Textbasis für das DWDS-Kernkorpus) zusammen mit überregional rezipierten Tages- und Wochenzeitungen, wodurch ein breites Spektrum an Kookkurrenzpartnern gewährleistet ist. Die Kookkurrenzpartner zu einem Abfragewort können wahlweise als Wortwolke oder als Tabelle dargestellt werden. Hierbei sind die Kookkurrenzpartner über ein Assoziationsmaß (logDice, weitere Informationen hierzu in Pavel Rychlý: A Lexicographer-Friendly Association Score) bewertet. Je größer der Wert des Assoziationsmaßes eines Kookkurrenzpaares ist, desto größer ist der Kookkurrenzpartner in der Wolke zu sehen bzw. desto höher ist der Rang des Kookkurrenzpartners in der Tabelle. Hierdurch werden stark miteinander assoziierte Kookkurrenzen hervorgehoben und sichtbar gemacht. Über die Wortwolken oder Tabellen kann dann über die Kookkurrenzpartner direkt auf die einzelnen Korpusbelege zugegriffen werden.

Über das Wortprofil ist es zudem möglich, Verkettungen von Kollokationen, sogenannte Mehrwortausdrücke (MWA), zu finden, als auch zwei Wortprofile miteinander zu vergleichen. Für den Vergleich können sowohl Gemeinsamkeiten als auch Unterschiede hervorgehoben werden. Bei den Gemeinsamkeiten werden zu zwei Abfragewörtern die Kookkurrenzpartner angezeigt, die beide Abfragewörter teilen und die mit mindestens einem der beiden stark assoziiert sind. Dahingegen werden bei den Unterschieden die Kookkurrenzpartner angezeigt, die in ihrer Assoziation zu den beiden Abfragewörtern stark abweichen.

Öffentlich recherchierbar ist das „Wortprofil 2021“: dieses basiert auf Korpora im Umfang von etwa 11 Millionen Texten (294 Millionen Sätzen). Diese umfassen etwa 4,8 Milliarden Textwörter und 22,8 Millionen verschiedene Kookkurrenzen für insgesamt 380 000 Lemmaformen.

Zusammensetzung des DWDS-Wortprofils

Das DWDS-Wortprofil wurde auf der Basis der folgenden Korpora erstellt:

  • BILD (1997–2020)
  • Frankfurter Rundschau (1995–2021)
  • Neue Osnabrücker Zeitung (2012–2021)
  • Neue Zürcher Zeitung (1993–2021)
  • Süddeutsche Zeitung (1992–2021)
  • Der Tagesspiegel (2005–2021)
  • Die Welt (1999–2020)
  • Die ZEIT (1946–2018)
  • Teile des DWDS-Kernkorpus

Als empirische Grundlage für das DWDS-Wortprofil dienen somit zum einen überregional rezipierte, aktuelle Tages- und Wochenzeitungen und zum anderen Texte aus Belletristik, Gebrauchsliteratur, Wissenschaft und Presse aus dem Korpus „Kernkorpus Basis“, die bis zum frühen 20. Jahrhundert zurückgehen.

Für die Einräumung der entsprechenden Nutzungsrechte möchten wir uns bei den Verlagen der hier aufgeführten Zeitungen bedanken. Ein besonderer Dank geht an die GBI-Genios Deutsche Wirtschaftsdatenbank GmbH, die die bisweilen langwierigen Rechteverhandlungen mit den Zeitungsverlagen sehr zielgerichtet und im Sinne unseres Projektes geführt hat und für die digitale Bereitstellung der Zeitungsdaten sorgt (mit Ausnahme der „Süddeutschen Zeitung“). Bedanken möchten wir uns ebenfalls bei der Dokumentations- und InformationsZentrum München GmbH (DIZ) für die Einräumung der Nutzungsrechte sowie die Bereitstellung der digitalen Daten der „Süddeutschen Zeitung“. Wir danken der Axel Springer Syndication GmbH für die Bereitstellung von Presseartikeln aus der „BILD“-Zeitung für die Nutzung im DWDS.

Weitere Informationen

  • Didakowski, Jörg und Alexander Geyken (2014): From DWDS corpora to a German word profile – methodological problems and solutions. In: OPAL – Online publizierte Arbeiten zur Linguistik 2/2014, S. 39–47.
  • Geyken, Alexander (2011): Statistische Wortprofile zur schnellen Analyse der Syntagmatik in Textkorpora. In: A. Abel & R. Zanin (Eds.), Korpora in Lehre und Forschung (pp. 115–137). Bozen, Italien: Bozen University Press. [PDF]