DWDS-Wortprofil

Das DWDS-Wortprofil ist das Ergebnis einer automatischen syntaktischen und statistischen Analyse sehr großer Korpora. Es liefert einen kompakten Überblick über statistisch signifikante und damit typische Wortverbindungen. Beispiele hierfür sind Attribut-Nomen-Verbindungen wie schöne Bescherung oder Verb-Objekt-Verbindungen wie Flasche entkorken.

Mit dem DWDS-Wortprofil ist es möglich, auf strukturierte Weise Kookkurrenzinformationen zu nutzen, wobei immer ein Bezug zu den Korpusbelegen gegeben ist. Es werden Kookkurrenzen für verschiedene grammatische Relationen wie z. B. Subjekt, Akkusativ-/Dativobjekt, Genitivattribut, Adjektivattribut, präpositionales Komplement/Modifizierer etc. angeboten. Die Kookkurrenzen sind mithilfe von computerlinguistischen Verfahren automatisch extrahiert. Als Korpusgrundlage dient das DWDS-Kernkorpus zusammen mit verschiedenen gebräuchlichen Tages- und Wochenzeitungen, wodurch ein breites Spektrum an Kookkurrenzpartnern gewährleistet ist. Die Kookkurrenzpartner zu einem Abfragewort können wahlweise als Wortwolke oder als Tabelle dargestellt werden. Hierbei sind die Kookkurrenzpartner über ein Assoziationsmaß bewertet. Je größer der Wert des Assoziationsmaßes eines Kookkurrenzpaares ist, desto größer ist der Kookkurrenzpartner in der Wolke zu sehen bzw. desto höher ist der Rang des Kookkurrenzpartners in der Tabelle. Hierdurch werden stark miteinander assoziierte Kookkurrenzen hervorgehoben und sichtbar gemacht. Über die Wortwolken oder Tabellen kann dann über die Kookkurrenzpartner direkt auf die einzelnen Korpusbelege zugegriffen werden.

Über das Wortprofil ist es zudem möglich, zwei Wörter miteinander zu vergleichen. Es können sowohl Gemeinsamkeiten als auch Unterschiede hervorgehoben werden. Bei den Gemeinsamkeiten werden zu zwei Abfragewörtern die Kookkurrenzpartner angezeigt, die beide Abfragewörter teilen und die mit mindestens einem der beiden stark assoziiert sind. Dahingegen werden bei den Unterschieden die Kookkurrenzpartner angezeigt, die in ihrer Assoziation zu den beiden Abfragewörtern stark abweichen.

  • Öffentlich recherchierbar ist das „Wortprofil 2014“: dieses basiert auf Korpora im Umfang von etwa 1,8 Milliarden Textwörtern und enthält 11,9 Millionen verschiedene Kookkurrenzen für insgesamt 105 000 Lemmaformen.
  • Intern für die lexikografische Arbeit verfügbar ist das „Wortprofil 2016“: dieses basiert auf Korpora im Umfang von etwa 2,7 Milliarden Textwörtern und enthält 21,2 Millionen verschiedene Kookkurrenzen für insgesamt 140 000 Lemmaformen.

Zusammensetzung Wortprofil 2014

Weiterführende Literatur

  • Didakowski, Jörg und Alexander Geyken (2014): From DWDS corpora to a German word profile–methodological problems and solutions. In: OPAL – Online publizierte Arbeiten zur Linguistik 2/2014, S. 39–47.
  • Geyken, Alexander (2011): Statistische Wortprofile zur schnellen Analyse der Syntagmatik in Textkorpora. In: A. Abel & R. Zanin (Eds.), Korpora in Lehre und Forschung (pp. 115–137). Bozen, Italien: Bozen University Press.