Wörter treten oft gehäuft mit anderen Wörtern auf – man spricht hier von
Kookkurrenzen. Manchmal ergeben sich daraus gängige Gebrauchsmuster wie
in Strömen regnen, verfehlte Politik, Zeit schinden
oder Arbeit suchen. Es kann aber auch eine neue Bedeutung durch die
Kombination der Wörter entstehen, die sich aus der Bedeutung der einzelnen
Bestandteile nicht herleiten lässt: Ein schräger Vogel ist weder
schräg im Sinne von zur Seite geneigt noch wirklich ein
Vogel.
Kookkurrenzen lassen sich aus großen Textkorpora automatisch extrahieren.
Viele dieser Kookkurrenzen, wie etwa 70. Geburtstag, Jägerstr. 22
oder Tourismus Ägypten, sind sprachlich nicht weiter relevant. Es ist daher
notwendig, sprachlich bedeutsame Wortverbindungen, sogenannte Kollokationen,
herauszufiltern (vgl. Kollokation, Lesart 1).
Im Rahmen des DWDS wurden zwei Software-Werkzeuge entwickelt, die diese
Extraktionsaufgaben für zwei unterschiedliche Szenarien leisten: das
DWDS-Wortprofil und DiaCollo.
Das DWDS-Wortprofil liefert einen Überblick darüber, welche Wörter mit welchen
anderen besonders häufig vorkommen, und zwar in Tabellenform oder in Form
einer einfachen und anschaulichen „Wortwolke“. Bei der ersteren wird nach
grammatischen Funktionen unterschieden, z. B. Attribut-Nomen-Verbindungen
wie schöne Bescherung oder Verb-Objekt-Beziehungen wie Flasche entkorken.
Basis des DWDS-Wortprofils ist ein knapp 5 Mrd. Textwörter umfassendes
Korpus aus überregionalen Tages- und Wochenzeitungen sowie Belletristik-, Gebrauchs-
und Wissenschaftstexten.