Erschließung: DWDS-Beispielextraktor

Motivation

Es ist für Nutzer einsprachiger Wörterbücher hilfreich, wenn die Bedeutungen lexikalischer Einheiten mittels gut gewählter Beispiele und Belege beschrieben werden. Als gut gewählt gelten Beispiele dann, wenn sie typische Verwendungsweisen der lexikalischen Einheiten bzw. Lesarten veranschaulichen. Die Verwendung typischer Belege ist gängige Praxis in den großen englischsprachigen Wörterbüchern, aber auch bereits bei der Erstellung des Wörterbuchs der deutschen Gegenwartssprache (WDG), welches die Grundlage für das DWDS-Wörterbuch bildet. Das WDG beispielsweise enthält zu den ca. 90 000 Einträgen gut 230 000 Beispiele mit typischen Verwendungskontexten.

Mit der Verfügbarkeit großer Korpora – die DWDS-Korpora umfassen mehr als 2,5 Milliarden laufende Textwörter – besteht das Problem heutzutage weniger darin, Belege für ein Stichwort bzw. eine Lesart zu finden, sondern vielmehr darin, aus der Fülle der Kandidaten die am besten geeigneten Belege zu extrahieren. Insbesondere muss festgelegt werden, was einen „guten Beleg“ ausmacht bzw. umgekehrt müssen Kriterien festgelegt werden, um ungeeignete Belege herauszufiltern.

Methode

Mit dem Werkzeug DWDS-Beispielextraktor können für jedes Suchwort, für das Belege in ausreichender Zahl vorhanden sind (mindestens 100), die besten n Belege ausgewählt werden. Die Auswahl der Belegmenge folgt globalen und lokalen Kriterien.

Die globalen Kriterien beziehen sich auf die Ausgewogenheit der Belegmenge:

  • Die Belege sollten aus verschiedenen Zeitscheiben stammen.
  • Die Belege sollten, wenn möglich, aus mehr als einer Textsorte entstammen (Belletristik, Gebrauchsliteratur, Wissenschaft, Zeitungen).
  • Quellen aus der Setzliste (z. B. Thomas Mann, Habermas, Suter, cf. Geyken 2007) werden präferiert.

Die lokalen Kriterien beziehen sich auf die Korrektheit und Verständlichkeit eines Beleges:

  • Ein Beleg sollte eine bestimmte Satzlänge nicht über- oder unterschreiten.
  • Ein Beleg sollte mit einem großgeschriebenen Wort anfangen und mit einem Satzzeichen enden.
  • Ein Beleg sollte keine freien Pronomen enthalten.
  • Ein Beleg sollte im Bezug zur TAGH-Morphologie keine unbekannten Wörter enthalten.
  • Ein Beleg sollte durch den DWDS-Dependenzparser vollständig analysierbar sein.
  • Ein Beleg sollte gebräuchliche Wörter enthalten.
  • Das Stichwort sollte an prominenter Stelle im Satz stehen, also möglichst im Hauptsatz.

Eine Auswahl von derzeit maximal fünf Belegen wird bei jedem Suchwort angezeigt.

Weiterführende Literatur

  • Jörg Didakowski, Lothar Lemnitzer, Alexander Geyken (2012): Automatic example sentence extraction for a contemporary German dictionary. In: Proc. EURALEX 2012, Oslo, pp. 343-349.
  • Alexander Geyken (2007). The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London, S. 23–41.