Erschließung: Worttrennung

Als Worttrennung wird die orthographische Silbentrennung am Zeilenende, wie sie vom deutschen Rechtschreibrat festgelegt ist, bezeichnet. Diese Form der Silbentrennung stimmt nicht in jedem Fall mit der Trennung eines Wortes in Sprechsilben überein. Für das Beispiel „Ameise“ heißt das (unter anderem), dass das initiale 'a' nicht abtrennbar ist, obwohl es Silbenstatus hat (vgl. §107 E1): Ameise → Amei·se

Implementiert wurde die Worttrennungsprozedur als überwachtes statistisches Lernverfahren, in dessen Trainingsschritt auf Basis vorannotierter Daten ein statistisches Modell gebildet wird. Die Trainingsdaten beruhen auf dem deutschsprachigen Teil des Wiktionary-Projekts und wurden im Projektverlauf um weitere Einträge ergänzt. Als statistisches Modell kommt ein Conditional Random Field (CRF, Lafferty et al. 2001) in der Implementierung von Lavergne et al. (2010) zum Einsatz. Modelliert wird eine klassische Sequenzklassifizierungsaufgabe, die darin besteht, für jeden Buchstaben in einem Wort zu entscheiden, ob er von einer Silbengrenze gefolgt wird oder nicht. Um globale Ambiguitäten behandeln zu können, wurde das Wörterbuchschema im DWDS so erweitert, dass explizite Angaben über die Worttrennung direkt in den Wörterbucheinträgen vorgenommen werden können.

Referenzen

  • John Lafferty, Andrew McCallum, Fernando C.N. Pereira (2001). Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. In: Proceedings of the International Conference on Machine Learning, pp. 282-289. [Volltext]
  • Thomas Lavergne, Olivier Cappé, François Yvon (2010). Practical very large scale CRFs. In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pp. 504-513. [Volltext]