Erschließung: Morphologische Analyse
1. Einführung
Für die morphologische Annotierung der Korpustexte wird im DWDS-Projekt die TAGH-Morphologie von Thomas Hanneforth und Alexander Geyken eingesetzt. TAGH ist ein Programm zur automatischen Analyse deutscher Wortformen. Ziel ist die Abbildung flektierter Formen auf deren Grundform(en) (Lemmatisierung) sowie die Angabe möglicher semantischer Lesarten (derzeit nur von Substantiven). Nicht im Lexikon enthaltene Wortformen werden von TAGH mit Wortbildungsregeln auf Lexikoneinträge abgebildet. Somit trägt TAGH der produktiven Wortbildung des Deutschen Rechnung. Die Erkennungsrate von TAGH bei neueren Zeitungstexten liegt bei über 99 %.
2. Technologie
Das TAGH-Morphologiesystem lemmatisiert (d. h. führt die Wortformen auf Grundformen zurück) und zerlegt Wortformen auf der Grundlage gewichteter endlicher Transduktoren. Ein gewichteter Transduktor ist im Wesentlichen ein endlicher Automat, dessen Übergänge mit Symbolpaaren etikettiert sind. Zusätzlich können Endzustände und Übergänge mit numerischen Gewichten versehen sein, die bzgl. einer algebraischen Struktur (Minimum-Additions-Semiring) verarbeitet werden. Die Transduktoren sind auf der Basis der Potsdamer FST-Bibliothek realisiert (vgl. Hanneforth 2004, 2009). Diese in C++ geschriebene Bibliothek implementiert etwa 30 Operationen der Automatenalgebra in effizienter Weise und erlaubt zudem eine kompakte Speicherung in verschiedenen Repräsentationsformaten.
Der TAGH-Morphologietransduktor weist derzeit 3,96 Mio Zustände und 6,75 Mio Übergänge auf und belegt als Datei ca. 32 MB Festplattenspeicher. Die Verarbeitungsgeschwindigkeit liegt – je nach Rechnerleistung – zwischen 30 000 und 50 000 Wörtern pro Sekunde.
Die Erkennungsrate des TAGH-Systems bei neueren Zeitungstexten (z. B. Die ZEIT) liegt bei über 99,3 %. Die Erkennungsrate für das DWDS-Kernkorpus liegt bei 98,3 %.
Die lexikalische Komponente
Die Teillexika werden mit TAGH-FST-Compilern übersetzt und dann durch einige 100 algebraische Operationen in den endgültigen Transduktor überführt.
- Nomenlexikon: 41 000 einfache und komplexe Stämme mit Flexions- und Wortbildung.
- Eigennamen: 60 000 geographische Eigennamen, 20 000 Vornamen, 150 000 Familiennamen.
- Verblexikon: 21 000 Stämme, davon 3 000 einfache Stämme.
- Adjektive: 11 000 Stämme mit Flexions- und Wortbildung.
- Adverbien: 2 300 Wortformen
- Geschlossene Formen: ca. 1 500 Präpositionen, Determinativa, Konjunktionen, Zahlwörter, Interjektionen.
- Konfixe: 105 Konfixe.
- Abkürzungen und Akronyme: 9 000 (11 500) Einträge.
- Semantische Kategorien für Nomen.
Weitere Informationen
- Alexander Geyken, Thomas Hanneforth (2005). TAGH: A Complete Morphology for German based on Weighted Finite State Automata. In: Proceedings of FSMNLP 2005, Lecture Notes in Artificial Intelligence. Springer, 55–66.
- Thomas Hanneforth (2009). fsm2 – A Scripting Language for Weighted Finite-State Automata. In: Proceedings of the Eighth International Workshop on Finite-State Methods and Natural Language Processing (FSMNLP).