Suchmaschine DDC
Morphologie
PoS-Tagger
LexikoNet
|
|
Morphologie
Für die Annotierung der Corpustexte setzt das Projekt die TAGH-Morphologie ein.
Das TAGH Morphologiesystem lemmatisiert und zerlegt Wortformen auf der Grundlage gewichteter endlicher Transduktoren. Ein gewichteter Transduktor ist im Wesentlichen ein endlicher Automat, dessen Übergänge mit Symbolpaaren etikettiert sind. Zusätzlich
können Endzustände und Übergänge mit numerischen Gewichten versehen
sein, die bzgl. eines Minimum-Additions-Semiring (tropischer
Semiring) verarbeitet werden. Die Transduktoren sind auf der Basis der
TAGH FST-Bibliothek realisiert. Diese in C++ geschriebene Bibliothek
implementiert etwa 30 Operationen der Automatenalgebra in effizienter
Weise und erlaubt zudem eine kompakte Speicherung in verschiedenen
Repräsentationsformaten. Der TAGH
Morphologietransduktor weist derzeit 3,96 Mio Zustände und 6,75 Mio
Übergänge auf und belegt als Datei ca. 32 MB Festplattenspeicher. Die Verarbeitungsgeschwindigkeit liegt - je nach Rechnerleistung - zwischen 30.000 und 50.000 Wörtern pro Sekunde. Die
Erkennungsrate des TAGH-Systems bei neueren Zeitungstexten (Zeitarchiv)
liegt bei über 99,3%. Die Erkennungsrate für das DWDS-Kerncorpus liegt
bei 98,3%.
Das Lexikon:
Die Teillexika werden mit
TAGH-FST-Compilern übersetzt und dann durch einige 100 algebraische
Operationen in den endgültigen Transduktor überführt.
|
|
- Nomenlexikon: 41.000 einfache und komplexe Stämme mit Flexions- und Wortbildung.
- Eigennamen: 60.000 geographische Eigennamen, 20.000 Vornamen, 150.000 Familiennamen
- Verblexikon: 21.000 Stämme, davon 3.000 einfache Stämme.
- Adjektive: 11.000 Stämme mit Flexions- und Wortbildung.
- Adverbien: 2.300 Wortformen
- Geschlossene Formen: ca. 1.500 Präpositionen, Determinativa, Konjunktionen, Zahlwörter, Interjektionen.
- Konfixe: 105 Konfixe
- Abkürzungen und Akronyme: 9.000 (11.500) Einträge.
Beispiel:
Die Ausgabe für die Wortform Kommunion sieht folgendermaßen aus:
Erläuterung:
Die Morphologie gibt drei Analysen für die Wortform Kommunion: - Kommunion [NN Gender=fem Number=sg Case=*] <0> - komm/V#Union [NN Gender=fem Number=sg Case=*] <15> - kommun/A#Ion [NN Gender=neut Number=sg Case=nom_acc_dat] <25>
Durch Aufaddieren der Gewichte nach dem '/'-Symbol entlang eines Weges
durch den Automaten erhält man das Gesamtgewicht einer Analyse (in
Spitzklammern). Die Wortanalyse mit dem niedrigsten Gewicht ist die präferierte Analyse.
Zur Notation: ‘#‘ bedeutet eine interne Wortgrenze, ‘|‘ grenzt eine Vorsilbe vom restlichen Wort ab. Literatur: Geyken, A.; Hanneforth, Th. (2005). TAGH: A
Complete Morphology for German based on Weighted Finite State Automata. In: Proceedings of FSMNLP 2005, Lecture Notes in Artificial Intelligence. Springer.
|
|
|