Anmelden     Home    Kontakt    Impressum 
 




Testen Sie jetzt die Beta von DWDS 2.0
DWDS · Corpuserschliessung · Morphologie                      Hilfe  


Suchmaschine DDC

Morphologie

PoS-Tagger

LexikoNet

 

Morphologie

Für die Annotierung der Corpustexte setzt das Projekt die TAGH-Morphologie ein.

Das TAGH Morphologiesystem lemmatisiert und zerlegt Wortformen auf der Grundlage gewichteter endlicher Transduktoren.
Ein gewichteter Transduktor ist im Wesentlichen ein endlicher Automat, dessen Übergänge mit Symbolpaaren etikettiert sind.
Zusätzlich können Endzustände und Übergänge mit numerischen Gewichten versehen sein, die bzgl.  eines Minimum-Additions-Semiring (tropischer Semiring) verarbeitet werden. Die Transduktoren sind auf der Basis der TAGH FST-Bibliothek realisiert.
Diese in C++ geschriebene Bibliothek implementiert etwa 30 Operationen der Automatenalgebra in effizienter Weise und erlaubt zudem eine kompakte Speicherung in verschiedenen Repräsentationsformaten.
Der TAGH Morphologietransduktor weist derzeit 3,96 Mio Zustände und 6,75 Mio Übergänge auf und belegt als Datei ca. 32 MB Festplattenspeicher.
Die Verarbeitungsgeschwindigkeit liegt - je nach Rechnerleistung - zwischen 30.000 und 50.000 Wörtern pro Sekunde.
Die Erkennungsrate des TAGH-Systems bei neueren Zeitungstexten (Zeitarchiv) liegt bei über 99,3%. Die Erkennungsrate für das DWDS-Kerncorpus liegt bei 98,3%.


Das Lexikon:


Die Teillexika werden mit TAGH-FST-Compilern übersetzt und dann durch einige 100 algebraische Operationen in den endgültigen Transduktor überführt.


  • Nomenlexikon: 41.000 einfache und komplexe Stämme mit Flexions- und Wortbildung.
  • Eigennamen: 60.000 geographische Eigennamen, 20.000 Vornamen, 150.000 Familiennamen
  • Verblexikon: 21.000 Stämme, davon 3.000 einfache Stämme.
  • Adjektive: 11.000 Stämme mit Flexions- und Wortbildung.
  • Adverbien: 2.300 Wortformen
  • Geschlossene Formen: ca. 1.500 Präpositionen, Determinativa, Konjunktionen, Zahlwörter, Interjektionen.
  • Konfixe: 105 Konfixe
  • Abkürzungen und Akronyme: 9.000 (11.500) Einträge.




Beispiel:

Die Ausgabe für die Wortform Kommunion sieht folgendermaßen aus:

TAGH_image
Erläuterung:
Die Morphologie gibt drei Analysen für die Wortform Kommunion:

- Kommunion [NN Gender=fem Number=sg Case=*] <0>
- komm/V#Union [NN Gender=fem Number=sg Case=*] <15>
- kommun/A#Ion [NN Gender=neut Number=sg Case=nom_acc_dat] <25>

Durch Aufaddieren der Gewichte nach dem '/'-Symbol entlang eines Weges durch den Automaten erhält man das Gesamtgewicht einer Analyse (in Spitzklammern). Die Wortanalyse mit dem  niedrigsten Gewicht ist die präferierte Analyse.


Zur Notation:
‘#‘ bedeutet eine interne Wortgrenze, ‘|‘ grenzt eine Vorsilbe vom restlichen Wort ab.
Literatur:
Geyken, A.; Hanneforth, Th. (2005).  TAGH: A Complete Morphology for German based on Weighted Finite State Automata. In: Proceedings of FSMNLP 2005, Lecture Notes in Artificial Intelligence. Springer.