Erschließung: PoS-Tagging

Der im DWDS-Projekt verwendete Wortarten-Tagger moot wurde von Bryan Jurish entwickelt. Es handelt sich dabei um ein statistisches Verfahren zur Disambiguierung lexikalischer Klassen. Zusätzlich zu den klassischen Bigramm-/Trigramm-basierten Tagging-Routinen berücksichtigt dieses Verfahren benutzerdefinierte a-priori-Mengen von möglichen Analysen (sog. lexikalische Klassen) für jedes Eingabewort. Hierdurch ist es möglich, die vom Tagger getroffenen Analysen auf die von der Morphologie vorgeschlagenen lexikalischen Kategorien zu beschränken. Im Vergleich zu einem traditionellen Hidden-Markov-Model führt dieses Verfahren zu einer Fehlerreduktion von bis zu 21 %.

Weitere Informationen

  • Homepage moot
  • Bryan Jurish (2003). A Hybrid Approach to Part-of-Speech Tagging. Final report, Projekt Kollokationen im Wörterbuch, BBAW, Berlin. [PDF]
  • Bryan Jurish (2003). Part-of-Speech Tagging with Finite State Morphology. Poster presented at the conference Collocations and Idioms: Linguistic, Computational, and Psycholinguistic Perspectives, Berlin, 18.–20. September, 2003. [PDF]