Erschließung: Dependenzparser

Der DWDS-Dependenzparser SynCoP (Syntactic Constraint Parser) implementiert einen regelbasierten projektiven Bottom-Up-Parser, der (lokal) syntaktische Funktionen annotiert. SynCoP beruht auf Finite-State-Techniken. Das System basiert auf einer handgeschriebenen Grammatik und auf der TAGH-Morphologie. In der Grammatik können gewichtete Regeln mit Hilfe von regulären Ausdrücken formuliert werden, wobei auf alle Informationen aus der Morphologie Bezug genommen werden kann.

Der Parser implementiert verschiedene Mechanismen, um syntaktische Ambiguitäten aufzulösen und um eine schnelle Verarbeitung zu gewährleisten.

Die Auflösung syntaktischer Ambiguitäten erfolgt über:

  • Gewichtungen der Grammatikregeln, wodurch syntaktische Präferenzen modelliert werden.
  • Vorschläge eines vorgeschalteten Part-of-Speech-Taggers, die als Präferenzen für den Parser verwendet werden.
  • eine „Longest-Match“-Strategie, durch die die verbleibenden syntaktischen Ambiguitäten aufgelöst werden.

Die schnelle Verarbeitung wird durch folgende Mechanismen gewährleistet:

  • Die Links- und Rechtseinbettung von Sätzen ist durch Iteration ersetzt.
  • Die Zentraleinbettung von Sätzen ist auf eine Tiefe von 1 beschränkt.
  • Pruning wird angewendet, wenn der Suchraum beim Parsing zu groß wird.

Des Weiteren lässt der Parser partielle Analysen zu, wenn keine vollständige Analyse gefunden werden kann.

Weiterführende Literatur

  • Jörg Didakowski (2008). Local Syntactic Tagging of Large Corpora Using Weighted Finite State Transducers. In: A. Storrer et al. (Hrsg.), Text Resources and Lexical Knowledge – Selected Papers from the 9th Conference on Natural Language Processing, KONVENS 2008, Mouton de Gruyter, S.65-78.
  • Jörg Didakowski (2007). SynCoP - Combining Syntactic Tagging with Chunking Using Weighted Finite State Transducers. In: Proceedings of FSMNLP 2007, Potsdam, Germany.
  • Jörg Didakowski (2005). Robustes Parsing und Disambiguierung mit gewichteten Transduktoren. Linguistics in Potsdam, Bd. 23, Universitätsverlag Potsdam.
  • Alexander Geyken, Thomas Hanneforth (2005). TAGH: A Complete Morphology for German based on Weighted Finite State Automata. In: Proceedings of FSMNLP 2005, Lecture Notes in Artificial Intelligence. Springer, 55-66.