Erschließung: Eigennamenerkennung

Der DWDS-Eigennamenerkenner implementiert einen regelbasierten Finite-State-Ansatz und verwendet große lexikalische Ressourcen und eine handgeschriebene Grammatik. Die vom DWDS-Eigennamenerkenner erkannten Eigennamen und deren Eigennamenbezeichner (Anrede, Titel, Funktionen) werden in die Klassen Ortsname, Personenname und Organisationsname eingeordnet.

Als lexikalische Ressourcen verwendet der DWDS-Eigennamenerkenner die TAGH-Morphologie zusammen mit ihrer semantischen Nomenklassifizierung aus LexikoNet und Eigennamenlisten für die verschiedenen Eigennamenklassen.

Die Erstellung einer Eigennamengrammatik besteht aus zwei Teilen:

  • Das Formulieren von Eigennamenkontexten mit Hilfe von regulären Ausdrücken, wobei auf alle Informationen aus der Morphologie Bezug genommen werden kann.
  • Das Formulieren von Bedingungen, die zusätzlich auf Ambiguitätsklassen Bezug nehmen. Mit diesen Bedingungen kann formuliert werden, wie sicher ein Eigennamenkontext ist. Das dient dazu, dass nur die Eigennamen erkannt werden, die sich in einem sicheren Eigennamenkontext befinden.

Um auch Eigennamen in einem unsicheren Kontext erkennen zu können, wird eine lemmabasierte Koreferenzauflösung verwendet. Auf diese Weise kann ein sicherer Eigennamenkontext einen unsicheren Kontext stützen, der den gleichen Eigennamen enthält.

Ziel des DWDS-Eigennamenerkenners ist es, eine möglichst hohe Genauigkeit (precision) zu gewährleisten. Der Eigennamenerkenner kann daher als Korrektiv für Ansätze verwendet werden, die eine möglichst große Erkennungsrate (recall) anstreben.

In der gegenwärtigen Implementierung ist der DWDS-Eigennamenerkenner für Zeitungstexte optimiert. Im Rahmen des Projekts Deutsches Textarchiv wird der DWDS-Eigennamenerkenner derzeit für die Erkennung von Personen- und Ortsnamen in Texten des älteren Neuhochdeutsch angepasst.

Weiterführende Literatur

  • Jörg Didakowski, Marko Drotschmann (2008). Proper Noun Recognition and Classification Using Weighted Finite State Transducers. In: Proceedings of FSMNLP 2008, Ispra, Italy.
  • Jörg Didakowski, Alexander Geyken, Thomas Hanneforth (2007). Eigennamenerkennung zwischen morphologischer Analyse und Part-of-Speech Tagging: ein automatentheoriebasierter Ansatz. In: Zeitschrift für Sprachwissenschaft 26, S. 157–186.
  • Alexander Geyken, Thomas Hanneforth (2006). TAGH: A Complete Morphology for German based on Weighted Finite State Automata. In: Proceedings of FSMNLP 2005, Lecture Notes in Artificial Intelligence. Springer, 55–66.
  • Alexander Geyken, Norbert Schrader (2006). LexikoNet, a lexical database based on role and type hierarchies. In: Proceedings of LREC 2006, Genua.