Anmelden | Registrierung beim DWDS
Mobil | Hilfe zur Suche | Kontakt | Impressum
DDC ist unter der Lesser GNU Public License (LGPL) frei verfügbar.

Projektseite
Download (Sourceforge)

Erschließung: Linguistische Suchmaschine

1. Kurzbeschreibung
2. Eigenschaften
3. Literatur

1. Kurzbeschreibung

Die Suchmaschine DDC (=Dialing/DWDS-Concordancer) ist eine linguistische Suchmaschine. Über die klassischen Suchmöglichkeiten wie Abstandssuche, Trunkierung, UND, ODER, NICHT hinaus ermöglicht DDC die Suche über Grundformen (Lemmata).

Beispielsweise liefert die Suche nach Arzt Belege, die die Wortformen Arzt, Arzte, Arztes, Ärzte oder Ärzten enthalten. Die Suche nach gutes Restaurant liefert auch die Steigerungsformen besseres Restaurant, bestes Restaurant, aber auch beste Restaurants.

Darüber hinaus sind für alle Wortformen in den Texten die jeweiligen Wortarten markiert (s. PoS-Tagger). Grundlage hierfür ist das Stuttgart-Tübinger Tagset, eine Liste von Wortarten. So ist es unter anderem möglich, sein als Possessivpronomen von sein als Hilfsverb zu unterscheiden oder das Wort Fischer, das an einigen Stellen im Text ein Substantiv (der Fischer), an anderen Stellen ein Eigenname (Frau Fischer) ist. DDC wird derzeit als Suchmaschine für alle DWDS-Korpora eingesetzt.

2. Eigenschaften

DDC ist speziell auf linguistische und lexikografische Bedürfnisse zugeschnitten. Es verfügt insbesondere über folgende Eigenschaften:

Indizierung von XML-Dokumenten:

Linguistische Eigenschaften:

Sowohl die Indizierungs- als auch Abfragezeiten sind auch für größere Anwendungen hinreichend schnell. Beispielsweise dauerte die Indizierung des 100 Millionen Tokens umfassenden DWDS-Kernkorpus etwa 1,5 Stunden. Die Abfragezeit für die ersten zehn Treffer bei einfachen Suchabfragen liegt bei ca. 0,05 Sekunden.

3. Literatur

Alexey Sokirko (2003). DDC – A search engine for linguistically annotated corpora. In: Proceedings of Dialogue 2003, Protvino, Russia.