Anmelden     Home    Kontakt    Impressum 
 




Testen Sie jetzt die Beta von DWDS 2.0
DWDS · Corpuserschliessung · Suchmaschine DDC                      Hilfe  


Suchmaschine DDC

Morphologie

PoS-Tagger

LexikoNet

 

Suchmaschine DDC

Kurzbeschreibung

DDC (Dialing/DWDS-Concordancer) ist eine linguistische Suchmaschine. Über die klassischen Suchmöglichkeiten wie Abstandssuche, Trunkierung, UND, ODER, NICHT hinaus ermöglicht DDC die Suche nach Wortstämmen.

Beispielsweise liefert die Suche nach Arzt alle Dokumente, die die Wortformen Arzt, Arzte, Arztes, Ärzte oder Ärzten enthalten. Die Suche nach gutes Restaurant liefert auch die Steigerungsformen besseres Restaurant, bestes Restaurant, aber auch beste Restaurants etc.

Darüber hinaus sind alle Wortformen in den Texten nach ihrer Wortart analysiert (s. Erschließung PoS-Tagger). Grundlage hierfür ist Stuttgart-Tübingen Tagset. Damit ist es unter anderem möglich, sein als Possessivpronomen von sein als Hilfsverb zu unterscheiden oder Fischer als Substantiv von Fischer als Eigenname.
DDC wird derzeit als Suchmaschine für alle DWDS-Corpora eingesetzt. Darüber hinaus wird damit die tagesaktuelle Suche des ZEIT-online Archivs indiziert. Die zusätzlichen linguistischen Suchen stehen somit jedem Nutzer des ZEIT-online Archivs zur Verfügung.

Eigenschaften

DDC ist speziell auf linguistisch/lexikographische Bedürfnisse zugeschnitten. DDC verfügt insbesondere über folgende Eigenschaften:

  • Boolsche Suche: UND, ODER, NOT
  • Abstandssuche (sowohl gerichtet als auch symmetrisch)
  • genaue Trefferanzahl pro Satz bzw. Dokument (keine Approximation)
  • Links- und Rechtstrunkierung
  • wahlweise satzbasierte oder dokumentbasierte Suche
  • Sortierungsmöglichkeit nach Datum möglich
  • Sortierungsmöglichkeit nach Dokumentenrelevanz möglich (diese besteht aus interner und externer Relevanz)


Indizierung von xml-Dokumenten

  • Beliebige Metadaten können indiziert werden; diese müssen bei der Indizierung durch x-path-Ausdrücke angegeben werden
  • Seitenangaben in Dokumenten können ausgegeben werden


Linguistische Eigenschaften

  • Wortpositionen können mit beliebig vielen Annotationen versehen sein, nach denen gesucht werden kann; insbesondere umfasst dies die Suche nach Wortform, Wortstamm und Wortart.
  • Möglich ist die Einbindung von Thesauri. Durch einen in DDC eingebauten Mechanismus kann dann nach Unter- oder Oberbegriffen gesucht werden.
  • Suche in Phrasen möglich: wenn die Texte syntaktisch annotiert sind, können Phrasengrenzen angegeben werden, die bei der Suche aktiviert werden können.


Sowohl die Indizierungs- als auch Abfragezeiten sind auch für größere Anwendungen hinreichend schnell. Beispielsweise dauerte die Indizierung des ZEIT-online Archivs weniger als 1 Stunde oder die Indizierung des DWDS-Kerncorpus etwa 1,5 Stunden. Die Abfragezeit für die ersten zehn Treffer bei einfachen Suchabfragen liegen zwischen 0,2 und 0,5 Sekunden.

Download

DDC ist unter der Gnu Public License verfügbar: zum Download