Suchmaschine und Suchabfragesprache

Übersicht

Einstieg: Die Suche im Wortauskunftssystem

Beginnen Sie, indem Sie den von Ihnen gesuchten Begriff in die Suchmaske eingeben. Wie von anderen Suchoberflächen gewohnt, spielt dabei Groß-/Kleinschreibung auf dieser Ebene keine Rolle.

Während Sie tippen, wird Ihre Eingabe dynamisch durch Vorschläge aus dem Bestand der im DWDS verzeichneten Begriffe ergänzt, die Sie auswählen können.

Durch die Eingabe Ihres Suchbegriffs bzw. durch die Auswahl eines der Vorschläge aus der Liste gelangen Sie zu den Wortinformationen:

In der Übersicht in der linken Spalte der Webseite finden Sie grammatische Informationen zum gesuchten Begriff, d. h. zur Wortart, zu dessen grammatischem Geschlecht (Genus), ggf. ein (anklickbares) Audiosymbol zur Aussprache sowie Angaben zur Wortzerlegung und -trennung. Darüber hinaus erhalten Sie im Überblick, sofern verfügbar, eine Erläuterung der Bedeutung(en) des Begriffs und dessen sprachgeschichtliche Herkunft (Etymologie), Informationen zu gleichbedeutenden Begriffen und Gegenwörtern (Synonymen und Antonymen, Thesaurus), zu typischen Verbindungen, in denen der Begriff in den DWDS-Korpora erscheint sowie zu den im DWDS verzeichneten Wortbildungen.

In der rechten Spalte finden Sie Angaben zur Worthäufigkeit und der zeitlichen Verteilung der Treffer anhand einer Wortverlaufskurve, Verweise auf bestehende Einträge in den im DWDS verfügbaren „Älteren Wörterbüchern“ (¹DWB und WDG) sowie zu den absoluten Belegzahlen in verschiedenen DWDS-Korpora.

Korpussuche im DWDS

Alle Korpora des DWDS werden für die Suche linguistisch aufbereitet und durch die Suchmaschine DDC indiziert. Die Suche liefert ganze Sätze als Ergebnisse. Dies ermöglicht eine Vielzahl spezialisierter und komplexer Korpusabfragen, die in unten stehender Schnellübersicht anhand beispielhafter Suchen erläutert werden.

Grundsätzliches

Der Index der Suchmaschine besteht aus mehreren Ebenen:

  1. Korpus (z. DWDS-Kernkorpus, Deutsches Textarchiv),
  2. Dokumente (z. Bücher, Zeitungsartikel, Blogeinträge),
  3. Sätze,
  4. Tokens.

Beispiel 1: Indizierte Dokumente

# Autor Titel Datum Textklasse [weitere Felder]
0 Goethe, Johann Wolfgang von West-östlicher Divan 1819 Belletristik::Lyrik Lizenz:
Distributed under the Creative Commons Attribution-NonCommercial 3.0 Unported License.
1 Kafka, Franz Der Proceß 1925 Belletristik::Roman Digitalisierungsvorlage:
Kafka, Franz: Der Proceß, Frankfurt a. M.: Fischer 1993
2 Die Zeit Fahrdienst-Vermittler Uber holt sich Unterstützung für Datenschutz 2014-11-21 Zeitung; Internet; Verkehr; Taxi; Telekommunikation; Datenschutz; USA Zitiertitel:
Die Zeit, 21.11.2014 (online)
3 Game of Thrones: The Wolf and the Lion 2011 Untertitel URL:
http://www.opensubtitles.org/...
4 John Aysa Drool 2015-10-14 internetbasiert Datum des Seitenabrufs:
2017-02-15
Dokumente im Korpus

Beispiel 2: Ein tokenisierter Satz.

# Token Lemma Part-of-Speech
0 Im im APPRART
1 Anfang Anfang NN
2 war sein VAFIN
3 das d ART
4 Wort Wort NN
5 . . $.

Beispiel 3: Ein tokenisierter Satz im DTA-Korpus.

# Token Lemma Part-of-Speech
0 Im im APPRART
1 Anfang Anfang NN
2 war sein VAFIN
3 das d ART
4 Wort Wort NN
5 . . $.

Schnellübersicht

Sucheingabe Bemerkung Beispieltreffer
Haus lemmabasierte Suche Haus, Hauses, Häuser, Häusern, …
@Haus exakte Wortform Haus
Haus* Präfixsuche Haus, Hausmeister, …
*haus Suffixsuche Elternhaus, zuhaus, …
*haus* Präfix- und Suffixsuche hausfraulich, Verlagshaus, Schauspiel, …
/haus/ regulärer Ausdruck (Regex) Hausfrau, Verlagshaus, Schauspiel, …
/haus/i Regex case-insensitiv hausfraulich, Verlagshaus, Schauspiel, …
{Haus,Hof} Tokens als Menge Haus, Häuser, Höfen, …
Haus && Hof Und-Suche Sätze, in denen Formen von Haus und Hof vorkommen
Haus || Hof Oder-Suche Sätze, in denen Formen von Haus oder Hof vorkommen
Haus && !Hof Negation Sätze, in denen eine Form von Haus und keine Form von Hof vorkommt
"ein Haus" Wortgruppe ein Haus, eines Hauses, …
"ein #2 Haus" Phrase mit Abstand (maximal 2) ein glückliches Haus, eines der schönen Häuser, …
"ein #>2 Haus" Phrase mit Abstand (mehr als 2) Sätze, in denen zwischen einer Form von ein und einer Form von Haus mehr als 2 Tokens stehen
"ein #=2 Haus" Phrase mit Abstand (genau 2) Sätze, in denen zwischen einer Form von ein und einer Form von Haus genau 2 Tokens stehen
near(gut,Beispiel,3) Abstandssuche ohne best. Reihenfolge bestes Beispiel, [durch einige] Beispiele gut [belegt]
near(Honig,Milch,fließen,5) Abstandssuche ohne best. Reihenfolge Land, wo Milch und Honig fließt; Honig und Milch nur in Rinnsalen fließen
near("wenn ich","werde ich",2) Abstandssuche ohne best. Reihenfolge mit Wortgruppen Wie würde ich aussehen, wenn ich [...]
$p=PPOSS Abfrage nach Wortart (Liste der abfragbaren Wortarten) unseren, meiner, deinigen, …
Haus with $.=0 Satzanfang Sätze, die mit einer Form von Haus beginnen
Haus with $.=-2 Satzende (Hinweis: $.=-2 sucht nach dem vorletzten Token im Satz, meist ist ein Satzzeichen das letzte Token) Sätze, die mit einer Form von Haus enden

Weitere Beispiele

Sucheingabe Bemerkung
hinter* with !$l=hinter Abfrage nach hinterlassen, hinterfragen etc., schließt hinter aus
aufessen || "essen #9 auf WITH $p=PTKVZ" Abfrage nach aufessen, isst … auf, aß … auf etc.
Stein with $p=NE Abfrage nach Stein als Eigenname
Stein with $p=NN Abfrage nach Stein als Substantiv
"$p=ITJ ','" Phrasensuche nach Interjektionen gefolgt von einem Komma

Abfragen mit negierten Bedingungen

Abfragen, die rein negierte Bedingungen auf Token-Ebene beinhalten, werden vom Suchsystem auf der DWDS-Webseite mit einer Fehlermeldung zurückgewiesen, da dieser Typ von Abfragen u. U. recht teuer zu berechnen ist. Sie können allerdings die dstar-Oberfläche nutzen, um dort unsere Korpora abzufragen. In der folgenden Tabelle sind die Beispiele direkt auf das dstar-System verlinkt.

Sucheingabe Bemerkung
"also with $.=0 * with !$p=VVFIN" Sätze, die mit also beginnen und bei denen an zweiter Position kein finites Verb steht (DWDS-Kernkorpus)

Sonderzeichen

Einige Zeichen haben innerhalb der Abfragesprache eine besondere Bedeutung. Wenn explizit nach diesen Zeichen gesucht werden soll, müssen diese mithilfe von einfachen Anführungszeichen oder mit einem Backslash maskiert werden. Bitte beachten Sie, dass Sonderzeichen, die als eigenständige Satzzeichen fungieren, als separates Token gesucht werden müssen.

Zeichen mit besonderer Bedeutung:
& | # ^ ~ = $ . ! ? , : ; @ % / \ ( ) { } [ ] < > * ' "

Sucheingabe Bemerkung
"Liebe ',' Verrat ',' Tod" literales Komma in Wortgruppe
'?' with $.=1 literales Fragezeichen als 2. Token im Satz
'?' with $.=-1 Fragesatz
"':' {'\"','„','»'}" wörtliche Rede bzw. Zitat nach Doppelpunkt
Ku\'damm Apostroph als Auslassungszeichen

Längere Artikel zum Thema

Erweiterte Suche in den Korpora des DWDS

Formularbasierte Suche

Die wichtigsten Parameter zur Verfeinerung der Suche sind über eine Eingabemaske wählbar. Beispielsweise kann die Anfrage auf bestimmte Korpora und einen bestimmten Zeitraum eingeschränkt werden. Für die Anzeige der Korpustreffer stehen verschiedene Kontextoptionen zur Verfügung: Anzeige im kompakten Format „Keyword In Context“ (KWIC), welche das Schlüsselwort im Kontext seiner nächsten linken und rechten Nachbarn zeigt, Anzeige ganzer Sätze (voll) oder Anzeige des Belegsatzes gemeinsam mit dessen vorhergehenden und nachfolgenden Satz (maximal). Die Treffer können nach unterschiedlichen Kriterien sortiert werden, zudem kann eine Anzeige zwischen 10 und 100 Treffern pro Seite ausgewählt werden:

Direkte Eingabe von Suchausdrücken

Über die wählbaren Optionen in der Eingabemaske hinaus können Sie Ihre Suchanfrage verfeinern, indem Sie weitere Parameter entsprechend der Syntax der Suchmaschine DDC in den Suchschlitz eintragen. Die hier beispielhaft erläuterte Suche "{von,der,im,am} WITH $.=0 @Anfang ist #2 $p=NN" && !Wort" kombiniert verschiedene Parameter und Optionen:

Zunächst ist der erste Teil der Anfrage durch die ihn umgebenden Anführungszeichen als Suche nach einer Phrase (Wortgruppe) gekennzeichnet, d. h. dass der gesuchte Satz alle innerhalb der Anführungszeichen aufgeführten Begriffe in der gegebenen Reihenfolge enthalten muss.

Für die erste Position der Phrase wurden die Suchbegriffe „von“, „der“, „im“ und „am“ in geschweiften Klammern {} als alternative Treffer zusammengefasst (s. „Tokens als Menge“). Durch die Kombination mit WITH $.=0 wird zusätzlich festgelegt, dass der Treffer am Beginn des Satzes stehen muss (genauer gesagt, dass der Treffer einen Abstand von exakt 0 Tokens zum Satzanfang aufweisen soll, s. „Satzanfang“).

Die zweite Position der Phrase @Anfang ist durch das vorangestelle @-Zeichen auf die exakte Wortform „Anfang“ festgelegt, d. h. die abgeleiteten Formen „Anfangs“, „Anfange“, „Anfänge“, „Anfängen“ usw. werden ausgeschlossen (s. „exakte Wortform“).

Die dritte Position enthält den Suchbegriff „ist“, der ohne weitere Einschränkung (s. „lemmabasierte Suche“) notiert ist, weshalb sowohl der eingegebene Begriff „ist“, aber auch weitere Formen des Lemmas „sein“, z. B. „bin“, „warst“, „gewesen“ usw. als Treffer gekennzeichnet werden.

#2 definiert den Abstand zwischen dem vorhergehenden und dem nachfolgenden Token auf maximal 2 Tokens (s. „[...] Abstand (maximal) [...]“).

An letzter Position der Phrase steht eine Part-of-Speech- oder kurz POS-sensitive Suche, d. h. eine Suche nach einer bestimmten Wortart anstelle eines bestimmten Begriffs. Mit $p=NN wird nach einem beliebigen (normalen) Nomen gesucht, für weitere mögliche Werte siehe das Stuttgart-Tübingen-TagSet (STTS).

Der der Phrase durch && hinzugefügte Begriff „Wort“ ist durch das vorangestellte Ausrufezeichen ! negiert worden (s. „Negation“), d. h. der Satz soll die gesuchte Phrase UND nicht den Begriff „Wort“ enthalten, wodurch etwa die Fügung „Im Anfang war das Wort“ ausgeschlossen wird.

Es empfiehlt sich, zunächst einfache Suchanfragen zu stellen und diese dann nach und nach mit weiteren Suchbegriffen, Operatoren und Parametern zu erweitern. Zur Vertiefung lohnt sich jederzeit der Blick in die technisch-formale Definition der DDC-Abfragesyntax (in englischer Sprache).

Count-Abfragen

Mittels Count-Abfragen können Sie Zahlen über die Ergebnisse von Korpussuchen erhalten. Dabei besteht auch die Möglichkeit, nach diversen Kriterien zu gruppieren. Eine Count-Abfrage gestaltet sich nach dem Muster

COUNT ( query_conditions ) count_by

query_conditions ist dabei die DDC-Abfrage über Korpora, so wie oben in diesem Dokument beschrieben. Sie können in count_by mittels der Syntax #by[key[,...]] optionale Angaben zur Gruppierung machen. Folgende Möglichkeiten stehen zur Verfügung:

¹ Dekade bezeichnet einen Zeitraum von 10 Jahren, z. B. 1900: 1900–1909.

Suche nach Wortarten (Part-of-Speech)

Alle Wörter in den DWDS-Korpora sind anhand des STTS-Tagsets (Stuttgart-Tübingen-Tagset) annotiert worden. Sogenannte Part-of-Speech-Tags sind syntaktische Kategorien, die etwas genauer ausdifferenziert sind als die üblicherweise unterschiedenen Wortarten.

Weiterführende Informationen