Nadeln im Heuhaufen oder die Recherche in den Korpora des DWDS, Teil 5

Mit unserer Beitragsreihe zur Recherche in den DWDS-Korpora finden auch Sie die Nadel im Heuhaufen. Bild: CC0, PxHere

In der Artikelreihe „Nadeln im Heuhaufen“ möchte ich Ihnen die Korpora des DWDS, die Suchmaschine und ihre Funktionsweisen näherbringen. Welche Textsammlungen stellt das DWDS zur Verfügung, wie können Sie sie nutzen, um linguistische Fragestellungen zu bearbeiten und welche Tipps helfen Ihnen, Stolperfallen zu umgehen? All diese Fragen werden in der Reihe thematisiert. In diesem Teil möchte ich Ihnen Aspekte der Einwortsuche in Verbindung mit Filtern auf Tokenebene.

Die Verbindung der Einwortsuche mit Filtern auf Tokenebene

Wie in den Definitionen im zweiten Teil dargelegt wurde, ist ein Suchausdruck ein Gebilde, das aus mehreren Suchtermen und Operatoren besteht. Wenn man einen Suchterm mit einem Filter verbindet, dann entstehen komplexe Suchausdrücke für die Einwortsuche.

Die „Bedeutung“ bzw. die Auswirkung des zusätzlichen Filters ist es in der Regel, dass die Treffermenge, die der Suchterm alleine erzeugen würde, verringert wird. Zum eigentlichen Suchterm wird eine Bedingung hinzugefügt, umgangssprachlich formuliert: Diese Zeichenkette im Korpus matcht den Suchausdruck, wenn zusätzlich die folgende Bedingung erfüllt ist. Der Treffer muss also nicht nur auf den Suchausdruck passen, sondern auch diese weitere Bedingung erfüllen.

Zwei zentrale Filter und damit Bedingungen, die die Suchmaschine anzugeben erlaubt, sind:
a) Das Wort muss einer bestimmten Wortart (Adjektiv, Verb, Präposition) angehören.
b) Das Wort muss an einer bestimmten Position stehen.

Angabe der Wortart

Man kann sich die Wortartenangabe wie eine Ebene vorstellen, die hinter dem eigentlichen Text liegt. Hinter jedem Textwort steckt eine Wortart, die automatisch ermittelt und dem Wort zugeordnet wurde.[1]

Wie die Daten (z. B. zu Wortart und Satzposition) in den Korpora hinterlegt sind, lässt sich an folgendem Schaubild nachvollziehen:

Ein weiteres Beispiel: Sie wollen Belege für das Wort verschlagen, aber nur entweder für die Verwendung als Adjektiv und oder für die Verwendung als eine Form des Verbs. Sie geben in diesem Fall die Wortart als zusätzliche Bedingung mit dem Operator WITH an. Im DWDS-Kernkorpus ergibt sich das folgende Bild:

Suchausdruck Bedeutung Trefferzahl
verschlagen sucht nach dem Lemma verschlagen 411
verschlagen WITH $p=ADJ* sucht nach Formen von verschlagen als Adjektiv 93
verschlagen WITH $p=V* sucht nach Formen von verschlagen als Verb 318

Unter den Belegen für die adjektivische Verwendung von verschlagen finden sich unter anderem:

In ähnlicher Weise wirkte sich die englische Überlegenheit zur See auch in Indien aus, wo der ebenso kühne wie verschlagene Clive erfolgreich gegen die Franzosen und die mit ihnen verbündeten indischen Fürsten operierte.

Wandruszka, Adam: Die europäische Staatenwelt im 18. Jahrhundert. In: Propyläen Weltgeschichte, Berlin: Directmedia Publ. 2000 [1964], S. 10979

Die Kinder, die ihm Sprüche nachschrien, die Jerichower, die seinen Gang und seine Redensarten erheiternd fanden, mochten sie ihn für verschlagen halten, für hochmütig, für schrullig überhaupt.

Johnson, Uwe: Jahrestage, Bd. 1, Frankfurt a. M.: Suhrkamp 1970, S. 305

Unter den Belegen für die verbale Verwendung von verschlagen finden sich unter anderem:

Noch als Oberschüler Gasthörer bei berühmten Philosophen an der Berliner Universität, verschlug es ihn dann doch noch in den Krieg, zur Ostfront, von der er sich allerdings nach einem Lazarettaufenthalt unerlaubt entfernte.

Engler, Wolfgang: Die Ostdeutschen, Berlin: Aufbau-Taschenbuch-Verl. 2000 [1999], S. 92

Eppler zieht jedoch ins Gefecht mit einer fürchterlichen Karikatur des Liberalismus, selbst des wirtschaftsliberalen Denkens, daß es einem schier den Atem verschlägt.

Die Zeit, 30.07.1998, Nr. 32

Allerdings wird in diesem und ähnlichen Fällen das Partizip, eigentlich eine Form des Verbs, als Adjektiv erkannt und als solches in den Daten markiert:

Die vorbereiteten Putenkeulen kochen oder dünsten und nacheinander in Mehl, verschlagenem Ei und geriebener Semmel wenden.

o. A.: Wir kochen gut, Leipzig: Verl. für d. Frau 1968 [1963], S. 115

Angabe der Position eines Wortes

Die zweite häufig verwendete Bedingung ist die Position eines Wortes im Satz. Eine typische Abfrage lautet: Gib mir Belege für den jeweiligen Suchterm aus, aber nur, wenn dieser am Anfang (satzinitial) / am Ende des Satzes (satzfinal) steht.

Beachten Sie, dass die Angabe der Position durch eine Zahl erfolgt. Dabei beginnt die Zählung von vorn mit der Zahl 0 (dem ersten Token wird also die Positionszahl 0 zugewiesen), die Zählung von hinten mit der Zahl -1 (dem letzten Token im Satz wird -1 zugewiesen, dem zweitletzten -2 usw.).

Suchausdruck(steil) Bedeutung
WITH $.=0 steht am Anfang des Satzes, festgelegt als Position 0
WITH $.=-2 steht am Ende des Satzes, an zweitletzter Postion, es folgt nur noch das Satzendezeichen
WITHOUT $.=0 steht NICHT am Anfang des Satzes, überall sonst
WITHOUT $.=-2 steht NICHT am Ende des Satzes, überall sonst

Nehmen wir als Beispiel das häufige Wort denn, das sowohl als Konjunktion verwendet werden kann und dann satzinitial steht, als auch als Modalpartikel und dann meist im Inneren eines Satzes.

Suchausdruck Bedeutung Trefferzahl
denn sucht nach dem Lemma denn 82785
denn WITH $.=0 sucht nach denn am Satzanfang 19777
denn WITHOUT $.=0 sucht nach denn an anderer Postion im Satz 63008

Unter den Belegen für die Verwendung von denn in satzinitialer Position (in Funktion einer Konjunktion) findet sich unter anderem:

Denn er wurde lediglich zum Ritter ernannt und kann deshalb nur ein schmales rotes Bändchen in sein Knopfloch flechten.

o. A. [wms]: Ehrenlegion. In: Aktuelles Lexikon 1974-2000, München: DIZ 2000 [1998]

Unter den Belegen für die Verwendung von denn in nicht-satzinitialer Position (in Funktion einer Modalpartikel) findet sich unter anderem:

Hast du denn eine Ahnung, Jörn? Nein, aber deshalb bin ich ja vielleicht hier.

Becker, Jürgen: Aus der Geschichte der Trennungen, Frankfurt a. M.: Suhrkamp 1999, S. 15

Sollten Sie denn als nebensatzeinleitende Konjunktion suchen, dann müssen Sie das Satzzeichen, das den Hauptsatz vom Nebensatz abtrennt (Komma), ausdrücklich als Teil des Suchausdrucks angeben: \, denn[2]

Hier ist einer der Belege, die Sie erhalten, wenn Sie im DWDS-Kernkorpus nach denn als nebensatzeinleitender Konjunktion suchen:

Man hielt das für eine äußerst unangenehme Angelegenheit, denn niemand wußte, ob es bei dem mißlungenen Versuch bleiben werde und wer dahinterstand.

Degenhardt, Franz Josef: Für ewig und drei Tage, Berlin: Aufbau-Verl. 1999, S. 104

Die Operatoren WITH und WITHOUT werden Ihnen auch im folgenden Teil dieser Blogserie begegnen, in dem es um komplexe Suchausdrücke gehen soll. Nun sind Sie dafür gerüstet.

Viele weitere Beispiele für Suchanfragen finden Sie in unserer ausführlichen Dokumentation zur Korpussuche. Nutzen Sie bei Fragen gern auch das Kontaktformular, um direkt mit uns in Verbindung zu treten!


[1] Die Wortarten werden in den Korpora des DWDS durch bestimmte Kürzel dargestellt. So steht etwa ADJA für ‚Adjektiv in attributiver Verwendung‘ und ADJ* für ‚Adjektiv allgemein‘ usw. Eine Liste der in den Korpora des DWDS verwendeten Wortarten finden Sie in unserer Dokumentation zur Korpussuche.

[2] Da das Zeichen , als Teil der Abfragesprache verwendet wird (wir werden später sehen, wann das der Fall ist), müssen Sie, wenn Sie nach dem Komma in den Korpusdaten suchen wollen, ein \ davorstellen. Man spricht auch davon, dass das Zeichen „maskiert“ wird: Es wird so nicht mehr als ein Element der Abfragesyntax erkannt. Das funktioniert in ähnlicher Weise auch mit anderen Zeichen, die Teil der Abfragesyntax sind (Punkt, verschiedene Arten von Klammern usw.).

Diesen Artikel teilen:

Schreiben Sie einen Kommentar

Wir freuen uns über Ihre Anmerkungen und Fragen zum Text.
Für Fragen und Hinweise zu anderen Themen nutzen Sie bitte unser Kontaktformular.

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*