Nadeln im Heuhaufen oder die Recherche in den Korpora des DWDS, Teil 5

In der Artikelreihe „Nadeln im Heuhaufen“ möchte ich Ihnen die Korpora des DWDS, die Suchmaschine und ihre Funktionsweisen näherbringen. Welche Textsammlungen stellt das DWDS zur Verfügung, wie können Sie sie nutzen, um linguistische Fragestellungen zu bearbeiten und welche Tipps helfen Ihnen, Stolperfallen zu umgehen? All diese Fragen werden in der Reihe thematisiert. In diesem Teil möchte ich Ihnen Aspekte der Einwortsuche in Verbindung mit Filtern auf Tokenebene.
Die Verbindung der Einwortsuche mit Filtern auf Tokenebene
Wie in den Definitionen im zweiten Teil dargelegt wurde, ist ein Suchausdruck ein Gebilde, das aus mehreren Suchtermen und Operatoren besteht. Wenn man einen Suchterm mit einem Filter verbindet, dann entstehen komplexe Suchausdrücke für die Einwortsuche.
Die „Bedeutung“ bzw. die Auswirkung des zusätzlichen Filters ist es in der Regel, dass die Treffermenge, die der Suchterm alleine erzeugen würde, verringert wird. Zum eigentlichen Suchterm wird eine Bedingung hinzugefügt, umgangssprachlich formuliert: Diese Zeichenkette im Korpus matcht den Suchausdruck, wenn zusätzlich die folgende Bedingung erfüllt ist. Der Treffer muss also nicht nur auf den Suchausdruck passen, sondern auch diese weitere Bedingung erfüllen.
Zwei zentrale Filter und damit Bedingungen, die die Suchmaschine anzugeben erlaubt, sind:
a) Das Wort muss einer bestimmten Wortart (Adjektiv, Verb, Präposition) angehören.
b) Das Wort muss an einer bestimmten Position stehen.
Angabe der Wortart
Man kann sich die Wortartenangabe wie eine Ebene vorstellen, die hinter dem eigentlichen Text liegt. Hinter jedem Textwort steckt eine Wortart, die automatisch ermittelt und dem Wort zugeordnet wurde.[1]
Wie die Daten (z. B. zu Wortart und Satzposition) in den Korpora hinterlegt sind, lässt sich an folgendem Schaubild nachvollziehen:

Ein weiteres Beispiel: Sie wollen Belege für das Wort verschlagen, aber nur entweder für die Verwendung als Adjektiv und oder für die Verwendung als eine Form des Verbs. Sie geben in diesem Fall die Wortart als zusätzliche Bedingung mit dem Operator WITH
an. Im DWDS-Kernkorpus ergibt sich das folgende Bild:
Suchausdruck | Bedeutung | Trefferzahl |
verschlagen |
sucht nach dem Lemma verschlagen | 411 |
verschlagen WITH $p=ADJ* |
sucht nach Formen von verschlagen als Adjektiv | 93 |
verschlagen WITH $p=V* |
sucht nach Formen von verschlagen als Verb | 318 |
Unter den Belegen für die adjektivische Verwendung von verschlagen finden sich unter anderem:
In ähnlicher Weise wirkte sich die englische Überlegenheit zur See auch in Indien aus, wo der ebenso kühne wie verschlagene Clive erfolgreich gegen die Franzosen und die mit ihnen verbündeten indischen Fürsten operierte.
Wandruszka, Adam: Die europäische Staatenwelt im 18. Jahrhundert. In: Propyläen Weltgeschichte, Berlin: Directmedia Publ. 2000 [1964], S. 10979
Die Kinder, die ihm Sprüche nachschrien, die Jerichower, die seinen Gang und seine Redensarten erheiternd fanden, mochten sie ihn für verschlagen halten, für hochmütig, für schrullig überhaupt.
Johnson, Uwe: Jahrestage, Bd. 1, Frankfurt a. M.: Suhrkamp 1970, S. 305
Unter den Belegen für die verbale Verwendung von verschlagen finden sich unter anderem:
Noch als Oberschüler Gasthörer bei berühmten Philosophen an der Berliner Universität, verschlug es ihn dann doch noch in den Krieg, zur Ostfront, von der er sich allerdings nach einem Lazarettaufenthalt unerlaubt entfernte.
Engler, Wolfgang: Die Ostdeutschen, Berlin: Aufbau-Taschenbuch-Verl. 2000 [1999], S. 92
Eppler zieht jedoch ins Gefecht mit einer fürchterlichen Karikatur des Liberalismus, selbst des wirtschaftsliberalen Denkens, daß es einem schier den Atem verschlägt.
Die Zeit, 30.07.1998, Nr. 32
Allerdings wird in diesem und ähnlichen Fällen das Partizip, eigentlich eine Form des Verbs, als Adjektiv erkannt und als solches in den Daten markiert:
Die vorbereiteten Putenkeulen kochen oder dünsten und nacheinander in Mehl, verschlagenem Ei und geriebener Semmel wenden.
o. A.: Wir kochen gut, Leipzig: Verl. für d. Frau 1968 [1963], S. 115
Angabe der Position eines Wortes
Die zweite häufig verwendete Bedingung ist die Position eines Wortes im Satz. Eine typische Abfrage lautet: Gib mir Belege für den jeweiligen Suchterm aus, aber nur, wenn dieser am Anfang (satzinitial) / am Ende des Satzes (satzfinal) steht.
Beachten Sie, dass die Angabe der Position durch eine Zahl erfolgt. Dabei beginnt die Zählung von vorn mit der Zahl 0 (dem ersten Token wird also die Positionszahl 0 zugewiesen), die Zählung von hinten mit der Zahl -1 (dem letzten Token im Satz wird -1 zugewiesen, dem zweitletzten -2 usw.).
Suchausdruck(steil) | Bedeutung |
WITH $.=0 |
steht am Anfang des Satzes, festgelegt als Position 0 |
WITH $.=-2 |
steht am Ende des Satzes, an zweitletzter Postion, es folgt nur noch das Satzendezeichen |
WITHOUT $.=0 |
steht NICHT am Anfang des Satzes, überall sonst |
WITHOUT $.=-2 |
steht NICHT am Ende des Satzes, überall sonst |
Nehmen wir als Beispiel das häufige Wort denn, das sowohl als Konjunktion verwendet werden kann und dann satzinitial steht, als auch als Modalpartikel und dann meist im Inneren eines Satzes.
Suchausdruck | Bedeutung | Trefferzahl |
denn |
sucht nach dem Lemma denn | 82785 |
denn WITH $.=0 |
sucht nach denn am Satzanfang | 19777 |
denn WITHOUT $.=0 |
sucht nach denn an anderer Postion im Satz | 63008 |
Unter den Belegen für die Verwendung von denn in satzinitialer Position (in Funktion einer Konjunktion) findet sich unter anderem:
Denn er wurde lediglich zum Ritter ernannt und kann deshalb nur ein schmales rotes Bändchen in sein Knopfloch flechten.
o. A. [wms]: Ehrenlegion. In: Aktuelles Lexikon 1974-2000, München: DIZ 2000 [1998]
Unter den Belegen für die Verwendung von denn in nicht-satzinitialer Position (in Funktion einer Modalpartikel) findet sich unter anderem:
Hast du denn eine Ahnung, Jörn? Nein, aber deshalb bin ich ja vielleicht hier.
Becker, Jürgen: Aus der Geschichte der Trennungen, Frankfurt a. M.: Suhrkamp 1999, S. 15
Sollten Sie denn als nebensatzeinleitende Konjunktion suchen, dann müssen Sie das Satzzeichen, das den Hauptsatz vom Nebensatz abtrennt (Komma), ausdrücklich als Teil des Suchausdrucks angeben: \, denn
[2]
Hier ist einer der Belege, die Sie erhalten, wenn Sie im DWDS-Kernkorpus nach denn als nebensatzeinleitender Konjunktion suchen:
Man hielt das für eine äußerst unangenehme Angelegenheit, denn niemand wußte, ob es bei dem mißlungenen Versuch bleiben werde und wer dahinterstand.
Degenhardt, Franz Josef: Für ewig und drei Tage, Berlin: Aufbau-Verl. 1999, S. 104
Die Operatoren WITH
und WITHOUT
werden Ihnen auch im folgenden Teil dieser Blogserie begegnen, in dem es um komplexe Suchausdrücke gehen soll. Nun sind Sie dafür gerüstet.
Viele weitere Beispiele für Suchanfragen finden Sie in unserer ausführlichen Dokumentation zur Korpussuche. Nutzen Sie bei Fragen gern auch das Kontaktformular, um direkt mit uns in Verbindung zu treten!
[1] Die Wortarten werden in den Korpora des DWDS durch bestimmte Kürzel dargestellt. So steht etwa ADJA
für ‚Adjektiv in attributiver Verwendung‘ und ADJ*
für ‚Adjektiv allgemein‘ usw. Eine Liste der in den Korpora des DWDS verwendeten Wortarten finden Sie in unserer Dokumentation zur Korpussuche.
[2] Da das Zeichen ,
als Teil der Abfragesprache verwendet wird (wir werden später sehen, wann das der Fall ist), müssen Sie, wenn Sie nach dem Komma in den Korpusdaten suchen wollen, ein \
davorstellen. Man spricht auch davon, dass das Zeichen „maskiert“ wird: Es wird so nicht mehr als ein Element der Abfragesyntax erkannt. Das funktioniert in ähnlicher Weise auch mit anderen Zeichen, die Teil der Abfragesyntax sind (Punkt, verschiedene Arten von Klammern usw.).