Anmelden | Registrierung beim DWDS
Mobil | Hilfe zur Suche | Kontakt | Impressum

DWDS Wortprofil

Die aktuelle Version des Wortprofils ist 3.0 und wird auf dieser Infoseite noch nicht berücksichtigt. Diese Seite wird in Kürze überarbeitet!

1. Projektüberblick
2. Vorgehensweise
3. Verwandte Arbeiten
4. Stand
5. Das Wortprofil im Web
6. Literatur

Projektüberblick

Elektronische Textkorpora werden seit über 20 Jahren in der Wortschatzforschung und für das Sprachlernen eingesetzt (z.B. Sinclair 1991, Braun et al. 2006). Belege aus Korpora haben dabei im Unterschied zu Kompetenzbeispielen den Vorzug, dass sie die verschiedenen Verwendungen des Wortes auf der Grundlage realer Textbeispiele widerspiegeln. In der Regel basieren elektronische Plattformen, die diese Korpora analysieren, bei der Anzeige der Suchergebnisse auf Konkordanzen bzw. KWIC-Zeilen. Damit können die Gebrauchskontexte eines Wortes auf übersichtliche Weise dargestellt werden. Mit wachsender Größe der Korpora - gängig sind mittlerweile Korpora einer Größe von mehreren hundert Millionen bis hin zu einigen Milliarden Textwörtern - steigt nicht nur der Variantenreichtum der Gebrauchskontexte, sondern auch die Anzahl der Belege für ein Suchwort bzw. einen Suchausdruck: Suchwörter mit mehreren tausend oder zehntausend Belegen sind bei diesen Korpusgrößen gängig. Bei solch umfangreichen Belegmengen stoßen Konkordanzen jedoch an ihre Grenzen. Wie lässt sich beispielsweise durch Lektüre der Konkordanzzeilen herausfinden, welche Adjektive vor das Substantiv Buch gesetzt werden können? Wie kann man dem Korpus entnehmen, ob bahnbrechend eher für Buch oder für Werk typisch ist? Wie lässt sich herausfinden, bei welchen Verben das Substantiv Wert typischerweise in der Objektposition steht?

Mit dem DWDS-Wortprofil sollen genau solche Fragen beantwortbar sein. Im Unterschied zu einer reinen Kookkurrenzanalyse werden im Wortprofil die syntaktischen Kontexte berücksichtigt: um im Wortprofil statistisch signifikant zu sein, reicht es nicht, dass ein Wort statistisch signifikant in einer gewissen Nähe des Suchworts vorkommt. Im Wortprofil muss es darüber hinaus in einer relevanten syntaktischen Relation mit dem Suchwort stehen, also beispielsweise in Position eines attributiven Adjektivs (z.B. bahnbrechendes Werk) oder in Objektposition (z.B. Wert darstellen).

Das Projekt Wortprofil startete im Jahr 2007 als Teil des DWDS-Vorhabens mit dem Ziel, die lexikografische Analyse bei der Korpusauswertung von syntagmatischen Wortbeziehungen zu beschleunigen. Mitarbeiter des Teilprojekts sind Jörg Didakowski und Alexander Geyken sowie Alexander Siebert (bis 2009).

Eine ausführlichere Motivierung für das Wortprofil als Korpuswerkzeug der "dritten Generation" findet sich in (Geyken 2011, pdf).

2.Vorgehensweise

Das DWDS-Wortprofil beruht auf einer syntaktischen Voranalyse der Korpusdaten durch den Shallow Parser SynCoP (SYNtactic COnstraint Parsing, vgl. Didakowski 2008). Die Berechnung des DWDS-Wortprofils selbst erfolgt in drei Etappen:

  1. Festlegung der zu extrahierenden syntaktischen Relationstypen,
  2. Extraktion der Relationen mittels einer automatischen syntaktischen
  3. Analyse und Bewertung der statistischen Signifikanz der extrahierten Relationen.

Die Methodik des Wortprofils ist anderweitig ausführlich beschrieben (Geyken et al. 2009). An dieser Stelle beschränken wir uns auf die praktischen Ergebnisse des Wortprofils.

3. Verwandte Arbeiten

Das Wortprofil basiert in seinen Grundsätzen auf der von Adam Kilgarriff eingeführte Sketch Engine (Kilgarriff 2004): Ebenso wie das Wortprofil geht die Sketch Engine über reine Kookkurrenzstatistiken insofern hinaus, als sie nur diejenigen Kookkurrenzen berücksichtigt, die in einer vordefinierten syntaktischen Relation stehen. Solche Relationen können beispielsweise Adjektiv-Nomen, Verb-Objekt, Genitivattribute von Nomen oder Verb-Präpositionalphrase-Verbindungen sein. Sketch Engine Plattformen gibt es für so verschiedene Sprachen wie Englisch, Tschechisch, Japanisch oder Chinesisch. Trotz dieser breiten Anwendbarkeit ist einfache Übertragung der formalen Methoden des Sketch-Engine-Ansatzes z.B. vom Englischen auf das Deutsche aus wenigstens zwei Gründen schwierig: Die freie Wortstellung im Deutschen und der Kasussynkretismus führen dazu, dass eine Extraktion von syntaktischen Relationen auf der Basis von Wortarten und darauf basierenden Satzmustern, anders als im Englischen, zu keinen befriedigenden Ergebnissen führt. So haben Experimente mit der Sketch Engine für das Deutsche gezeigt, dass, je nach Parametrisierung der Regeln, entweder die Analysegenauigkeit unzureichend ist oder aber die Abdeckung, d.h. der Anteil des analysierbaren Texts, zu gering ist (Kilgarriff 2004, Ivanova et al. 2008). Aus diesem Grund beruhen die beiden existierenden Ansätze für das Deutsche zur Extraktion von syntaktischen Relationen aus großen Textkorpora auf einem allgemeineren Formalismus, der syntaktische Satzfunktionen erkennen und lokale Mehrdeutigkeiten auflösen kann. Der erste, an der Universität Stuttgart entwickelte Ansatz zur Extraktion "signifikanter Wortpaare als Webservice" (Fritzinger et al. 2009), beruht dabei auf dem Dependenzparser FSPAR (Schiehlen 2003), der zweite an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) entwickelte Prototyp, das DWDS-Wortprofil (Geyken et al. 2009), basiert auf SynCoP (Didakowski 2008).

4.Stand

4.1 Das Wortprofil 2010

Der erste Prototyp des DWDS-Wortprofils (Wortprofil_2010) beruhte auf dem DWDS-Kernkorpus und dem ZEIT-Archivs (1946-2009) und hatte eine Gesamtgröße von etwa 500 Millionen laufenden Textwörtern. Aus dem Korpus wurden etwa 90.000 Lemmata mit 2.000.000 Relationen extrahiert. Dabei wurden keine Schwellwerte angesetzt.

4.2. Das Wortprofil 2012

Das Wortprofil 2012 ist eine Weiterentwicklung des Wortprofils 2010. Die Korpusbasis ist um weitere wichtige Zeitungskorpora erweitert worden und es werden weitere syntaktische Relationen berücksichtigt (Verbzusatz, vergleichende Konjunktion, adverbialer Modifikator, prädikative Ergänzung). Auf Seiten der Relationsextraktion werden Relationen zusätzlich als 'sicher' oder 'unsicher' klassifiziert. Die Klassifikation ist hierbei abhängig von der syntaktischen Konstruktion und dem Kontext. Diese Information wird dann für die Schwellwerte in der Wortprofilberechnung herangezogen. Zudem ist eine automatische Lemmatisierung integriert worden, so dass auch Vollformen als Suchanfrage eingegeben werden können. Die Zahlen im Einzelnen:

5. Das Wortprofil im Web

Das Wortprofil ist über ein Panel (aktuell: Wortprofil 2012) auf der Plattform www.dwds.de verfügbar. Die Darstellung der Relationen erfolgt in Form einer Schlagwortwolke oder in Tabellenform. Diese Wortverbindungen werden zusammen mit den Fundstellen im Korpus, in denen sie auftreten, angezeigt. Im entsprechenden Panel können Sie die Anzeige der Relationspartner zu einem Stichwort auf eine Relation einschränken.

Anhand eines Beispiels sollen die verschiedenen, vom DWDS-Wortprofil extrahierten Informationen verdeutlicht werden. Beispielsweise werden für das Stichwort Feindbild im DWDS-Wortprofil 32 verschiedene syntaktische Relationen mit insgesamt 384 Vorkommen extrahiert. Diese werden in Form einer Schlagwortwolke dargestellt (vgl. Abbildung).

Die syntaktisch relevanten Nachbarn von Feindbild sind in den folgenden syntaktischen Relationstypen zu finden:

Eine ausführlichere Beschreibung der Funktionen des Panels findet sich in (Geyken 2011, pdf).

6. Literatur