Anmelden | Registrierung beim DWDS
Mobil | Hilfe zur Suche | Kontakt | Impressum

Ressourcen - Wörterbücher

1. Überblick 
2. Die Wörterbuchquellen des DWDS
2.1 DWDS-Wörterbuch
2.2 Wörterbuch der deutschen Gegenwartssprache (WDG)
2.3 Etymologisches Wörterbuch
2.4 Deutsches Wörterbuch (1DWB)
2.5 Deutsches Wörterbuch: Neubearbeitung (2DWB)
2.6 Openthesaurus
3. Literatur

1. Überblick

Den Kern des DWDS-Projekts bilden die digitalen Versionen dreier Akademiewörterbücher: das Wörterbuch der deutschen Gegenwartssprache (WDG), das Deutsche Wörterbuch von Jacob Grimm und Wilhelm Grimm (1DWB) und seine Neubearbeitung (2DWB) sowie das Etymologische Wörterbuch des Deutschen von Wolfgang Pfeifer (EtymWb).

Seit 2010 werden alle lexikografischen Bearbeitungen des WDG durch das DWDS-Projekt in einer vom elektronischen WDG getrennten Datenbank gepflegt und unter dem Namen DWDS-Wörterbuch als eigenes Panel veröffentlicht. Damit wird einerseits dem Prinzip entsprochen, dass das WDG als Original erhalten und abfragbar bleiben soll, andererseits aber auch dem Wunsch entsprochen, den Nutzern der DWDS-Website auch schon vor der grundlegenden Überarbeitung der semantischen Substanz des WDG (diese wird in der 2. Phase des DWDS-Projekts stattfinden) eine in wichtigen lexikografischen Aspekten aktualisierte Fassung zu präsentieren. Weitere Informationen hierzu unter 2.1.

Auf der Website des DWDS sind derzeit fünf verschiedene Wörterbuchquellen abfragbar: das DWDS-Wörterbuch, das Wörterbuch der deutschen Gegenwartssprache, das Deutsche Wörterbuch (1DWB), das Etymologische Wörterbuch sowie der kollaborativ erstellte OpenThesaurus.

2. Die Wörterbuchquellen des DWDS

2.1 DWDS-Wörterbuch

Das DWDS-Wörterbuch basiert in seiner Substanz auf dem Wörterbuch der deutschen Gegenwartssprache (s. 2.2). Die Substanz dieses Wörterbuchs wurde in den letzten Jahren von der DWDS-Projektgruppe überarbeitet, d.h. aktualisiert und ergänzt, und wird aus den bereits im Abschnitt Überblick erwähnten Gründen unter dem Namen DWDS-Wörterbuch als eigenes Panel auf der DWDS-Website präsentiert. Die bislang vorgenommenen Änderungen des DWDS-Wörterbuchs an der Substanz des WDG umfassen die folgenden lexikografischen Aspekte:

2.2 Wörterbuch der deutschen Gegenwartssprache

Das Wörterbuch der deutschen Gegenwartssprache (WDG) wurde in Berlin an der Deutschen Akademie der Wissenschaften (ab Oktober 1972: Akademie der Wissenschaften der DDR) zwischen 1952 und 1977 erarbeitet. Die gedruckte Version umfasst über 4 500 Seiten und enthält 90 000 bzw. unter Hinzunahme aller Komposita über 120 000 Stichwörter.

Grundlage für die Digitalisierung war bis auf den ersten Band (3. Aufl. 1967) die Erstausgabe des WDG. Zwischen Februar und November 2002 wurde das WDG durch das Kompetenzzentrum Trier im Volltext digitalisiert, von der DWDS-Projektgruppe nachstrukturiert und im März 2003 auf der DWDS-Website unter dem Namen elektronisches Wörterbuch der deutschen Gegenwartssprache, kurz eWDG veröffentlicht. In den Folgejahren wurde das eWDG schrittweise weiter inhaltlich erschlossen und ausgezeichnet. Da das WDG nicht maschinell erstellt wurde und darüber hinaus viele Informationen nur implizit kodiert sind, wurden halbautomatische Verfahren mit manueller Nachkorrektur angewendet, um die Definitionen, Kompetenzbeispiele, Belege sowie die weiteren, z.B. grammatischen und pragmatischen, Angaben korrekt zu identifizieren und zu markieren. ... Weitere Informationen über das WDG und dessen Digitalisierung

Die Retrodigialisierung des WDG, die als weitgehend abgeschlossen angesehen werden kann, hat zwei Entwicklungen ermöglicht: a) das digitalisierte Original wurde weitestgehend formgetreu auf der Webseite des DWDS bereitgestellt;  b) durch eine Entkopplung des eWDG konnten die lexikografischen Informationen in eine Datenbank überführt werden. Diese werden im Vorhaben seit 2009 kontinuierlich und unter dem Namen DWDS-Wörterbuch ergänzt, überarbeitet und aktualisiert.

2.3 Etymologisches Wörterbuch (nach Pfeifer)

Das Etymologische Wörterbuch des Deutschen wurde in den 1980er Jahren an der Akademie der Wissenschaften von einer Gruppe von Lexikographen unter der Leitung von Wolfgang Pfeifer erarbeitet. Es gibt Antwort auf Fragen nach Alter, Herkunft und Verwandtschaft der Wörter. Es enthält Informationen zur Grammatik, Bedeutung und vor allem zur Wortgeschichte von über 22 000 Lexemen. Diese sind in knapp 8 000 Haupteinträgen und ca. 14 000 Untereinträgen organisiert. Der diskursive Stil, den Pfeifer und seine Kollegen bei der Herkunftsbeschreibung der Wörter verwenden, und die herausragende Qualität der Bedeutungsparaphrasen machen dieses Werk zu einem gut lesbaren und auch für den etymologischen Laien gut verständlichen Nachschlagewerk.

Die erste und zweite Auflage der gedruckten Version dieses Wörterbuchs erschienen 1989 und 1993 im Akademie-Verlag, die dritte Auflage 1995 im Deutschen Taschenbuch Verlag. Die digitalisierte und aufbereitete Version des Wörterbuchs basiert auf der zweiten, im Akademie-Verlag erschienenen Auflage.

Bei der Digitalisierung des Wörterbuchs wurde vor allem Wert gelegt auf a) die formgetreue Wiedergabe aller Zeichen, die einer Vielzahl von Schriftsystemen entstammen und b) den Erhalt der Struktur der Wörterbuchartikels für die Anzeige auf der DWDS-Website. Das Wörterbuch wurde aber auch inhaltlich so weit erschlossen und ausgezeichnet, dass es möglich ist, auf individuelle Artikelteile, z.B. Bedeutungsparaphrasen, gezielt zuzugreifen. Die Lemmaliste des Etymologischen Wörterbuches wurde mit der Lemmaliste des WDG und des DWDS-Wörterbuchs aligniert.

Die digitale Version des Wörterbuchs wird von Herrn Pfeifer laufend korrigiert und ergänzt.

2.4 Das Deutsche Wörterbuch von Jacob Grimm und Wilhelm Grimm (1DWB)

Das Deutsche Wörterbuch (DWB) ist das umfangreichste jemals gedruckte deutsche Wörterbuch. Es wurde über einen Zeitraum von mehr als 100 Jahren (1854-1960) in alphabetischer Ordnung publiziert, erschien in 32 Teilbänden mit insgesamt 67 744 Spalten und umfasst etwa 330 000 Stichwörter. Das DWB zeichnet die Wortgeschichte von ihrem ersten Auftreten in der Schriftlichkeit bis zur Bearbeitung im jeweiligen Band aus einem Quellenbestand von ca. 25 000 verschiedenen Quellen nach.

Zwischen 1998 und 2003 wurde das Wörterbuch im Rahmen des DFG-Förderprogramms "Retrospektive Digitalisierung von Bibliotheksbeständen" vom Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften in Trier retrodigitalisiert und im Internet sowie auf CD-ROM publiziert.

Seit 2006 werden die elektronischen Quellen gemeinsam vom Kompetenzzentrum und dem DWDS (stellvertretend für die BBAW als Rechteinhaberin an den Quellen des Wörterbuchs) in einem Repositorium an der BBAW verwaltet und gepflegt.

Im Rahmen dieser Pflegearbeiten wurden sowohl strukturelle Veränderungen vorgenommen als auch Korrekturen, die notwendig waren, um die Wörterbuchsubstanz in die Panelstruktur der DWDS-Website zu überführen. Darüber hinaus wurde mit heuristischen Verfahren begonnen, eine Abbildung der Stichwörter des DWB in moderne Lemmata zu implementieren (Herold, Lemnitzer und Geyken 2012). Beispielsweise wird mit einer Suche nach Tatsache auch der Artikel thatsache im DWB gefunden oder bei diktieren auch dictieren. Dies soll den Nutzern die wörterbuchübergreifende Suche erleichtern. Die Zuordnung ist momentan nur partiell möglich, alle im DWB markierten Stichwörter sind aber über die DWDS-Webseite abfragbar.

Für jeden Artikel des Wörterbuchs wurden detaillierte Metadaten aufgenommen, anhand derer die Entstehungszeit der Artikel ersichtlich wird.

Zu den strukturellen Veränderungen im Einzelnen: An den Quellen wurden einige strukturelle Veränderungen vorgenommen, die für die Integration in die Webseite des DWDS notwendig waren. Die Quellen wurden zunächst in XML transformiert und in valides TEI (P5) umgewandelt. Im Zuge dieser Arbeiten wurden weitere bei der Erfassung durch double-keying falsch umgesetzte bzw. konvertierte Druckzeichen korrigiert. Das Wörterbuch liegt nun in einer zu Unicode 6.0 kompatiblen Kodierung vor. Die konsistente Auszeichnung der individuellen Lesarten, die eine notwendige Voraussetzung für die Integration der Quelle in die Aufklapplogik der Panelnavigation der DWDS-Website ist, ist mittlerweile erfolgt. Zudem wurden fast 10 000 Lemmazeichen korrigiert und zum Teil auch neu erschlossen. Etwa 9 000 grammatikalische Angaben zu Lemmata wurden ebenfalls korrigiert und neu erschlossen. Weitere Findeheuristiken lassen erwarten, dass am Ende dieses Arbeitsschrittes eine fünfstellige Zahl von Stichwörtern zusätzlich erschlossen sein wird.

2.5 Das Deutsche Wörterbuch von Jacob Grimm und Wilhelm Grimm: Neubearbeitung (2DWB)

Die lange Bearbeitungszeit des DWB hat, bedingt durch die unterschiedlichen lexikographischen Stile der Bearbeiter, durch die Entwicklung neuer wissenschaftlicher Paradigmen und vor allem durch das Fortschreiten der Sprachentwicklung, bei aller Konsequenz der Grundkonzeption zu Uneinheitlichkeiten, Unausgewogenheiten und Mängeln geführt. Überlegungen zu einer Erneuerung und Aktualisierung des Wörterbuchs setzten bereits in der Schlußphase der Erstbearbeitung des Deutschen Wörterbuchs ein. ... mehr Informationen

Seit 1961 wird in zwei Arbeitsgruppen in Berlin (-2013) und Göttingen (-2016) an der Neubearbeitung der Buchstaben A-F gearbeitet. Die Arbeitsgruppen werden von der Berlin-Brandenburgischen Akademie der Wissenschaften und der Akademie der Wissenschaften zu Göttingen betreut.
Die Neubearbeitung stellt kein "Supplement" zu den entsprechenden Teilen der Erstfassung dar, sondern ist ein eigenes, neues Wörterbuch, das modernen lexikographischen Prinzipien folgt und auf einem gegenüber der Erstbearbeitung deutlich erweiterten Quellenkorpus basiert.
Etwas mehr als Hälfte der 9 Bände der Neubearbeitung liegt digital vor, der Rest liegt nur in gedruckter Form vor und ist somit noch zu digitalisieren.
Es ist geplant, die Neubearbeitung, soweit sie erschienen ist, in die DWDS-Plattform zu integrieren. Voraussetzung hierfür ist die Digitalisierung bzw. Konvertierung der vorhandenen Bände. Im Einzelnen sind dazu folgende Aufgaben nötig:

  1. die Retrodigitalisierung der in der Berliner Arbeitsstelle erarbeiteten Lieferungen I,1 bis IV,1 (A - Bann) sowie der in der Göttinger Arbeitsstelle erarbeiteten Lieferungen VI,1 bis einschließlich VIII,5 (D - Erregung)
  2. die Konvertierung der zu Projektbeginn bereits in elektronischem Format vorliegenden Lieferungen VIII,6/7 und IX,1-9 (Göttingen) sowie IV,2-7 (Berlin)
  3. die Auszeichnung der retrodigitalisierten und der konvertierten Wörterbuchdaten in XML gemäß den Richtlinien der TEI-P5 mit hinreichender Strukturierungstiefe für die oben beschriebenen Zwecke; die Sonderzeichencodierung wird über Unicode-Entitäten (UTF-8) realisiert werden.

Die Finanzierung dieser Schritte wird gegenwärtig vom Kompetenzzentrum in Trier, welches auch Erstausgabe des Deutschen Wörterbuchs digitalisiert hat, von der Akademie der Wissenschaften zu Göttingen und der Berlin-Brandenburgischen Akademie der Wissenschaften geklärt. 

2.6 Openthesaurus

Der quelloffene Thesaurus "Openthesaurus" steht ebenfalls in einem eigenen Informationspanel zur Verfügung. Im Openthesaurus sind lexikalische Einheiten durch Sinnrelationen wie Synonymie und Unter-/Oberbegriff miteinander verbunden. Wir danken Daniel Naber vom Openthesaurus-Projekt für seine Genehmigung, diese Ressource im Rahmen der DWDS-Website zu benutzen.

3. Literatur:

Jörg Didakowski, Lothar Lemnitzer, Alexander Geyken (2012): Automatic example sentence extraction for a contemporary German dictionary. In: Proc. EURALEX 2012, Oslo, pp. 343-349.

Alexander Geyken und Lothar Lemnitzer (2012): Using Google Books Unigrams to Improve the Update of Large Monolingual Reference Dictionaries. In: Proc. EURALEX 2012, Oslo, pp. 362-366.

Axel Herold, Alexander Geyken und Lothar Lemnitzer (2012): Integrating lexical resources through an aligned lemma list.  In: In C. Chiarcos, S. Nordhoff, & S. Hellmann (Eds.), Linked data in linguistics.Berlin, Heidelberg: Springer, S. 35-44.