DWDS
woerterbuch
Textbasis
Informationen
Aktuelles
Projekt
Kooperationen
Arbeitsgruppe
Kontakt
Impressum

home
Projekt "Digitales Wörterbuch der deutschen Sprache des 20. Jahrhunderts"(DWDS)
von Wolfgang Klein

Situationsanalyse

Es gibt kein Wörterbuch der deutschen Sprache, das den Wortschatz unseres Jahrhunderts befriedigend darstellt. Sehr unzulänglich sind bislang vor allem die Texte der späten Kaiser-zeit mit den Umbrüchen des ersten Weltkrieges, die Texte der Weimarer Zeit und die Texte der NS-Zeit erfaßt und lexikographisch aufgearbeitet. Auch die Sprachentwicklung nach 1945 und die der unmittelbaren Gegenwart sind trotz einiger wichtiger Ansätze bisher nicht ausreichend behandelt. Das Grimmsche Wörterbuch, nach wie vor die umfassendste Darstellung des deutschen Wortschatzes, berücksichtigt in seiner abgeschlossenen ersten Auflage die deutsche Sprache unseres Jahrhunderts fast nicht. Die Neubearbeitung, die derzeit im Gange ist, beschränkt sich auf die Buchstaben A-F, und auch dieser Teil wird schwerlich vor dem Jahre 2010 vorliegen. Das "Wörterbuch der deutschen Gegenwartssprache" des Berliner Akademie-Verlags (1964-1977) bietet eine im Ganzen sicher verdienstvolle, aber stark DDR-marxistisch geprägte und in den Textquellen nur bis in das zweite Drittel des Jahrhunderts reichende Auswahl unter Betonung der deutschen Bildungssprache. Das "Große Wörterbuch der deutschen Sprache" des Mannheimer Dudenverlags (1976-81, in 2. Auflage 1993-1995) ergänzt, berichtigt und ersetzt in verdienstvoller Weise das Berliner Vorgängerwerk. Die Sprachentwicklung und die Texte der ersten Jahrhunderthälfte bleiben aber in diesen wie in anderen, kleineren Wörterbüchern neueren Datums weitgehend im Dunkeln. Entsprechendes gilt für die Sprachverhältnisse in den anderen Ländern, in denen Deutsch gesprochen wird.

Der unzureichende Stand der deutschen Wortschatzforschung fällt vor allem dann ins Auge, wenn man die Situation vergleichbarer Kultursprachen wie Französisch oder Englisch betrachtet. Er ist nicht nur ein Versäumnis der Forschung. Er behindert auch die Eignung unserer Sprache als Verkehrssprache für all jene, die sie als Muttersprache oder als Zweitsprache verwenden. Nicht zuletzt ist er ein Indiz für die mangelnde Fähigkeit, sich den Texten der Vergangenheit zu stellen und die Sprache dieser Texte als das Fundament der Gegenwartssprache zu begreifen.

Vision

Das "Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts" soll schrittweise dazu beitragen, diesen unbefriedigenden Stand zu überwinden. Im Vergleich zu den bisherigen Wörterbüchern soll es sich durch drei Merkmale auszeichnen:

  • es wird sich von Anfang an die Möglichkeiten der neuesten Datentechnik zunutze machen. Das Ergebnis wird daher nicht einfach ein gedrucktes Wörterbuch sein, sondern eine lexikographische Datenbank, aus der zum einen gezielt bestimmte Informationen abgefragt werden können und aus der sich zum anderen unterschiedliche Wörterbücher zusammenstellen und nach Bedarf drucken lassen;
  • es soll für unterschiedliche Interessenten gut und leicht benutzbar sein - für Wissenschaftler ebenso wie für Übersetzer, Journalisten, Werbetexter und alle anderen, die sich für die deutsche Sprache interessieren;
  • es soll eine breite Datengrundlage haben. Insbesondere soll es sich nicht auf Werke aus der Schönen Literatur beschränken, sondern ebenso Texte aus den Massenmedien, aus populärwissenschaftlichen Darstellungen, der Werbung und schließlich der gesprochenen Sprache umfassen. Wesentlich ist auch, dass die verschiedenen regionalen Spielarten des Deutschen angemessen berücksichtigt werden.

Diese drei leitenden Gesichtspunkte werden im folgenden näher ausgeführt.

Digitalisierung

Mehr als andere sprachwissenschaftliche Arbeiten ist die lexikographische von den technischen Möglichkeiten bestimmt, die zur Ausarbeitung eines Wörterbuchs und zu seiner Nutzung zur Verfügung stehen. Traditionell waren dies Bleistift und Papier sowie der Zettelkasten auf der einen Seite, das gedruckte Buch mit alphabetisch geordneten Einträgen auf der anderen. Dies ist einer der Gründe für die außerordentlich lange Zeit, die es erfordert, ein ernst zu nehmendes wissenschaftliches Wörterbuch zu schaffen. Gleichzeitig schränkt die orthographische Ordnung die Nutzungsmöglichkeiten erheblich ein. So kann man zwar leicht ein bestimmtes Wort, sagen wir "Absatz", auffinden und sich beispielsweise seine verschiedenen Bedeutungen angeben lassen. Aber dies ist nicht die einzige lexikographische Information, an der man interessiert sein mag. So möchte man vielleicht die Aussprache des Wortes wissen, seine Etymologie, seine Verwendung in der marxistischen Wirtschaftstheorie vor 1930; oder man möchte sinnverwandte Wörter angezeigt sehen oder gar Wörter, auf die es sich reimt. In der einen oder anderen Weise läßt sich der größte Teil dieser Informationen auch in einem alphabetischen Wörterbuch unterbringen. Freilich um den Preis zunehmender Unhandlichkeit und damit Unbrauchbarkeit. Bei anderen lexikographischen Fragen stößt das alphabetische Wörterbuch an prinzipielle Grenzen, etwa wenn man wissen möchte, welche anderen Wörter typischerweise im gleichen Kontext auftreten oder welche Wörter etwa zur gleichen Zeit erstmals für die deutsche Sprache bezeugt sind.

Die Entwicklung der Datenverarbeitung in den letzten Jahren eröffnet eine Fülle weiterer Möglichkeiten. So sind denn die ersten "elektronischen Wörterbücher" bereits erschienen. Zumeist handelt es sich dabei freilich nur um EDV-Versionen vorhandener (meist zweisprachiger) Wörterbücher. Sie erleichtern vielleicht das Nachschlagen, nutzen aber im übrigen weder auf seiten des "Entwicklers" noch auf seiten des "Nutzers" die neuen Möglichkeiten wirklich aus. Ebendies soll im "Digitalen Wörterbuch der deutschen Sprache des 20. Jahrhunderts" geschehen.

Grundlage für das Digitale Wörterbuch ist, wie bei jeder lexikographischen Arbeit, ein repräsentatives Textcorpus (vgl. dazu weiter unten den Abschnitt Breite des Wortschatzes). In einem solchen Corpus treten uns die Wörter als flektierte "Wortformen" entgegen. Sie lassen sich mit gängigen Programmen leicht auffinden, mit Kontext ausdrucken, alphabetisch sortieren oder zählen. Diese Information ist allerdings von begrenztem Wert (obwohl es für einen Übersetzer durchaus interessant und hilfreich sein mag, sich einmal eine Reihe von Textstellen zusammenzustellen, in denen ein bestimmtes ungewöhnliches Wort, das er übersetzen soll, verwendet wird). Die weitere Nutzbarkeit hängt nun davon ab, welche zusätzlichen Informationen man mit den reinen Wortformen verknüpft. Solche Informationen betreffen beispielsweise

  • die Aussprache, und zwar in der sogenannten "Hochlautung" wie in den verschiedenen regionalen Varianten
  • morphologische Eigenschaften, z.B. die Flektionsklasse
  • syntaktische Eigenschaften, z.B. die Rektion
  • semantische Eigenschaften, d.h. die verschiedenen Bedeutungen in verschiedenen Kontexten
  • Angaben über den Erstbeleg und über die etymologische Herkunft
  • Angaben über sinnverwandte Wörter und viele andere.

Ein Teil dieser Informationen läßt sich schnell und einfach automatisch erstellen (beispielsweise der Erstbeleg im Corpus oder statistische Angaben). Andere bedürfen hingegen wie bisher der "Analyse per Kopf". Hierzu zählen insbesondere alle Angaben über die Bedeutung. Aber auch in diesen Fällen läßt sich die Arbeit mit den nunmehr verfügbaren technischen Möglichkeiten oft erheblich leichter gestalten. So muß die Aussprache zwar zu jedem Wort von Hand hinzugefügt werden. Sobald dies aber einmal geschehen ist, läßt sich leicht vollautomatisch ein Reimwörterbuch oder ein Wörterbuch der Silben erstellen. Hinzufügen lassen sich auch Informationen, welche die Grenzen eines traditionellen Wörterbuchs überschreiten. So ist es leicht möglich (und auch beabsichtigt), akustische Angaben zu integrieren, d.h. nicht nur die Aussprache von Wörtern in Lautschrift anzugeben, sondern diese Wörter tatsächlich von Sprechern unterschiedlicher regionaler Herkunft sprechen zu lassen und diese Aufnahme mit dem geschriebenen Wort zu verbinden, sodass sie sich jederzeit abspielen lassen. Der Nutzen etwa für den Zweitsprachunterricht liegt auf der Hand. Ebenso ist es möglich, Angaben über äquivalente Wörter in anderen Sprachen hinzuzufügen, d.h. das einsprachige Wörterbuch zu einem zwei- oder gar mehrsprachigen Wörterbuch auszubauen.

Je reicher diese Informationen, um so nützlicher ist das Wörterbuch für die unterschiedlichen Fragestellungen, welche die Benutzer an es herantragen. Allerdings können und müssen diese Informationen nicht alle sofort und gleichzeitig verfügbar sein. Sehr schnell soll allen Interessenten ein digitales Wörterbuch von großer Vollständigkeit aber zunächst noch geringer "Analysetiefe" zur Verfügung gestellt werden. Dies ist leicht zu bewerkstelligen, sofern die entsprechenden Texte sowie einige komfortable Dienstprogramme verfügbar sind. Anschließend wird dann die Analyse im angedeuteten Sinne schrittweise vorangetrieben. Die genaue Reihenfolge, in der dies geschehen soll, hängt nicht zuletzt von den Interessen der Benutzer ab (vgl. dazu den Abschnitt Zielgruppen). Ein Digitales Wörterbuch, so wie es hier geplant wird, ist daher nie ein "fertiges Produkt". Es ist ein Werk, das sich ständig weiterentwickeln, ausbauen und vertiefen läßt, das aber, im Gegensatz zu einem konventionellen wissenschaftlichen Wörterbuch, von Anfang an einen praktischen und wissenschaftlichen Nutzen entfaltet. Zur praktischen Nutzbarkeit zählt auch, dass sich nach Bedarf "Papierversionen" herstellen lassen, d.h. gedruckte Wörterbücher für spezielle Zwecke - etwa konventionelle alphabetische Wörterbücher, Reimwörterbücher, Synonymenlexika. Sobald die erforderlichen Informationen im Digitalen Wörterbuch selbst vorhanden sind, ist es kein Problem, sie auszusortieren und zu einem Spezialwörterbuch zusammenzustellen.

Zielgruppen

Wenn Jacob Grimm im Vorwort zum "Deutschen Wörterbuch" von dem Hausvater spricht, der am Abend im Kreise der Familie aus dem Wörterbuch vorliest, so fühlen wir uns leicht in ein Grimmsches Märchen versetzt. In der Wirklichkeit werden traditionelle wissenschaftliche Wörterbücher vor allem von Wissenschaftlern selbst benutzt. Das liegt aber nicht daran, dass niemand sonst einen Bedarf an lexikographischer Information hatte. Journalisten, Übersetzer, Lehrer, alle, die eine zweite Sprache erlernen, sind auf Wörterbücher angewiesen. Allerdings sind ihre Interessen gewöhnlich andere als die des Wissenschaftlers, und so ist ihnen mit einem herkömmlichen wissenschaftlichen Wörterbuch nur in seltenen Fällen geholfen. Das DWDS ist ein wissenschaftliches Wörterbuch. Seine Erarbeitung ist Grundlagenforschung im echten Sinne. Gleichwohl soll es einen unmittelbaren praktischen Nutzen über den Kreis der Fachwissenschaftler hinaus entfalten, und es soll nicht zuletzt die wissenschaftliche Basis für speziellere ein- oder zweisprachige Wörterbücher bereitstellen.

Breite des Wortschatzes

Im Mittelpunkt der traditionellen Wörterbucharbeit steht die Schöne Literatur - die Werke der "großen Schriftsteller". Für die moderne Lexikographie gilt dies nicht mehr uneingeschränkt. Neuere Wörterbücher, vor allem solche, die für praktische Zwecke gedacht sind, berück-sichtigen durchaus auch andere Texte, etwa Zeitungsartikel. Das Schwergewicht liegt aber nach wie vor auf der Belletristik. Viele, wenn nicht gar die meisten produktiven Entwicklungen im Wortschatz liegen aber in anderen Bereichen - beispielsweise der Technik und der Wissenschaft, der Werbesprache, der Publizistik. Im DWDS soll daher der deutsche Wortschatz des 20. Jahrhunderts in seiner ganzen Breite dokumentiert werden. Der gesamte Datenbestand soll im Kern aus fünf Teilcorpora bestehen:

  1. Schöne Literatur: darunter wird nicht nur die "hohe Literatur" verstanden, sondern auch die Unterhaltungsliteratur; unter dem Aspekt eines breiten Nutzerkreises sind Konsalik und Höber nicht minder wichtig als Grass und Strittmatter.
  2. Journalistische Prosa: hier ist an die großen überregionalen Tages- und Wochenzeitungen gedacht, aber auch an einige regionale Blätter, die unter lexikographischen Aspekten oft besonders interessant sind; weiterhin an Magazine und Illustrierte, unter Einschluss der "gelben Presse" und von Jugendzeitschriften.
  3. Fachprosa: hier ist vorgesehen, aus einer Reihe von Fachgebieten, von Philosophie und Jurisprudenz, über Medizin und Theologie bis zu Chemie, Physik und Mathematik, eine Reihe von maßgeblichen Texten dieses Jahrhunderts aufzunehmen.
  4. Gebrauchstexte: dies ist eine Gruppe von Texten, die in der Wörterbucharbeit nur selten berücksichtigt werden - Gebrauchsanweisungen, Beipackzettel, Theaterprogramme, Werbetexte. Ob man den Wortgebrauch dieser Texte schön findet oder nicht - nicht wenige Wörter des gegenwärtigen Deutsch entstammen der Sprache der Werbung, und eine Dokumentation des deutschen Wortschatzes, die dies nicht angemessen berücksichtigt, ist in ihrem Gebrauchswert eingeschränkt.
  5. (Transkribierte) Texte gesprochener Sprache: Ausgangspunkt jeder Sprache ist das gesprochene, nicht das geschriebene Wort. Die alltäglich gesprochene Sprache ist nach wie vor Quell und Träger vieler sprachlicher Entwicklungen. Dennoch beruhen nahezu alle herkömmlichen Wörterbücher auf der geschriebenen Sprache. Das hat vor allem praktische Gründe haben wir doch kaum Aufzeichnungen von gesprochener Sprache aus der Vergangenheit. Seit der Erfindung des Tonbandgeräts hat sich dies geändert. Es gibt inzwischen eine Reihe umfangreicher Corpora gesprochener Sprache - Alltagsgespräche, Rundfunkinterviews, Fernsehdiskussionen, Interaktionen zwischen Müttern und Kindern, Dialektaufnahmen und viele andere. Ihr Einbezug ist nicht bloß eine Frage der Vollständigkeit; er ist unabdingbar, wenn die aus vielen Wörterbüchern vertrauten Kennzeichnungen als "umgangssprachlich", "regional" und ähnliche über die bloße Intuition des Lexikographen hinaus eine wissenschaftliche Grundlage haben sollen.

Jedes dieser Corpora läßt sich systematisch weiter ausbauen. Das Hauptproblem dabei ist weder die Auswahl der Texte noch ihre Eingabe in den Rechner; es ist vielmehr die Frage der Rechte. Ältere Texte sind gewöhnlich frei; für Texte des 20. Jahrhunderts ist dies jedoch eher die Ausnahme. Es ist daher von größter Bedeutung, die Rechtsinhaber - in der Regel Verlage - für die Mitarbeit an diesem Vorhaben zu gewinnen.

Arbeitsschritte und Kooperationen

Das Grimmsche Wörterbuch zu vollenden, hat mehr als ein Jahrhundert erfordert; so lange war es auch für die Wissenschaft nur von begrenztem Wert. Man möchte dies für eine Ausnahme halten. Indes sind die Zeithorizonte bei vielen anderen lexikographischen Großvorhaben, die derzeit in Arbeit sind, nicht gravierend anders. Das DWDS soll demgegenüber sehr schnell allen Benutzern verfügbar sein - freilich bei zunächst noch eingeschränkter "Funktionalität". Es soll dann im Laufe der Zeit systematisch für die oben skizzierten verschiedenen Zwecke ausgebaut werden. Dies erlaubt ein sehr flexibles Vorgehen. Insbesondere ist es nicht erforderlich, viele hoch spezialisierte Mitarbeiter auf lange Jahre hinaus zu binden, da sich die in Abschnitt Digitalisierung umrissenen Aufgaben durch Experten unterschiedlicher Art und mit unterschiedlichem Aufwand bearbeiten lassen. Unabdingbar ist jedoch die Kooperation mit einer Reihe anderer Einrichtungen. Dazu zählen die entsprechenden akademischen Forschungsstätten in Österreich und der Schweiz, möglicherweise auch in anderen Ländern, in denen Deutsch gesprochen wird; weiterhin andere Institutionen in Deutschland, die sich mit lexikographischen Fragen befassen; und schließlich die Vertretungen jener Gruppen, die als Nutzer ein Interesse an einem umfassenden wissenschaftlichen Wörterbuch der deutschen Sprache in unserem Jahrhundert haben.