Kooperationen

  1. Einleitung
  2. Deutsches Textarchiv
  3. CLARIN-D
  4. ENEL
  5. OCR-D
  6. BMBF-Projekt KobRA (abgeschlossen)
  7. Netzwerk Internetlexikographie (abgeschlossen)

1. Einleitung

Viele der technischen, korpuslinguistischen und computerlinguistischen Arbeiten des DWDS-Projekts waren nur durch die Kooperation mit inhaltlich verwandten Projekten möglich. Darüber hinaus streben wir an, zu Fragen, die sich aus der täglichen lexikographischen Arbeit ergeben, Lösungen gemeinsam mit universitären Partnern zu entwickeln.

2. Deutsches Textarchiv

Ziel des von der DFG geförderten Projekts Deutsches Textarchiv (DTA) ist die Erarbeitung einer Grundlage für ein Referenzkorpus des Neuhochdeutschen. Dafür stellt das DTA einen disziplinen- und gattungsübergreifenden Grundbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900 bereit. Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung in der Regel die Erstausgaben der Werke zugrunde gelegt. Das elektronische Volltextkorpus des DTA ist über das Internet frei zugänglich und dank seiner Aufbereitung durch (computer-)linguistische Methoden schreibweisentolerant über den gesamten jeweils verfügbaren Bestand durchsuchbar. Sämtliche Texte stehen zum Download zur Verfügung.

Das DTA-Korpus ist mit dem DWDS-Kernkorpus verknüpft und bildet damit die Basis für die etwa 400 Jahre umfassende Wortverlaufskurve, die in die Webseite des DWDS integriert ist.

3. CLARIN-D

CLARIN-D (Common Language Resources and Technology Infrastructure in Deutschland) ist eine vom Bundesministerium für Bildung und Forschung geförderte Infrastrukturmaßnahme; CLARIN-D gehört zu dem europaweiten CLARIN-Verbund (CLARIN ERIC). An dem Projekt beteiligt sind neben der BBAW die Universitäten Hamburg, Leipzig, München, Saarbrücken, Stuttgart, Tübingen (Koordinator) sowie das Institut für Deutsche Sprache (Mannheim) und das Max-Planck-Institut für Psycholinguistik in Nijmegen. Ziel von CLARIN-D ist die Bereitstellung einer Infrastruktur für die Geistes- und Sozialwissenschaften in Form von Daten- und Servicezentren, die Sprachressourcen und sprachtechnologische Werkzeuge akquirieren, integrieren und der Forschung langfristig zur Verfügung stellen. Das Zentrum Sprache der BBAW ist ein CLARIN-Zentrum mit dem besonderen Schwerpunkt auf historische Korpora und lexikalische Daten (historisch und synchron).

4. ENEL

Auf europäischer Ebene wird die Diskussion um die Internetlexikographie in dem von der Europäischen Union geförderten Netzwerk zur elektronischen Lexikographie ENEL (European Network of Electronic Lexicography) geführt. Dieses zwischen 2013 und 2017 von der EU geförderte Netzwerk hat zum Ziel, eine Bündelung der nationalen Diskussionen auf europäischer Ebene zu erreichen. An dem Netzwerk beteiligen sich über 250 Wissenschaftler aus 27 Ländern. Die Arbeit des Netzwerks ist in vier Teilgebiete unterteilt, darunter die Retrodigitalisierung von Wörterbüchern, die Entwicklung von Lösungen für ein integriertes Portal sowie die allgemeine lexikographische Diskussion aus paneuropäischer Perspektive. Der mit Abstand wichtigste und mit über 130 Mitgliedern aus 27 Ländern auch am besten vertretene Bereich ist das Gebiet der „innnovativen digitalen Wörterbücher“.

5. OCR-D

OCR-D ist ein Koordinierungsprojekt, das auf die Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) für historische Drucke ausgerichtet ist.

An diesem durch die DFG geförderten Projekt sind neben der BBAW, die Herzog August Bibliothek Wolfenbüttel und die Bayerische Staatsbibliothek in München beteiligt. Das wesentliche Ziel ist die konzeptionelle Vorbereitung der automatischen Transformation von Drucken des deutschsprachigen Raums aus dem 16. bis 19. Jahrhundert in maschinenlesbare, elektronische Volltexte als Forschungsdaten.

Im Projekt OCR-D soll der weitere Entwicklungsbedarf unter Berücksichtigung bereits existierender Tools, Workflows und wissenschaftlicher Untersuchungen ermittelt werden. Durch Neukombination und – wo nötig – durch Neuentwicklungen soll der OCR-Prozess für historische Drucke am Beispiel der in den Verzeichnissen im deutschsprachigen Raum aufgelisteten Drucke spezialisiert und optimiert werden.

6. BMBF-Projekt KobRA (abgeschlossen)

KobRA („Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining“) war ein von 2012 bis 2015 vom BMBF gefördertes Verbundprojekt, an dem die TU Dortmund (Lehrstühle Prof. Morik und Prof. Storrer, letztere später an der Universität Mannheim), die Universität Tübingen (Lehrstuhl Prof. Hinrichs), das Institut für Deutsche Sprache und die BBAW beteiligt waren. Ziel des Projekts war die Nachverarbeitung von Ergebnismengen aus Korpusabfragen nach ihrer Relevanz für eine konkrete Fragestellung durch Methoden des Data-Mining. In diesem Rahmen wurde für das Dortmunder Teilprojekt „Korpusbasierte Analyse von Funktionsverbgefügen“ mit Daten aus den DWDS-Korpora unterstützt. Darüber hinaus wurde auf der Grundlage von Daten der BBAW ein selbstlernendes Programm für die Klassifikation von guten Belegen entwickelt.

7. Netzwerk Internetlexikographie (abgeschlossen)

Das von der DFG von Mitte 2011 bis Ende 2013 geförderte „Netzwerk Internetlexikographie“ ermöglichte sechs Arbeitstreffen, in denen LexikografInnen und SprachtechnologInnen aus mehreren europäischen Staaten eine Vielzahl von Themen diskutierten, welche die Erstellung und Publikation von Wörterbüchern im Medium Internet betreffen. Es ging u. a. um Datenmodellierung, Vernetzung, automatische Gewinnung lexikografischer Angaben und Wörterbuchbenutzungsforschung. Die Ergebnisse dieser Workshops sind zum Großteil in Sonderheften der am Institut für Deutsche Sprache herausgegebenen Reihe >OPAL publiziert. Weiteres Ergebnis ist ein im Verlag de Gruyter erscheinendes Kompendium Internetlexikographie, in dem Themen der Arbeitstreffen in einzelnen Kapiteln ausführlicher dargestellt werden und das sich an Studierende und Praktiker wendet.