Kooperationen

Einleitung

Viele technische, korpuslinguistische und computerlinguistische Arbeiten des DWDS-Projekts waren und sind nur in Kooperation mit Dritten möglich. In diesem Zusammenhang hat das DWDS in drittmittelfinanzierten Projekten zu Forschungsdateninfrastrukturen, zum Aufbau und der Kuration von Korpora sowie zur Entwicklung von Verfahren zur automatischen Extraktion lexikographischer Informationen aus großen Korpora mitgewirkt. Ebenso war und ist das DWDS auch in nationalen und internationalen Netzwerken der Internetlexikographie beteiligt. Diese Projekte wurden mit DWDS-Beteiligung und organisatorisch im Rahmen des Zentrums Sprache der BBAW durchgeführt. Im Folgenden werden die Kooperationsprojekte kurz beschrieben. Weiterführende Links finden sich am Ende der jeweiligen Beschreibung.

Laufende und abgeschlossene Kooperationsprojekte

CLARIAH-DE

Ziel des von 2019 bis 2021 vom BMBF geförderten Verbundprojekts CLARIAH-DE ist es, die beiden geisteswissenschaftlichen Forschungsinfrastrukturen CLARIN-D und DARIAH-DE zu einer gemeinsamen digitalen Forschungsinfrastruktur zusammenzuführen. Synergiepotenziale sollen ausgeschöpft, Reibungsverluste abgebaut und die Angebote auf diese Weise in der Infrastrukturlandschaft insgesamt gestärkt werden.

CLARIAH-DE ist Teil der European Research Consortia (ERIC) CLARIN und DARIAH.

Hauptziel des an der BBAW durchgeführten Teilprojekts ist es, die vom Projekt DARIAH-DE im TextGrid Repository bereitgestellte Textsammlung „Digitale Bibliothek“ möglichst umfänglich mit der CLARIN-Infrastruktur interoperabel zu machen.


CLARIN-D

CLARIN-D (Common Language Resources and Technology Infrastructure in Deutschland) gehört zum europaweiten CLARIN-Verbund (CLARIN ERIC). Die Projektförderung von CLARIN-D durch das BMBF begann 2011 und endete zum 30.9.2020.

An dem Projekt beteiligt war das DWDS über das Zentrum Sprache der BBAW. Neben der BBAW waren folgende Partner beteiligt: die Universitäten Hamburg, Leipzig, München, Saarbrücken, Stuttgart und Tübingen (Koordinator) sowie das Institut für Deutsche Sprache (Mannheim) und das Max-Planck-Institut für Psycholinguistik in Nijmegen (bis 2016). Ziel von CLARIN-D war die Bereitstellung einer Infrastruktur für die Geistes- und Sozialwissenschaften in Form von Daten- und Servicezentren, die Sprachressourcen und sprachtechnologische Werkzeuge akquirieren, integrieren und der Forschung langfristig zur Verfügung stellen. Die Arbeiten der BBAW konzentrierten sich während der Projektförderung auf den Aufbau historischer Korpora sowie auf die Kuration historischer lexikalischer Daten.

Auf der Basis einer zwischen den CLARIN-D-Partnern getroffenen Nachhaltigkeitsvereinbarung ist die Verfügbarkeit der an der BBAW erstellten Korpusdaten und Softwaredienste über das CLARIN-Servicezentrum der BBAW zunächst bis zum Projektende des DWDS (Dezember 2024) sichergestellt. Ebenso wird über diese Nachhaltigkeitsvereinbarung die Verfügbarkeit und der Betrieb der Webseite des Deutschen Textarchivs sichergestellt.


Deutsches Textarchiv (DTA)

Das Deutsche Textarchiv wurde zwischen 2007 und 2016 von der DFG gefördert und zwischen 2017 und September 2020 im Rahmen des CLARIN-D-Projekts betrieben. Im Rahmen einer zwischen allen CLARIN-D-Partnern getroffenen Nachhaltigkeitsvereinbarung stehen die Daten des DTA für die Recherche weiterhin zur Verfügung.

Ziel des von der DFG geförderten Projekts Deutsches Textarchiv (DTA) war die Erarbeitung einer Grundlage für ein Referenzkorpus des Neuhochdeutschen. Daraus entstand das etwa 1500 Werke umfassende DTA-Kernkorpus, welches einen disziplinen- und gattungsübergreifenden Grundbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900 bereitstellt. Darüber hinaus wurde ein opportunistischen Kriterien folgendes DTA-Erweiterungskorpus erstellt, welches fortlaufend ergänzt wird. Das elektronische Volltextkorpus des DTA ist über das Internet frei zugänglich und dank seiner Aufbereitung durch (computer-)linguistische Methoden schreibweisentolerant über den gesamten Bestand durchsuchbar. Sämtliche Texte stehen zum Download zur Verfügung.

Das DTA-Korpus ist mit dem DWDS-Kernkorpus verknüpft und bildet damit die Basis für die etwa 400 Jahre umfassende Wortverlaufskurve, die in die Webseite des DWDS integriert ist.


ELEXIS

ELEXIS (European Lexicographic Infrastructure) ist ein aus dem Netzwerk für e-Lexicography hervorgegangenes Projekt, in dem sich 17 Partnerinstitutionen aus 35 Ländern zusammengeschlossen haben, um die Zusammenarbeit und den Wissensaustausch zwischen verschiedenen Forschungseinrichtungen in der Lexikographie zu fördern.

Das Ziel des Projektes ist die Erarbeitung gemeinsamer Methoden und Standards für den Aufbau, die Extraktion, Strukturierung und Verknüpfung von lexikographischen Ressourcen, um deren Potential für Linked Open Data, Semantic Web und Digital Humanities zu erschließen. Auf diese Weise sollen auf länderübergreifender Ebene Methoden der Internetlexikographie entwickelt werden.

Das Projekt wird von Februar 2018 bis Januar 2022 im EU-Forschungsrahmenprogramm „Horizon 2020“ (Nr. 731015) gefördert.

Die BBAW besitzt seit Mai 2020 einen Observer-Status und beteiligt sich aktiv an Standardisierungsentwicklungen (insbesondere zu TEI Lex-0).


Evidence

Das Projekt EVIDENCE: Computerunterstützte interaktive Extraktion guter Wörterbuchbeispiele aus großen Korpora ist ein von 2020 bis 2023 von der DFG gefördertes Forschungsprojekt, das am Zentrum Sprache der BBAW in Zusammenarbeit mit dem Fachbereich Informatik/Ubiquitäre Wissensverarbeitung der TU Darmstadt durchgeführt wird.

Das Projekt hat zum Ziel, neue Methoden aus dem Bereich des Deep Learning für die automatische Extraktion guter Belegbeispiele aus großen Korpora für die Wörterbucharbeit anzuwenden. Dabei setzt das Projekt Techniken des interaktiven Preference Learning mit Hilfe vortrainierter großer Deep Learning-Modelle ein. Daraus wird ein System entwickelt, das aus dem Nutzerfeedback lernt, um qualitativ bessere und die Vielfalt der Korpora abdeckende Belege vorzuschlagen.


OCR-D

Ziel der von der DFG seit 2015 geförderten Koordinierten Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR-D) ist die konzeptionelle und technische Vorbereitung der Volltexttransformation der Verzeichnisse der im deutschen Sprachraum erschienenen Drucke (VD).

Für OCR-D sind drei Projektphasen vorgesehen: eine Konzeptions-, eine Modul- und eine Stabilisierungsphase. In der ersten Phase wurden die Entwicklungsbedarfe erhoben, die in der zweiten Phase unter Anleitung des Koordinierungsprojekts von acht Modulprojekten bearbeitet wurden. In der seit April 2021 laufenden dritten Projektphase sollen die Ergebnisse der Modulprojekte stabilisiert und in einen produktiven Einsatz überführt werden. Die Hauptaufgaben des Koordinierungsprojekts sind dabei, die dauerhafte Betreuung und Weiterentwicklung der OCR-D-Software sicherzustellen und die Ergebnisse der Implementierungsarbeiten – stabile, für die Massendigitalisierung einsatzbereite OCR-D-Lösungen – an einen breiten Kreis an künftigen Nutzern zu vermitteln, die diese im Anschluss zur Volltextdigitalisierung der VD-Materialien einsetzen.

An der derzeit geförderten Projektphase beteiligen sich für das Koordinierungsprojekt zusätzlich zu den seit Phase 1 aktiven Projektpartnern BBAW, HAB (Herzog August Bibliothek Wolfenbüttel) und SPK (Staatsbibliothek zu Berlin – Preußischer Kulturbesitz) auch die SUB Göttingen (Niedersächsische Staats- und Universitätsbibliothek Göttingen) sowie die GWDG (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen).


t.evo: Die Evolution von komplexen Textmustern

Ziel des von der DFG zwischen 2019 und 2022 geförderten Projekts „Die Evolution von komplexen Textmustern (t.evo)“ ist es, geeignete Indikatoren für historischen Textmusterwandel anhand zwei sehr verschiedener Textsorten der Gebrauchsliteratur der jüngeren Sprachgeschichte (17. – 19. Jahrhundert) zu ermitteln: die Presseliteratur und die Erbauungsliteratur. Die auf dieser Basis ermittelten Aussagen zu Erscheinungsformen des Textmusterwandels sollen als Basis für die Untersuchung weiterer Textsorten verwendbar sein.

Das Projekt wird in Kooperation zwischen der Universität Paderborn/Lehrstuhl für Germanistische und Allgemeine Sprachwissenschaft und des Zentrums Sprache der BBAW an den Standorten Paderborn und Berlin durchgeführt.


ENEL – abgeschlossen

Das zwischen 2013 und 2017 von der EU als COST-Action geförderte Netzwerk zur Förderung der e-Lexicography ENEL (European Network of Electronic Lexicography) hatte zum Ziel, eine Bündelung der nationalen Initiativen auf dem Gebiet der Internetlexikographie auf europäischer Ebene zu erreichen. An dem Netzwerk beteiligten sich über 250 Wissenschaftler aus 27 Ländern. Die Arbeit des Netzwerks war in vier Teilgebiete unterteilt: die Retrodigitalisierung von Wörterbüchern, die Entwicklung innovativer digitaler Wörterbücher, die Entwicklung von Lösungen für ein integriertes europäisches Internet-Portal sowie die allgemeine lexikographische Diskussion aus paneuropäischer Perspektive.


KobRA – abgeschlossen

KobRA („Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining“) war ein von 2012 bis 2015 vom BMBF gefördertes Verbundprojekt, an dem die TU Dortmund, die Universität Tübingen, das Institut für Deutsche Sprache (Mannheim) und die BBAW beteiligt waren. Im Projekt arbeiteten Partner aus Informatik, Linguistik und Sprachtechnologie gemeinsam daran, die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) zu verbessern.


eHumanities-Zentrum für Historische Lexikographie (ZHistLex) – abgeschlossen

Historische Wörterbücher sind zentrale Instrumente der wortschatzgeschichtlichen Forschung und gleichzeitig wichtige Hilfsmittel für alle wissenschaftlichen Disziplinen, deren Arbeit auf dem Verstehen historischer Texte beruht. Die vom BMBF von 2016 bis 2019 geförderte Projektgruppe „Zentrum für Historische Lexikographie“ entwickelte technische und konzeptionelle Grundlagen für integrierte, digitale Formen der wortgeschichtlichen Dokumentation. Sie arbeitete an der Systematisierung bewährter und innovativer Darstellungs- und Zugriffsweisen in digitalen Wörterbüchern und baute kollaborative Strukturen für die intensivere Zusammenarbeit und Abstimmung historisch-lexikographischer Projekte an den Akademien und den Universitäten auf. Im Projekt wurden außerdem technische Repräsentationen und standardisierte Abfragemöglichkeiten und Schnittstellen für historische Wörterbücher entwickelt, die in anderen Projekten – wie beispielsweise durch das ZDL – nachgenutzt werden können.