Webkorpora
Übersicht
Einführung
In der modernen Lexikografie werden die Aussagen zu den sprachlichen Aspekten und Eigenschaften der beschriebenen Wörter und zu Besonderheiten ihrer Verwendung auf Korpusevidenz gestützt. Mit Hilfe großer Korpora können Hypothesen zur Verwendung lexikalischer Einheiten empirisch belegt werden. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsächlich realisiert wird.
Zu diesem Zweck werden auf der DWDS-Webseite neben den zeitlich und nach Textsorten ausgewogenen Referenzkorpora und den Zeitungskorpora eine Reihe von allgemeinen und spezialisierten Korpora angeboten, die hinsichtlich ihres Gegenstandes oder ihrer sprachlichen Charakteristika von den erstgenannten Korpora abweichen. Die folgenden Webkorpora bilden einen wesentlichen Bestandteil dieser Spezialkorpora: Das DWDS-Projekt stellt sie für die Korpusrecherche bzw. für lexikografische Auswertungszwecke zur Verfügung.
Inhalt der Webkorpora
Die Webkorpora basieren auf einer Auswahl von Webseiten auf Deutsch (vor allem aus Deutschland, Österreich und der Schweiz). Auf der einen Seite gibt es allgemeingültige, universell einsetzbare Korpora, die für eine Vielzahl von Nutzungsszenarien nützlich sein sollen. Auf der anderen Seite gibt es spezifische Korpora aus bereits bekannten oder händisch überprüften Quellen, die möglicherweise reichere Metadaten beinhalten und auf bestimmte Forschungsziele ausgerichtet sind, wie beispielsweise Studien zu internetbasierter Kommunikation oder Sprachvariation.
Korpus | Zugang | Quellen | Dokumente in Tsd. | Tokens in Mio. |
---|---|---|---|---|
WebXL | Anmeldung | 261 089 | 25 755 | 11 419 |
Webkorpus | Anmeldung | 258 406 | 21 483 | 8 569 |
Webkorpus Ballsportarten | Anmeldung | 383 | 638 | 375 |
Webmonitor | Anmeldung | 1 106 | 5 701 | 2 810 |
Jurakorpus | Anmeldung | 1 143 | 589 | 822 |
Medizinkorpus | Anmeldung | 743 | 668 | 268 |
Corona-Korpus | Anmeldung | 215 | 71 | 50 |
Mode- und Beauty-Blogs | Anmeldung | 491 | 569 | 310 |
IT-Blogs | Anmeldung | 496 | 1 508 | 916 |
Blogs | frei | 918 | 229 | 109 |
Zusammenstellung
Es gibt kein umfassendes Verzeichnis von Webseiten oder Blogs, von dem man bei der Zusammenstellung eines Webkorpus ausgehen könnte; außerdem können sich Webstrukturen schnell ändern. Die Seiten werden also zunächst „entdeckt“, indem die deutschsprachige Websphäre maschinell erkundet (Webcrawling) und daraufhin bezüglich ihrer Qualität bewertet wird. Bei diesem Vorgehen wird ein Gleichgewicht durch statistische Merkmale (z. B. der Anteil von Text bei Stichproben für jede Homepage) und formale Kontrollen hinsichtlich des Haupttextes und der Metadaten angestrebt. Dabei werden qualitativ bessere Dokumente bevorzugt, die zum Beispiel Fließtext beinhalten. Außerdem spielen Metadaten eine wichtige Rolle, beispielsweise müssen die Texte im Kontext der lexikografischen Forschung datierbar sein.
Verarbeitung und Reproduzierbarkeit
Die Originalsammlung selbst darf nicht uneingeschränkt kopiert und weitergegeben werden. Die Suche nach Textzitaten ist über die Webseite kostenfrei möglich, die Texte als Ganzes können jedoch nicht heruntergeladen werden. Anhand der folgenden frei verfügbaren Komponenten werden Download und Verarbeitung reproduzierbar:
- Download von Webseiten und generische Extraktion von Text, Metadaten und Kommentaren, Verwaltung der Sammlung und Export als Text, CSV, JSON und XML/TEI-XML (trafilatura)
- Extraktion und Bestimmung des Veröffentlichungsdatums einer Webseite (htmldate)
- Verwaltung von URL-Listen: Bereinigung, Auswahl und Sampling (courlan)
Bei Interesse an den Quelltexten siehe diese Anleitung: Tutorial: DWDS-Korpusdaten reproduzieren
Weitere Informationen und Zitierbarkeit
DWDS-Plattform
- Alexander Geyken, Adrien Barbaresi, Jörg Didakowski, Bryan Jurish, Frank Wiegand und Lothar Lemnitzer (2017): Die Korpusplattform des „Digitalen Wörterbuchs der deutschen Sprache“ (DWDS). In: Zeitschrift für germanistische Linguistik, 45(2), S. 327–344.
Veröffentlichungen zu den Webkorpora
- Adrien Barbaresi (2021): Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations, S. 122–131.
- Adrien Barbaresi und Jens Pohlmann (2021): A Reproducible IT-Blog Corpus. In: Journal of Open Humanities Data, 7, S. 17.
- Adrien Barbaresi und Alexander Geyken (2020): Die Webkorpora im DWDS – Strategien des Korpusaufbaus und Nutzungsmöglichkeiten. In: Marx, Konstanze/Lobin, Henning/Schmidt, Axel. Jahrbuch des Instituts für Deutsche Sprache 2019, de Gruyter, S. 345–348, 2020, 978-3-11-067886-4.
- Adrien Barbaresi (2019): The Vast and the Focused: On the need for domain-focused web corpora. In: Proceedings of CMLC-7, Mannheim, S. 29–32, DOI: 10.14618/ids-pub-9025.
- Adrien Barbaresi (2016): Efficient construction of metadata-enhanced web corpora. In: Proceedings of the 10th Web as Corpus Workshop, ACL, 2016, S. 7–16.
- Adrien Barbaresi (2015): Ad hoc and general-purpose corpus construction from web sources. Doktorarbeit, ENS Lyon.
- Adrien Barbaresi und Kay-Michael Würzner (2014): For a fistful of blogs: Discovery and comparative benchmarking of republishable German content. In: Proceedings of NLP4CMC workshop (KONVENS 2014), Hildesheim University Press, S. 2–10. [PDF]
Ältere Korpusversionen
Webkorpus 2016c (Version vom Oktober 2018)
Hinweis: Dieses Korpus ist seit dem 1. Dezember 2020 nicht mehr recherchierbar. Alternativ können Sie jetzt schon das Metakorpus WebXL nutzen.
Webkorpus 2016b (Version vom Dezember 2017)
Hinweis: Dieses Korpus ist seit dem 10. Januar 2019 nicht mehr recherchierbar. Alternativ können Sie das Metakorpus WebXL nutzen.
Webkorpus 2016 (Version vom Januar 2017)
Hinweis: Dieses Korpus ist seit dem 1. Oktober 2018 nicht mehr recherchierbar. Alternativ können Sie das Metakorpus WebXL nutzen.

Webkorpora im DWDS