Webkorpora

Übersicht

Einführung

In der modernen Lexikografie werden die Aussagen zu den sprachlichen Aspekten und Eigenschaften der beschriebenen Wörter und zu Besonderheiten ihrer Verwendung auf Korpusevidenz gestützt. Mit Hilfe großer Korpora können Hypothesen zur Verwendung lexikalischer Einheiten empirisch belegt werden. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsächlich realisiert wird.

Zu diesem Zweck werden auf der DWDS-Webseite neben den zeitlich und nach Textsorten ausgewogenen Referenzkorpora und den Zeitungskorpora eine Reihe von allgemeinen und spezialisierten Korpora angeboten, die hinsichtlich ihres Gegenstandes oder ihrer sprachlichen Charakteristika von den erstgenannten Korpora abweichen. Die folgenden Webkorpora bilden einen wesentlichen Bestandteil dieser Spezialkorpora: Das DWDS-Projekt stellt sie für die Korpusrecherche bzw. für lexikografische Auswertungszwecke zur Verfügung.

Inhalt der Webkorpora

Die Webkorpora basieren auf einer Auswahl von Webseiten auf Deutsch (vor allem aus Deutschland, Österreich und der Schweiz). Auf der einen Seite gibt es allgemeingültige, universell einsetzbare Korpora, die für eine Vielzahl von Nutzungsszenarien nützlich sein sollen. Auf der anderen Seite gibt es spezifische Korpora aus bereits bekannten oder händisch überprüften Quellen, die möglicherweise reichere Metadaten beinhalten und auf bestimmte Forschungsziele ausgerichtet sind, wie beispielsweise Studien zu internetbasierter Kommunikation oder Sprachvariation.

Korpus Zugang Quellen Dokumente in Tsd. Tokens in Mio.
WebXL Anmeldung 262 375 25 116 11 044
Webkorpus Anmeldung 259 966 21 483 8 569
Jurakorpus Anmeldung 1 150 589 822
Medizinkorpus Anmeldung 747 668 268
Corona-Korpus Anmeldung 217 71 50
Mode- und Beauty-Blogs Anmeldung 492 569 310
IT-Blogs Anmeldung 498 1 508 916
Blogs frei 918 229 109

Zusammenstellung

Es gibt kein umfassendes Verzeichnis von Webseiten oder Blogs, von dem man bei der Zusammenstellung eines Webkorpus ausgehen könnte; außerdem können sich Webstrukturen schnell ändern. Die Seiten werden also zunächst „entdeckt“, indem die deutschsprachige Websphäre maschinell erkundet (Webcrawling) und daraufhin bezüglich ihrer Qualität bewertet wird. Bei diesem Vorgehen wird ein Gleichgewicht durch statistische Merkmale (z. B. der Anteil von Text bei Stichproben für jede Homepage) und formale Kontrollen hinsichtlich des Haupttextes und der Metadaten angestrebt. Dabei werden qualitativ bessere Dokumente bevorzugt, die zum Beispiel Fließtext beinhalten. Außerdem spielen Metadaten eine wichtige Rolle, beispielsweise müssen die Texte im Kontext der lexikografischen Forschung datierbar sein.

Verarbeitung und Reproduzierbarkeit

Die Originalsammlung selbst darf nicht uneingeschränkt kopiert und weitergegeben werden. Die Suche nach Textzitaten ist über die Webseite kostenfrei möglich, die Texte als Ganzes können jedoch nicht heruntergeladen werden. Anhand der folgenden frei verfügbaren Komponenten werden Download und Verarbeitung reproduzierbar:

  • Download von Webseiten und generische Extraktion von Text, Metadaten und Kommentaren, Verwaltung der Sammlung und Export als Text, CSV, JSON und XML/TEI-XML (trafilatura)
  • Extraktion und Bestimmung des Veröffentlichungsdatums einer Webseite (htmldate)
  • Verwaltung von URL-Listen: Bereinigung, Auswahl und Sampling (courlan)

Bei Interesse an den Quelltexten siehe diese Anleitung: Tutorial: DWDS-Korpusdaten reproduzieren

Weitere Informationen

Ältere Versionen

Webkorpus 2016c (Version vom Oktober 2018)

Hinweis: Dieses Korpus ist seit dem 1. Dezember 2020 nicht mehr recherchierbar. Alternativ können Sie jetzt schon das Metakorpus WebXL nutzen.

Webkorpus 2016b (Version vom Dezember 2017)

Hinweis: Dieses Korpus ist seit dem 10. Januar 2019 nicht mehr recherchierbar. Alternativ können Sie das Metakorpus WebXL nutzen.

Webkorpus 2016 (Version vom Januar 2017)

Hinweis: Dieses Korpus ist seit dem 1. Oktober 2018 nicht mehr recherchierbar. Alternativ können Sie das Metakorpus WebXL nutzen.