Webkorpora

Das DWDS-Projekt stellt folgende Webkorpora für die Korpusrecherche bzw. für lexikografische Auswertungszwecke zur Verfügung. Die Texte als Ganzes können nicht heruntergeladen werden. Die Suche nach Textzitaten ist über die Webseite kostenfrei möglich.

Blogs

Das Blog-Korpus ist Teil eines künftigen Referenzkorpus zur internetbasierten Kommunikation. Es besteht aus Beiträgen und Kommentaren, die auf Blogs veröffentlicht worden sind. Diese sind mehrheitlich auf Deutsch und die Betreiber haben die Wiederveröffentlichung der Texte mittels Creative-Commons-Lizenzen ausdrücklich gefördert. Aus diesem Grund stehen Korpus und Belege selber unter CC-BY-SA-Lizenz. Das Korpus wird regelmäßig aktualisiert.

Weiterführende Literatur:

  • Adrien Barbaresi, Kay-Michael Würzner (2014): For a fistful of blogs: Discovery and comparative benchmarking of republishable German content. In: Proceedings of NLP4CMC workshop (KONVENS 2014), Hildesheim University Press, S. 2–10. [PDF]

Webkorpus 2016

Hinweis: Dieses Korpus ist seit dem 1. Oktober 2018 nicht mehr recherchierbar. Alternativ können Sie das Webkorpus 2016c nutzen.

Webkorpus 2016b

Hinweis: Dieses Korpus ist seit dem 10. Januar 2019 nicht mehr recherchierbar. Alternativ können Sie das Webkorpus 2016c nutzen.

Webkorpus 2016c

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Empirisch können riesige Textsammlungen Hypothesen genauer oder ausführlicher belegen. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsächlich realisiert wird. Dieses Webkorpus besteht aus einer Auswahl von Webseiten auf Deutsch (vor allem aus Deutschland, Österreich und der Schweiz) und wurde in Zusammenarbeit mit der ÖAW (Academiae Corpora) zusammengestellt. Es beinhaltet derzeit ca. 3,1 Mrd. laufende Wortformen aus 8,2 Mio. Dokumenten. Die Basis besteht aus mehreren hunderttausenden unterschiedlichen Webseiten, die ein Datum aufweisen, das Korpus enthält also vergleichsweise viele Blogeinträge. Die Webseiten werden sowohl professionell (z. B. Nachrichten- und Firmenseiten) als auch privat (Vereine, Gemeinschaften, Hobbys) betrieben, so dass das Korpus Sprechsituationen unterschiedlichster Art abdeckt. Dabei wird ein Gleichgewicht durch Merkmale (eine Untermenge von bis zu 500 Seiten für jede Homepage) und förmliche Kontrollen angestrebt: nur qualitativ bessere Dokumente, für die Metadaten (wie das Datum) sowie Text extrahiert werden konnten, werden zum Teil des Korpus.

Diese Ressource wird über die Zeit verbessert. Leichte Veränderungen sind möglich, die einer qualitativ feineren Kalibrierung entsprechen, sowohl inhaltlich als auch auf der Metadatenebene (z. B. Extraktion des Titels und Heuristiken zur Bestimmung des Veröffentlichungsdatums einer Webseite). Jede neue Version wird mit einem Kennzeichen dokumentiert (z. B. 2016c). Das Korpus enthält Daten bis einschließlich 2016.

Weiterführende Literatur:

Veröffentlichte Softwareteile:

  • Extraktion von dem Datum in beliebigen Webseiten (Github)

IT-Blogs

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Im Fokus dieses Webkorpus stehen Artikel und Blogeinträge zur den Informationstechnologien, die aus ca. 700 Quellen heruntergeladen, gefiltert und zusammengestellt worden sind.

Weiterführende Literatur:

  • Barbaresi, Adrien (2019): The Vast and the Focused: On the need for domain-focused web corpora. In: Proceedings of CMLC-7, Mannheim, pp. 29-32, DOI: 10.14618/ids-pub-9025.

Mode- und Beauty-Blogs

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Diese Textsammlung besteht aus ca. 250 Blogs, die aufgrund ihres Fokus und ihrer Prominenz ausgewählt worden sind. Die Überschneidungen zwischen Mode- und Beauty-Blogs sind zahlreich, noch immer sollte der Bereich Mode als der thematische Schwerpunkt der Auswahl erkennbar sein. Die meisten erfassten Webseiten decken auch ein breiteres, sich in den meisten Fällen stark ähnelndes Themenspektrum ab: Zahlreiche Einträge widmen sich beispielsweise den Themen Lifestyle und Reise, auch Einträge zu Themen wie Familie bzw. Mutterschaft, Essen, Fitness, Interior Design usw. liegen vor. Zwar weist die Auswahl somit eine gewisse thematische Unschärfe auf, diese scheint die Gattung Mode- und Beauty-Blog in ihrer heutigen Gestalt aber auszumachen. Das vorliegende, abfragbare Korpus setzt sich aus den Webseiten zusammen, die gefunden, heruntergeladen und für die Forschung aufbereitet werden konnten.

Weiterführende Literatur:

  • Barbaresi, Adrien (2019): The Vast and the Focused: On the need for domain-focused web corpora. In: Proceedings of CMLC-7, Mannheim, pp. 29-32, DOI: 10.14618/ids-pub-9025.