Webkorpora

Das DWDS-Projekt stellt folgende Webkorpora für die Korpusrecherche bzw. für lexikografische Auswertungszwecke zur Verfügung. Die Texte als Ganzes können nicht heruntergeladen werden. Die Suche nach Textzitaten ist über die Webseite kostenfrei möglich.

Blogs

Das Blog-Korpus ist Teil eines künftigen Referenzkorpus zur internetbasierten Kommunikation. Es besteht aus Beiträgen und Kommentaren, die auf Blogs veröffentlicht worden sind. Diese sind mehrheitlich auf Deutsch und die Betreiber haben die Wiederveröffentlichung der Texte mittels Creative-Commons-Lizenzen ausdrücklich gefördert. Aus diesem Grund stehen Korpus und Belege selber unter CC-BY-SA-Lizenz. Das Korpus wird regelmäßig aktualisiert.

Weiterführende Literatur:

  • Adrien Barbaresi, Kay-Michael Würzner, 2014: For a fistful of blogs: Discovery and comparative benchmarking of republishable German content. In: Proceedings of NLP4CMC workshop (KONVENS 2014), Hildesheim University Press, S. 2-10. [PDF]

Webkorpus 2016

Hinweis: Dieses Korpus ist seit dem 1. Oktober 2018 nicht mehr recherchierbar. Alternativ können Sie das Webkorpus 2016c nutzen.

Webkorpus 2016b

Hinweis: Dieses Korpus ist seit dem 10. Januar 2019 nicht mehr recherchierbar. Alternativ können Sie das Webkorpus 2016c nutzen.

Webkorpus 2016c

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Empirisch können riesige Textsammlungen Hypothesen genauer oder ausführlicher belegen. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsächlich realisiert wird. Dieses Webkorpus besteht aus einer Auswahl von Webseiten auf Deutsch (vor allem aus Deutschland, Österreich und der Schweiz) und wurde in Zusammenarbeit mit der ÖAW (Academiae Corpora) zusammengestellt. Es beinhaltet derzeit ca. 3,1 Mrd. laufende Wortformen aus 8,2 Mio. Dokumenten. Die Basis besteht aus mehreren hunderttausenden unterschiedlichen Webseiten, die ein Datum aufweisen, das Korpus enthält also vergleichsweise viele Blogeinträge. Die Webseiten werden sowohl professionell (z. B. Nachrichten- und Firmenseiten) als auch privat (Vereine, Gemeinschaften, Hobbys) betrieben, so dass das Korpus Sprechsituationen unterschiedlichster Art abdeckt. Dabei wird ein Gleichgewicht durch Merkmale (eine Untermenge von bis zu 500 Seiten für jede Homepage) und förmliche Kontrollen angestrebt: nur qualitativ bessere Dokumente, für die Metadaten (wie das Datum) sowie Text extrahiert werden konnten, werden zum Teil des Korpus.

Diese Ressource wird über die Zeit verbessert. Leichte Veränderungen sind möglich, die einer qualitativ feineren Kalibrierung entsprechen, sowohl inhaltlich als auch auf der Metadatenebene (z. B. Extraktion des Titels und Heuristiken zur Bestimmung des Veröffentlichungsdatums einer Webseite). Jede neue Version wird mit einem Kennzeichen dokumentiert (z. B. 2016c). Das Korpus enthält Daten bis einschließlich 2016.

Weiterführende Literatur:

Veröffentlichte Softwareteile:

  • Extraktion von dem Datum in beliebigen Webseiten (Github)

IT-Blog-Korpus (1996–2019)

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Im Fokus dieses Webkorpus stehen Artikel und Blogeinträge zur den Informationstechnologien, die aus ca. 200 Quellen heruntergeladen, gefiltert und zusammengestellt worden sind.