Webkorpus

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Empirisch können riesige Textsammlungen Hypothesen genauer oder ausführlicher belegen. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsächlich realisiert wird. Dieses Webkorpus besteht aus einer Auswahl von Webseiten auf Deutsch (vor allem aus Deutschland, Österreich und der Schweiz). Die Basis besteht aus mehreren hunderttausenden unterschiedlichen Webseiten, die wichtige Metadaten wie ein Datum und einen Titel aufweisen, das Korpus enthält also vergleichsweise viele Blogeinträge. Die Webseiten werden sowohl professionell (z. B. Nachrichten- und Firmenseiten) als auch privat (Vereine, Gemeinschaften, Hobbys) betrieben, so dass das Korpus Sprechsituationen unterschiedlichster Art abdeckt. Dabei wird ein Gleichgewicht durch förmliche Kontrollen angestrebt: nur qualitativ bessere Dokumente, für die Metadaten (wie das Datum) sowie Text extrahiert werden konnten, werden zum Teil des Korpus.

Diese Ressource wird über die Zeit verbessert. Leichte Veränderungen sind möglich, die einer qualitativ feineren Kalibrierung entsprechen, sowohl inhaltlich als auch auf der Metadatenebene (z. B. Extraktion des Titels und Heuristiken zur Bestimmung des Veröffentlichungsdatums einer Webseite).

Dieses Korpus ist auch Teil des Metakorpus WebXL.

Weitere Informationen

Bild von Pete Linforth auf Pixabay

Informationen

Kategorie: Webkorpora
Verfügbarkeit: nach Anmeldung recherchierbar

Statistiken

Dokumente: 21 482 956
Sätze: 555 738 087
Tokens: 8 569 161 221
Quellen: 259 966
Aktualisierung der Quelldaten: 25.08.2020
Korpusindizierung: 15.09.2020

Weitere Statistiken ...

Weitere Tools