WebXL

Hinweis: Dieses Korpus ist erst nach Anmeldung recherchierbar.

Zur Einführung in die Webkorpora im DWDS …

Empirisch können riesige Textsammlungen Hypothesen genauer oder ausführlicher belegen. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsächlich realisiert wird. Dieses Webkorpus besteht aus einer Auswahl von Webseiten auf Deutsch (vor allem aus Deutschland, Österreich und der Schweiz).

Seit 2020 gibt es im Portal des Digitalen Wörterbuchs der deutschen Sprache (DWDS) ein digital abfragbares Metakorpus, das folgende Webkorpora aggregiert:

Die Basis besteht aus mehreren hunderttausenden unterschiedlichen Webseiten, die wichtige Metadaten wie ein Datum und einen Titel aufweisen, das Korpus enthält also vergleichsweise viele Blogeinträge. Die Webseiten werden sowohl professionell (z. B. Nachrichten- und Firmenseiten) als auch privat (Vereine, Gemeinschaften, Hobbys) betrieben, so dass das Korpus Sprechsituationen unterschiedlichster Art abdeckt. Dabei wird ein Gleichgewicht durch förmliche Kontrollen angestrebt: nur qualitativ bessere Dokumente, für die Metadaten (wie das Datum) sowie Text extrahiert werden konnten, werden zum Teil des Korpus.

Mit Hilfe der Tokens – maschinell identifizierte und von anderen getrennte einzelne Wörter und Satzzeichen, die anschließend mit linguistisch sinnvollen Anmerkungen versehen werden – können Sie das Textkorpus tiefgreifend analysieren. Dabei können Sie auf die hierfür entwickelte Abfragesprache der Suchfunktion zurückgreifen.

Diese Ressource wird über die Zeit verbessert. Leichte Veränderungen sind möglich, die einer qualitativ feineren Kalibrierung entsprechen, sowohl inhaltlich als auch auf der Metadatenebene (z. B. Extraktion des Titels und Heuristiken zur Bestimmung des Veröffentlichungsdatums einer Webseite).

Weitere Informationen