Anmelden     Home    Kontakt    Impressum 
 




Testen Sie jetzt die Beta von DWDS 2.0
DWDS · Textbasis · "Juilland-D"-Corpus                      Hilfe  


Kerncorpus

"Juilland-D"-Corpus

Corpus Gesprochene Sprache

Berliner Wendecorpus

 

"Juilland-D"-Corpus

Kurzbeschreibung

Das Corpus "Juilland-D"-Corpus entspricht in Umfang, der Gewichtung der Textsorten sowie der zeitlichen Verteilung den Frequenzwörterbüchern von Juilland et al. für das Französische (1970) und das Italienische (1973):

  1. Zeitraum: 1920-1939
  2. Tokenanzahl: 500.000
  3. Textsorten: Dramen (20%, 6 Werke), Novellen und Kurzgeschichten (20%, 39 Werke), Essays (20%, 23 Werke), journalistische Prosa (20%, 286 Artikel), Wissenschaftsprosa (20%, 38 Werke)

Erstellung einer Frequenzliste aus dem "Juilland-D"-Corpus

wird demnächst freigeschaltet

Ausgangspunkt sind die in XML gemäß der Text Encoding Initiative (TEI) kodierten Texte. Die Schritte der linguistische Aufbereitung sind:

  1. Entfernung der Headerdaten und des xml-Markup
  2. Tokenisierung und Satzendeerkennung
  3. Wortformenzerlegung und Lemmatisierung: TAGH-Morphologie, (TAGH Version 1.0.1)
  4. Part-of-Speech Analyse: Moot Tagger: (Moot Version 2.0.3)

Ergebnis ist das in Sätze zerlegte Dokument im one-word-per-line Format.
Beispiel:

Wortform Lemma POS
Ich     ich     PPER   
glaubte glauben VVFIN  
damals  damals  ADV    
daß     daß     KOUS   
es      es      PPER   
das     die     ART    
Unglück Unglück NN     
war     sein    VAFIN  
das     die     PRELS  
mich    ich     PPER   
belauerte       belauern        VVFIN  

In diesem Satz werden beispielsweise 'glaubte', 'belauerte' vom POS-Tagger als finite Verben getaggt und von der TAGH-Morphologie auf 'glauben' bzw. 'belauern' lemmatisiert. Die Frequenzliste entsteht durch Aufsummierung der verschiedenen Zeilen der Wortform/Lemma/POS-Informationen.

Zum Bezug "Juilland-D"-Corpus und der Frequenzliste

Die Frequenzliste wurde auf der Grundlage des "Juilland-D"-Corpus erstellt. Sonderformen und Zahlen sind nicht enthalten.

Unterschied der Frequenzangaben

Die von der Suchmaschine DDC ausgegebenen Frequenzen beziehen sich auf die Anzahl der Sätze in denen einen Suchbegriff im Corpus vorkommt. Im Falle von Mehrfachvorkommen eines Suchbegriffs in einem Satz unterscheidet sich somit die Frequenzangaben der Suchmaschine von denen der Frequenzliste.

Literatur

Alphonse Juilland; Dorothy Brodin ; Catherine Davidovitch (1970). Frequency dictionary of French words, The Hague: Mouton de Gruyter.

Alphonse Juilland; Vincenzo Traversa (1973). Frequency dictionary of Italian words, The Hague: Mouton de Gruyter.

Alexander Geyken: The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London (Continuum Press), im Erscheinen.