Kerncorpus "Juilland-D"-Corpus Corpus Gesprochene Sprache Berliner Wendecorpus |
"Juilland-D"-CorpusKurzbeschreibungDas Corpus "Juilland-D"-Corpus entspricht in Umfang, der Gewichtung der Textsorten sowie der zeitlichen Verteilung den Frequenzwörterbüchern von Juilland et al. für das Französische (1970) und das Italienische (1973):
Erstellung einer Frequenzliste aus dem "Juilland-D"-Corpuswird demnächst freigeschaltet Ausgangspunkt sind die in XML gemäß der Text Encoding Initiative (TEI) kodierten Texte. Die Schritte der linguistische Aufbereitung sind:
Ergebnis ist das in Sätze zerlegte Dokument im one-word-per-line Format. Wortform Lemma POS Ich ich PPER glaubte glauben VVFIN damals damals ADV daß daß KOUS es es PPER das die ART Unglück Unglück NN war sein VAFIN das die PRELS mich ich PPER belauerte belauern VVFIN In diesem Satz werden beispielsweise 'glaubte', 'belauerte' vom POS-Tagger als finite Verben getaggt und von der TAGH-Morphologie auf 'glauben' bzw. 'belauern' lemmatisiert. Die Frequenzliste entsteht durch Aufsummierung der verschiedenen Zeilen der Wortform/Lemma/POS-Informationen. Zum Bezug "Juilland-D"-Corpus und der FrequenzlisteDie Frequenzliste wurde auf der Grundlage des "Juilland-D"-Corpus erstellt. Sonderformen und Zahlen sind nicht enthalten. Unterschied der FrequenzangabenDie von der Suchmaschine DDC ausgegebenen Frequenzen beziehen sich auf die Anzahl der Sätze in denen einen Suchbegriff im Corpus vorkommt. Im Falle von Mehrfachvorkommen eines Suchbegriffs in einem Satz unterscheidet sich somit die Frequenzangaben der Suchmaschine von denen der Frequenzliste. LiteraturAlphonse Juilland; Dorothy Brodin ; Catherine Davidovitch (1970). Frequency dictionary of French words, The Hague: Mouton de Gruyter. |