Publikationen des DWDS-Projekts
2021
Adrien Barbaresi, 2021 Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations, S. 122–131. |
Zugang zum Volltext |
Adrien Barbaresi und Jens Pohlmann, 2021 A Reproducible IT-Blog Corpus. In: Journal of Open Humanities Data, 7, S. 17. |
Zugang zum Volltext |
Andreas Nolda, Adrien Barbaresi, Alexander Geyken, 2021 Das ZDL-Regionalkorpus: Ein Korpus für die lexikografische Beschreibung der diatopischen Variation im Standarddeutschen. In: Deutsch in Europa, hg. Henning Lobin, Andreas Witt und Angelika Wöllstein. Berlin, Boston: De Gruyter, 2021, S. 317–322. DOI: 10.1515/9783110731514-018 |
|
Johannes Müller-Lancé, Amina Kropp, Katrin Siebel, Alexander Stöckl, 2021 Latein für Romanist*innen – Ergänzungsmaterialien für Lernende und Lehrende. Texte, Übungen, Wortschatz. Narr Francke Attempto: Tübingen 2021. |
2020
Sebastian Göttel, 2020 Daniel Sanders und die niederdeutsche Volkspoesie. In: Grote, Jürgen (Hrsg.): Ratzeburg – Inselstadt an der Grenze Mecklenburgs. Beiträge der Fritz-Reuter-Gesellschaft, Band 30. Rostock: Hinstorff, S. 117–126. |
|
Stefanie Reckenthäler, 2020 Wortbildung korpuslinguistisch betrachtet. Eine empirische Untersuchung possessiver und privativer komplexer Adjektive. Mannheim: Leibniz-Institut für Deutsche Sprache (= amades 57). |
|
Adrien Barbaresi und Alexander Geyken, 2020 Die Webkorpora im DWDS – Strategien des Korpusaufbaus und Nutzungsmöglichkeiten. In: Marx, Konstanze / Lobin, Henning / Schmidt, Axel: Deutsch in Sozialen Medien. Interaktiv, multimodal, vielfältig. Jahrbuch des Instituts für Deutsche Sprache 2019, de Gruyter, S. 345–348. |
|
Adrien Barbaresi, 2020 htmldate: A Python package to extract publication dates from web pages. In: Journal of Open Source Software, 5(51), 2439. |
|
Adrien Barbaresi und Gaël Lejeune, 2020 Out-of-the-Box and into the Ditch? Multilingual Evaluation of Generic Text Extraction Tools. In: Proceedings of the 12th Web as Corpus Workshop, S. 5–13. |
|
Gaël Lejeune und Adrien Barbaresi, 2020 Bien choisir son outil d’extraction de contenu à partir du Web (Choosing the appropriate tool for Web Content Extraction). In: Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 4: Démonstrations et résumés d'articles internationaux, S. 46–49. |
|
Adrien Barbaresi und Gaël Lejeune, 2020 Que recèlent les données textuelles issues du web? (What do text data from the Web have to hide?). In: Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). 2e atelier Éthique et TRaitemeNt Automatique des Langues (ETeRNAL), S. 19–28. |
2019
Stefanie Reckenthäler, 2019 Zum Zusammenhang von Wortbildungsmuster und diskursiver Bedeutung. In: Deutsche Sprache 1/19, S. 68–81. |
Zugang zum Volltext |
Sonja Schweiger, Adrien Barbaresi, Katharina Korecky-Kröll, Jutta Ransmayr, Wolfgang U. Dressler, 2019 Diminutivvariation in österreichischen elektronischen Korpora. Lars Bülow; Ann Kathrin Fischer; Kristina Herbert. Dimensions of Linguistic Space: Variation – Multilingualism – Conceptualisations / Dimensionen des sprachlichen Raums: Variation – Mehrsprachigkeit – Konzeptualisierung, Peter Lang, S. 147-162, 2019, Schriften zur deutschen Sprache in Österreich, 978-3-631-78104-3. DOI: 10.3726/b15250 |
|
Jens Pohlmann, Adrien Barbaresi, 2019 Diving Into The Complexities Of The Tech Blog Sphere. Digital Humanities 2019, ADHO, Utrecht, Netherlands. |
|
Adrien Barbaresi, 2019 The Vast and the Focused: On the need for thematic web and blog corpora. 7th Workshop on Challenges in the Management of Large Corpora (CMLC-7), Cardiff, United Kingdom, pp.29-32. |
|
Steven Coats, Adrien Barbaresi, 2019 Productivity of Anglicism Bases in Hyphenated German Compounds. 7th Conference on CMC and Social Media Corpora for the Humanities (CMC-Corpora2019), Cergy-Pontoise, France, pp.53-58. |
|
Adrien Barbaresi, 2019 Generic Web Content Extraction with Open-Source Software. Proceedings of KONVENS 2019 (Kaleidoskop), Erlangen, Germany. pp.267-268. |
|
Christian Reul, Sebastian Göttel, Uwe Springmann, Christoph Wick, Kay-Michael Würzner und Frank Puppe, 2019 Automatic Semantic Text Tagging on Historical Lexica by Combining OCR and Typography Classification – A Case Study on Daniel Sander’s Wörterbuch der Deutschen Sprache. In: Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage (DaTeCH 2019). Brussels, Belgium — May 08-10, 2019, pp. 33-38. DOI: 10.1145/3322905.3322910 |
2018
Adrien Barbaresi, 2018 Toponyms as Entry Points into a Digital Edition: Mapping Die Fackel. In: Open Information Science Bd. 2,1, De Gruyter, S. 23–33, 2018. |
|
Adrien Barbaresi, 2018 Borderlands of text mapping: Experiments on Fontane's Brandenburg. In: Manuel Burghardt and Claudia Müller-Birn (Hgg.): Workshop INF-DH-2018 (Informatik und die Digital Humanities), Gesellschaft für Informatik e. V. (Bonn), 2018. DOI: 10.18420/infdh2018-05 |
|
Adrien Barbaresi, 2018 Computationally efficient discrimination between language varieties with large feature vectors and regularized classifiers. In: Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (Fifth Workshop on NLP for Similar Languages, Varieties and Dialects), Santa Fe, New Mexico, United States, S. 164–171, 2018. |
|
Adrien Barbaresi und Antonio Ruiz Tinoco, 2018 Using Elasticsearch for Linguistic Analysis of Tweets in Time and Space. In: European Language Resources Association (ELRA) (Hg.): Proceedings of the LREC 2018 Workshop Challenges in the Management of Large Corpora (CMLC-6), Miyazaki, Japan, S. 14–19, 2018. |
|
Adrien Barbaresi, Lothar Lemnitzer und Alexander Geyken, 2018 A database of German definitory contexts from selected web sources. In: European Language Resources Association (ELRA) (Hg.): 11th International Conference on Language Resources and Evaluation (LREC 2018) Miyazaki, Japan, S. 3068–3073, 2018. |
|
Adrien Barbaresi, 2018 A corpus of German political speeches from the 21st century. In: European Language Resources Association (ELRA) (Hg.): 11th Language Resources and Evaluation Conference (LREC 2018) (Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)), Miyazaki, Japan, S. 792–797, 2018. |
|
Adrien Barbaresi, 2018 A Constellation and a Rhizome: Two Studies on Toponyms in Literary Texts. In: Bubenhofer, Noah und Kupietz, Marc (Hgg.): Visualisierung sprachlicher Daten: Visual Linguistics – Praxis – Tools, Heidelberg University Publishing, S. 167–184, 2018. |
|
Jörg Didakowski und Nadja Radtke, 2018 Deutsche Stützverbgefüge in Referenz- und Spezialkorpora: Vergleichsstudien mit dem DWDS-Wortprofil. In: Fuß, Eric et al. (Hgg.): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. |
Zugang zum Volltext |
2017
Alexander Geyken A, Frank Wiegand und Kay-Michael Würzner, 2017 On-the-fly Generation of Dictionary Articles for the DWDS Website. In: Kosem I., Tiberius C., Jakubíček M., Kallas J., Krek S., Baisa V. (eds), Electronic Lexicography in the 21st Century. Proceedings of eLex 2017 Conference, 19-21 September 2017, Leiden, Netherlands . Brno: Lexical Computing CZ s.r.o., 560–570. |
|
Adrien Barbaresi, 2017 Discriminating between Similar Languages using Weighted Subword Features. In: Preslav Nakov, Marcos Zampieri, Nikola Ljubešic, Jörg Tiedemann, Shervin Malmasi und Ahmed Ali (Hg.): Fourth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2017), Proceedings of the Fourth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial), S. 184–189. Association for Computational Linguistics (ACL), 2017. |
|
Adrien Barbaresi und Katrin Hein, 2017 Data-Driven Identification of German Phrasal Compounds. In: Kamil Ekštein und Václav Matoušek (Hg.): Text, Speech, and Dialogue, Bd. 10415 Lecture Notes in Computer Science, S. 192–200. Springer International Publishing, 2017. Proceedings of the 20th International Conference, TSD 2017, Prague, Czech Republic, August 27-31, 2017. |
|
Alexander Geyken, Adrien Barbaresi, Jörg Didakowski, Bryan Jurish, Frank Wiegand und Lothar Lemnitzer, 2017 Die Korpusplattform des „Digitalen Wörterbuchs der deutschen Sprache“ (DWDS). In: Zeitschrift für germanistische Linguistik, Band 45, Heft 2 (Aug 2017). |
Zugang zum Volltext |
Beta Boullosa, Richard Eckart de Castilho, Alexander Geyken, Lothar Lemnitzer und Iryna Gurevych, 2017 A tool for extracting sense-disambiguated example sentences through user feedback. In: Proceedings of the Software Demonstrations of the 15th Conference of the EACL. pp. 69--72. DOI: 10.18653/v1/E17-3018. |
2016
Adrien Barbaresi, 2016 An Unsupervised Morphological Criterion for Discriminating Similar Languages. In Shervin Malmasi, Marcos Zampieri, Nikola Ljubešić, Preslav Nakov, Ahmed Ali, and Jörg Tiedemann, editors, Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial3), pages 212--220. The COLING 2016 Organizing Committee, 2016. |
|
Adrien Barbaresi, 2016 Bootstrapped OCR error detection for a less-resourced language variant. In Stefanie Dipper, Friedrich Neubarth, and Heike Zinsmeister, editors, Proceedings of the 13th Conference on Natural Language Processing (KONVENS 2016), pages 21--26. University of Bochum, 2016. |
|
Adrien Barbaresi, 2016 Efficient construction of metadata-enhanced web corpora. In Paul Cook, Stefan Evert, Roland Schäfer, and Egon Stemle, editors, Proceedings of the 10th Web as Corpus Workshop, pages 7--16. Association for Computational Linguistics, 2016. |
|
Peter Meyer, Axel Herold und Lothar Lemnitzer, 2016 Technische Rahmenbedingungen der Internetlexikografie. In A. Klosa & C. Müller-Spitzer (Hgg.), Internetlexikografie: Ein Kompendium, S. 1–30. Berlin/Boston: Walter de Gruyter. |
Zugang zum Volltext |
Axel Herold, Peter Meyer und Carolin Müller-Spitzer, 2016 Datenmodellierung. In A. Klosa & C. Müller-Spitzer (Hgg.), Internetlexikografie: Ein Kompendium, S. 111–152. Berlin/Boston: Walter de Gruyter. |
Zugang zum Volltext |
Alexander Geyken und Lothar Lemnitzer, 2016 Automatische Gewinnung von lexikografischen Angaben. In A. Klosa & C. Müller-Spitzer (Eds.), Internetlexikografie: Ein Kompendium. (pp. 195–237). Berlin/Boston: Walter de Gruyter. |
Zugang zum Volltext |
2015
Adrien Barbaresi, 2015 Collection, Description, and Visualization of the German Reddit Corpus. In: 2nd Workshop on Natural Language Processing for Computer-Mediated Communication, S. 7–11, 2015. |
|
Adrien Barbaresi, 2015 Ad hoc and general-purpose corpus construction from web sources. PhD thesis, École Normale Supérieure de Lyon, France, 2015. |
|
Adrien Barbaresi, 2015 Challenges in the linguistic exploitation of specialized republishable web corpora. Technical report, BBAW, 2015. Short paper talk at RESAW 2015 conference. |
|
Kay-Michael Würzner und Bryan Jurish, 2015 A hybrid approach to grapheme-phoneme conversion. Paper presented at 12th International Workshop on Finite State Methods and Natural Language Processing. |
|
Kay-Michael Würzner und Bryan Jurish, 2015 Dsolve – Morphological Segmentation for German Using Conditional Random Fields. Paper presented at Fourth Workshop on Systems and Frameworks for Computational Morphology. |
|
Sascha Schroeder, Kay-Michael Würzner, Julian Heister, Alexander Geyken, Reinhold Kliegl, 2015 childLex – Eine lexikalische Datenbank zur Schriftsprache für Kinder im Deutschen. Psychologische Rundschau, 66(3), 155–165. |
Zugang zum Volltext |
Sascha Schroeder, Kay-Michael Würzner, Julian Heister, Alexander Geyken, Reinhold Kliegl, 2015 childLex: A lexical database of German read by children. Behavior Research Methods, 47(4), 1085–1094. |
Zugang zum Volltext |
Lothar Lemnitzer und Kay-Michael Würzner, 2015 Das Wort in der Sprachtechnologie. In U. Haß & P. Storjohann (Eds.), Handbuch Wort und Wortschatz (pp. 297–319). De Gruyter. |
Zugang zum Volltext |
Alexander Geyken, 2015 Lexicogrammatical Patterns and Corpus Evidence in Schemann’s Dictionary of Idioms. In: International Journal of Lexicography, 28(3), S. 299–317. |
|
Alexander Geyken, 2015 Kollokationen im Fußballwortschatz. Der Beitrag des DWDS-Wortprofils. In: J. Born & T. Gloning (Hg.): Sport, Sprache, Kommunikation, Medien: Interdisziplinäre Perspektiven, S. 155–175. |
2014
Adrien Barbaresi, 2014 Language-classified Open Subtitles (LACLOS): Download, Extraction, and Quality Assessment. Technical report, BBAW, 2014. |
|
Adrien Barbaresi und Kay-Michael Würzner, 2014 For a fistful of blogs: Discovery and comparative benchmarking of republishable German content. In Michael Beißwenger and Torsten Zesch, editors, KONVENS 2014, NLP4CMC workshop proceedings, pages 2--10. Hildesheim University Press, 2014. |
|
Adrien Barbaresi, 2014 Finding viable seed URLs for web corpora: A scouting approach and comparative study of available sources. In 9th Web as Corpus Workshop (WaC-9), 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 1--8, Gothenburg, Sweden, 2014. |
|
Axel Herold, 2014 Das Wörterbuch als zentrale Komponente eines digitalen lexikalischen Systems. In Michael Mann (Hg.): Digitale Lexikografie (= Germanistische Linguistik 223–224), S. 155–168. Hildesheim: Olms. |
|
Alexander Geyken, 2014 Methoden bei der Wörterbuchplanung in Zeiten der Internetlexikographie. In: Heid, Ulrich/Schierholz, Stefan/Schweickard, Wolfgang/Wiegand, Herbert Ernst/Gouws, Rufus H./Wolski, Werner (Hg.): Lexicographica. Berlin/New York. S. 77–112. |
|
Alexander Geyken und Thomas Gloning, 2014 A living text archive of 15th—19th century German: Corpus strategies, technology, organization. In: Jost Gippert, Ralf Gehrke (eds), 2014: Corpus Linguistics and Interdisciplinary Perspectives on Language—CLIP, Vol. 5: Historical Corpora: Challenges and Perspectives. Proceedings of the conference Historical Corpora 2012. Narr: Tübingen. |
2013
Adrien Barbaresi, 2013 Challenges in web corpus construction for low-resource languages in a post-BootCaT world. In 6th Language & Technology Conference, Less Resourced Languages special track, pages 69--73, 2013. |
|
Adrien Barbaresi, 2013 Crawling microblogging services to gather language-classified URLs. Workflow and case study. In Annual Meeting of the Association for Computational Linguistics, pages 9--15, Sofia, Bulgaria, 2013. Association for Computational Linguistics. |
|
Kay-Michael Würzner und Thomas Hanneforth, 2013 Parsing morphologically complex words. Paper presented at 11th International Conference on Finite State Methods and Natural Language Processing. |
|
Bryan Jurish und Kay-Michael Würzner, 2013 Word and Sentence Tokenization with Hidden Markov Models. JLCL, 28(2), 61–83. |
|
Bryan Jurish und Kay-Michael Würzner, 2013 Multi-threaded composition of finite-state automata. Paper presented at 11th International Conference on Finite State Methods and Natural Language Processing. |
|
Lothar Lemnitzer, Laurent Romary und Andreas Witt, 2013 Representing human and machine dictionaries in markup languages (SGML / XML). In: Gouws, Rufus Hjalmar / Heid, Ulrich / Schweickard, Wolfgang / Wiegand, Herbert Ernst (edd.). An International Encyclopedia of Lexicography. Supplementary Volume: Recent Developments with Focus on Electronic and Computational Lexicography. De Gruyter, 2013. |
|
Alexander Geyken, 2013 Large-Scale Documentary Dictionaries on the Internet. In: Gouws, Rufus Hjalmar / Heid, Ulrich / Schweickard, Wolfgang / Wiegand, Herbert Ernst (edd.). An International Encyclopedia of Lexicography. Supplementary Volume: Recent Developments with Focus on Electronic and Computational Lexicography. De Gruyter, 2013: 1053-1069. |
|
Haaf, Susanne; Wiegand Frank; Geyken, Alexander, 2013 Measuring the Correctness of Double-Keying: Error Classification and Quality Control in a Large Corpus of TEI-Annotated Historical Text. In: Journal of the Text Encoding Initiative (jTEI), Issue 4 | March 2013 |
Online-Version |
Jörg Didakowski; Alexander Geyken, 2013 From DWDS corpora to a German Word Profile – methodological problems and solutions. In: Network Strategies, Access Structures and Automatic Extraction of Lexicographical Information. 2nd Work Report of the Academic Network "Internet Lexicography". Mannheim: Institut für Deutsche Sprache. (OPAL - Online publizierte Arbeiten zur Linguistik X/2012), S. 43-52. |
|
Alexander Geyken, 2013 Wege zu einem historischen Referenzkorpus des Deutschen: das Projekt Deutsches Textarchiv. In: Perspektiven einer corpusbasierten historischen Linguistik und Philologie. Internationale Tagung des Akademienvorhabens "Altägyptisches Wörterbuch" an der Berlin-Brandenburgischen Akademie der Wissenschaften, 12.-13. Dezember 2011, herausgegeben von Ingelore Hafemann, Berlin 2013, S. 221-234. |
2012
Axel Herold; Lothar Lemnitzer and Alexander Geyken, 2012 Integrating Lexical Resources Through an Aligned Lemma List. In: Christian Chiarcos, Sebastian Nordhoff und Sebastian Hellmann (Hgg.): Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata. Heidelberg:Springer 2012, S. 35-44. |
|
Michael Beißwenger; Maria Ermakova; Alexander Geyken; Lothar Lemnitzer; Angelika Storrer, 2012 A TEI Schema for the Representation of Computer-mediated Communication. In: Journal of the Text Encoding Initiative; issue 3. |
Online-Version |
Michael Beißwenger; Maria Ermakova; Alexander Geyken; Lothar Lemnitzer; Angelika Storrer, 2012 DeRiK: A German Reference Corpus of Computer-Mediated Communication. In: Proceedings of Digital Humanities 2012. |
|
Jörg Didakowski; Alexander Geyken; Lothar Lemnitzer, 2012 Automatic example sentence extraction for a contemporary German dictionary. In: Proceedings EURALEX 2012, Oslo, S. 343-349. ISBN 978-82-303-2228-4. |
|
Alexander Geyken und Lothar Lemnitzer, 2012 Using Google Books Unigrams to Improve the Update of Large Monolingual Reference Dictionaries. In: Proceedings EURALEX 2012, Oslo, S. 362-366. ISBN 978-82-303-2228-4. |
|
Alexander Geyken; Thomas Gloning; Thomas Stäcker, 2012 Panel: Compiling large historical reference corpora of German: Quality Assurance, Interoperability and Collaboration in the Process of Publication of Digitized Historical Prints, Digital Humanites Conference, Hamburg 2012. |
|
Alexander Geyken; Susanne Haaf; Frank Wiegand, 2012 The DTA ‘base format’. A TEI-Subset for the Compilation of Interoperable Corpora. In: Jancsary, Jeremy (Hg.): 11th Conference on Natural Language Processing (KONVENS) - Empirical Methods in Natural Language Processing, Proceedings of the Conference. Wien. |
|
Alexander Geyken; Susanne Haaf; Bryan Jurish; Matthias Schulz; Christian Thomas; Frank Wiegand, 2012 TEI und Textkorpora. Fehlerklassifikation und Qualitätskontrolle vor, während und nach der Texterfassung im Deutschen Textarchiv. In: Jb. für Computerphilologie, Jg. 9. |
|
Henrik Dittmann; Matej Durco; Alexander Geyken; Tobias Roth and Kai Zimmer, 2012 Korpus C4: A distributed corpus of German varieties. In: Schmidt, Thomas and Kai Wörner (eds.), Multilingual Corpora and Multilingual Corpus Analysis, 2012. S. 339–346. |
2011
Alexander Geyken, 2011 Statistische Wortprofile zur schnellen Analyse der Syntagmatik in Textkorpora. In Andrea Abel, Renata Zanin (Hrsg.). Korpora in Lehre und Forschung. Bozen-Bolzano University Press, S. 115-137. |
|
Alexander Geyken, 2011 Die dynamische Verknüpfung von Kollokationen mit Korpusbelegen und deren Repräsentation im DWDS-Wörterbuch. (OPAL - Online publizierte Arbeiten zur Linguistik 2/2011), S. 9-22. |
|
Lothar Lemnitzer, 2011 Making sense of nonce words. In: Margrethe Heidemann Andersen / Jörgen Nörby Jensen (eds.): Nye Ord. Kopenhagen 2011 (= Sprognaevets Konferenceserie 1), S. 7-18. |
|
Axel Herold, 2011 Retrodigitalisierung und Modellierung des Wörterbuchs der deutschen Gegenwartssprache. In: Andreas Krafft / Carmen Spiegel (Hgg.): Sprachliche Förderung und Weiterbildung - transdisziplinär. Frankfurt:Peter Lang 2011 (=Forum angewandte Linguistik 51). |
|
Julian Heister; Kay-Michael Würzner; Johannes Bubenzer; Edmund Pohl; Thomas Hanneforth; Alexander Geyken und Reinhold Kliegl, 2011 dlexDB - eine lexikalische Datenbank für die psychologische und linguistische Forschung. Psychologische Rundschau, 62(1):10-20, 2011. |
|
Alexander Geyken, Susanne Haaf, Bryan Jurish, Matthias Schulz, Jakob Steinmann, Christian Thomas und Frank Wiegand, 2011 Das Deutsche Textarchiv: Vom historischen Korpus zum aktiven Archiv. In: Digitale Wissenschaft. Stand und Entwicklung digital vernetzter Forschung in Deutschland, 20./21. September 2010. Beiträge der Tagung. Hrsg. von Silke Schomburg, Claus Leggewie, Henning Lobin und Cornelius Puschmann. 2., ergänzte Fassung. hbz, 2011, S. 157-161. |
2010
Lothar Lemnitzer und Heike Zinsmeister, 2010 Korpuslinguistik. Eine Einführung. 2. Auflage. Tübingen:GNV 2010. |
|
Lothar Lemnitzer, 2010 Neologismenlexikographie und Internet. In Lexicographica (2010). Herausgegeben von Heid, Ulrich; Schierholz, Stefan; Schweickard, Wolfgang; Wiegand, Herbert Ernst; Gouws, Rufus H.; und Wolski, Werner, S. 65-78. |
|
Jörg Didakowski, 2010 "Robust Parsing as a Constraint Optimization Problem within a Finite-state Approach", in: T. Hanneforth und G. Fanselow (Hrsg.), Language and Logos: Studies in Theoretical and Computational Linguistics, Akademie Verlag (studia grammatica 72), S. 269-296. |
|
Wolfgang Klein und Alexander Geyken, 2010 Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: Heid, Ulrich/Schierholz, Stefan/Schweickard, Wolfgang/Wiegand, Herbert Ernst/Gouws, Rufus H./Wolski, Werner (Hg.):Lexikographica. Berlin/New York, S. 79-93. |
|
Alexander Geyken, 2010 Statistical Variations of German Support Verb Constructions in Very Large Corpora. In: Gilles-Maurice de Schryver (ed.). A Way with Words: Recent Advances in Lexical Theory and Analysis. A Festschrift for Patrick Hanks. Menha Publishers: Gent (Belgium), p. 169-187. |
2009
Stefan Engelberg und Lothar Lemnitzer, 2009 Lexikographie und Wörterbuchbenutzung. 4. Auflage, Tübingen:Stauffenburg. 2009. |
|
Alexander Geyken; Jörg Didakowski; Alexander Siebert, 2009 "Generation of word profiles for large German corpora", in: Y. Kawaguchi et al. (Hrsg.), Corpus Analysis and Variation in Linguistics, Tokyo University of Foreign Studies, Studies in Linguistics 1, John Benjamins Publishing Company, S. 141-157. |
|
Alexander Geyken, 2009 Automatische Wortschatzerschließung großer Textkorpora am Beispiel des DWDS. In Annelies Häcki Buhofer (Hg.). Fortschritte in Sprach- und Textkorpusdesign und linguistischer Korpusanalyse II. Linguistik online 39, 3/2009. |
Online-Version |
2008
Jörg Didakowski, 2008 "Local Syntactic Tagging of Large Corpora Using Weighted Finite State Transducers", in: A. Storrer et al. (Hrsg.), Text Resources and Lexical Knowledge -- Selected Papers from the 9th Conference on Natural Language Processing, KONVENS 2008, Mouton de Gruyter, S. 65-78. |
|
Jörg Didakowski, Marko Drotschmann, 2008 "Proper Noun Recognition and Classification Using Weighted Finite State Transducers", in: J. Piskorski et al. (Hrsg.), Post-proceedings of the 7th International Workshop FSMNLP 2008, Frontiers in Artificial Intelligence and Applications, Bnd. 191, IOS Press, S. 50-61. |
|
Alexander Geyken; Jörg Didakowski; Alexander Siebert, 2008 Generation of Word Profiles on the Basis of a Large and Balanced German Corpus. In: Proceedings of the XIII EURALEX International Congress. Euralex 2008, S. 371-385. |
|
Jörg Didakowski, 2008 "SynCoP - Combining Syntactic Tagging with Chunking Using Weighted Finite State Transducers", in: T. Hanneforth and K.-M. Würzner (Hrsg.), Finite-State Methods and Natural language Processing, 6th International Workshop, FSMNLP 2007, Universitätsverlag Potsdam, S. 107-118. |
|
Alexander Geyken, 2008 Quelques problèmes observés dans l’élaboration de dictionnaires à partir de corpus. Langages, Construction des faits en linguistique : la place des corpus, numéro dirigé par Marcel Cori, Sophie David & Jacqueline Léon, 2008, 171, p. 77-94. |
|
Thomas Schmidt, Alexander Geyken und Angelika Storrer, 2008 Refining and Exploiting the Structural Markup of the eWDG. Proceedings of the XIII EURALEX International Congress. Euralex 2008, 469-483. |
|
Storrer, Angelika; Geyken, Alexander; Siebert, Alexander; Würzner, Kay-Michael, 2008 Text Resources and Lexical Knowledge. Selected Papers from the 9th Conference on Natural Language Processing Konvens 2008. Berlin/New York: Mouton de Gruyter. |
|
Alexander Geyken, Jörg Didakowski and Alexander Siebert, 2008 Generation of word profiles on the Basis of a Large and Balanced German Corpus. Proceedings of the XIII EURALEX International Congress. Euralex 2008, 371-383. |
|
Axel Herold und Alexander Geyken, 2008 Adaptive Word Sense Views for the Dictionary Database eWDG: The case of definition assignment. In Storrer, Angelika; Geyken, Alexander; Siebert, Alexander; Würzner, Kay-Michael (eds.) (2008): Text Resources and Lexical Knowledge. Selected Papers from the 9th Conference on Natural Language Processing Konvens 2008. Berlin/New York: Mouton de Gruyter, 209-223. |
2007
Jörg Didakowski, Alexander Geyken, Thomas Hanneforth, 2007 "Eigennamenerkennung zwischen morphologischer Analyse und Part-of-Speech Tagging: ein automatentheoriebasierter Ansatz", in: Zeitschrift für Sprachwissenschaft 26, S. 157-186 |
|
Alexander Geyken, 2007 The DWDS corpus: A reference corpus for the German language of the 20th century. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational as¬pects. London, S. 23-41. |
|
Alexander Geyken und Alexey Sokirko, 2007 Classifying NVG/FVG in an interactive parsing process. In: Fellbaum, Christiane (Hg.): Collocations and Idioms: Linguistic, lexicographic, and computational as¬pects. London, S. 41-54. |
2006
Alexander Geyken und Thomas Hanneforth, 2006 TAGH: A Complete Morphology for German based on Weighted Finite State Automata. In A. Yli-Jyrä, L. Karttunen, and J. Karhumäki, editors, Finite State Methods and Natural Language Processing, pages 55–66. Springer, Berlin, Heidelberg, 2006. |
|
Alexander Geyken; Norbert Schrader, 2006 LexikoNet, a lexical database based on role and type hierarchies. In Proceedings of LREC 2006, May 22-28, 2006, Genua. |
|
Christiane Fellbaum, Alexander Geyken, Axel Herold, Fabian Koerner and Gerald Neumann, 2006 Corpus-based Studies of German Idioms and Light Verbs. In: International Journal of Lexicography (2006) 19 (4): 349-360. |
2005
Jörg Didakowski, 2005 Robustes Parsing und Disambiguierung mit gewichteten Transduktoren, Linguistics in Potsdam, Bd.23, Universitätsverlag Potsdam. |
|
Alexander Geyken, 2005 Lexicon Grammars. In Encyclopedia of Language and Linguistics, 2nd Ed., Vol. 7, p.134-138, edited by Keith Brown, Elsevier: Oxford. |
|
Christiane Fellbaum und Alexander Geyken, 2005 Transforming a Corpus into a Lexical Resource-The Berlin Idiom Project. Revue française de linguistique appliquée, p. 49-63. |
2004
Alexander Geyken, 2004 Korpora als Korrektiv für einsprachige Wörterbücher. In: Zeitschrift für Literaturwissenschaft und Linguistik. H. 136, 2004, S. 72-100. |
|
Alexander Geyken, 2004 Bootstrapping a database of German multi-word expressions. In: LREC 2004 Proceedings, 2004, p. 911-914. |
|
Gerald Neumann, Christiane Fellbaum, Alexander Geyken, Axel Herold, Christiane Hümmer, Fabian Körner, Undine Kramer, Kerstin Krell, Alexey Sokirko, Diana Stantcheva, Ekatherini Stathi, 2004 Proceedings of the Workshop on Enhancing and Using Electronic Dictionaries Pages 49-52, Association for Computational Linguistics, Stroudsburg, PA, USA |
2003
Alexander Geyken und Jordan Boyd-Graber, 2003 Automatic classification of multi-word expressions in print dictionaries. In: Linguisticae Investigationes, 26. Jg. (2003), H. 2, S. 187-202. |