• Treffer 64 von 176
Zurück zur Trefferliste

Canonicalizing the Deutsches Textarchiv

  • Virtually all conventional text-based natural language processing techniques - from traditional information retrieval systems to full-fledged parsers - require reference to a fixed lexicon accessed by surface form, typically trained from or constructed for synchronic input text adhering strictly to contemporary orthographic conventions. Unconventional input such as historical text which violates these conventions therefore presents difficulties for any such system due to lexical variants present in the input but missing from the application lexicon. To facilitate the extension of synchronically-oriented natural language processing techniques to historical text while minimizing the need for specialized lexical resources, one may first attempt an automatic canonicalization of the input text. This paper provides an informal overview of the various canonicalization techniques currently employed by the Deutsches Textarchiv project at the Berlin-Brandenburg Academy of Sciences and Humanities to prepare a corpus of historical German text for part-of-speech tagging, lemmatization, and integration into a robust online information retrieval system.

Volltext Dateien herunterladen

Metadaten exportieren

Weitere Dienste

Teilen auf Twitter Suche bei Google Scholar
Metadaten
Verfasserangaben:Bryan Jurish
URN:urn:nbn:de:kobv:b4-opus-24433
Dokumentart:Konferenzveröffentlichung
Sprache:Englisch
Datum der Veröffentlichung (online):08.08.2013
Veröffentlichende Institution:Berlin-Brandenburgische Akademie der Wissenschaften
Datum der Freischaltung:08.08.2013
GND-Schlagwort:Korpus <Linguistik>; Deutsch
Quelle:Hafemann, Ingelore (Hrsg.): Perspektiven einer corpusbasierten historischen Linguistik und Philologie : Internationale Tagung des Akademienvorhabens „Altägyptisches Wörterbuch“ an der BBAW, 12.-13. Dezember 2011 (Thesaurus Linguae Aegyptiae ; 4). Berlin, S. 235-244
Institute:BBAW / Akademienvorhaben Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache. Text- und Wissenskultur im alten Ägypten
DDC-Klassifikation:4 Sprache / 43 Deutsch, germanische Sprachen allgemein / 430 Germanische Sprachen; Deutsch
Schriftenreihen in Einzelbeiträgen:BBAW / Schriftenreihen / Thesaurus Linguae Aegyptiae / 4.2013 : Perspektiven einer corpusbasierten historischen Linguistik und Philologie
Verstanden ✔
Diese Webseite verwendet technisch erforderliche Session-Cookies. Durch die weitere Nutzung der Webseite stimmen Sie diesem zu. Unsere Datenschutzerklärung finden Sie hier.