Refine
Year of publication
- 2013 (11)
Document Type
- Conference Proceeding (11) (remove)
Language
- German (6)
- English (4)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (11) (remove)
Has Fulltext
- yes (11)
Institute
- Akademienvorhaben Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache. Text- und Wissenskultur im alten Ägypten (11) (remove)
Die internationale Tagung „Perspektiven einer corpusbasierten historischen Linguistik und Philologie“ vom 12. – 13. Dezember 2011 am Akademienvorhaben „Altägyptisches Wörterbuch“ der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) war dem Thema des Aufbaus und der Nutzungsperspektiven elektronischer Textcorpora und Wörterbücher in den historischen Sprachen gewidmet. Die Teilnehmer, Vertreter der Ägyptologie, der Hethitologie, Indogermanistik sowie Referenten aus der historischen Lexikographie des Mittel- und Frühneuhochdeutschen und des Altfranzösischen diskutierten vor allem über die Veränderungen, die mit dem Einsatz elektronischer Erfassungs- und Verarbeitungsprozeduren einhergehen.
Es werden die Begriffe Textsorte / Textgattung und Diskurstradition erläutert und ihr Nutzen für die Lexikographie diskutiert. Anhand zweier ausgewählter Beispiel werden die lexikalischen Probleme erläutert, die die eindeutige Zuweisung dieser Texte zu Textsorten erschweren. Ebenso ist die Differenzierung nach Diskurstraditionen auf Grund der in der Textlinguistik üblichen Beschreibungssysteme für verschieden Diskursvarietäten am konkreten Text nicht immer eindeutig. Beispiele für Intertextualität und Textsorteninseln werden diskutiert, und es wird für eine verfeinerte Beschreibung der Texte in elektronischer Form plädiert.
Der zentrale Gegenstand dieses Beitrags ist die Frage, wie Themen als grundlegende Aspekte der sprachlichen Verständigung mit dem Wortgebrauch zusammenhängen und wie diese Zusammenhänge - die thematische Prägung des Wortgebrauchs - auch für die lexikographisch-lexikologische Dokumentation des Wortgebrauchs fruchtbar gemacht werden kann. Es wird auf Ergebnisse der Gesprächsforschung, der Textlinguistik und der Diskursforschung zurückgegriffen. Anhand von Beispielen (u.a. aus den Themenbereichen Rassenhygiene, Naturschutz, Sport/Fußball, Hygiene, Technik und Haushalt) werden Vorschläge gemacht, wie man den Themenbezug historischer Kommunikation und die thematische Prägung lexikalischer Mittel auch in lexikographischen Darstellungen stärker verankern kann. Anhand von zwei Textbeispielen wird auch erläutert, wie thematische Schlüsseltexte lexikographisch-lexikologisch genutzt werden können, um historische Systemstellen von Themen und Teilthemen mit den entsprechenden Bereichen im Wortschatz zu füllen.
Virtually all conventional text-based natural language processing techniques - from traditional information retrieval systems to full-fledged parsers - require reference to a fixed lexicon accessed by surface form, typically trained from or constructed for synchronic input text adhering strictly to contemporary orthographic conventions. Unconventional input such as historical text which violates these conventions therefore presents difficulties for any such system due to lexical variants present in the input but missing from the application lexicon. To facilitate the extension of synchronically-oriented natural language processing techniques to historical text while minimizing the need for specialized lexical resources, one may first attempt an automatic canonicalization of the input text. This paper provides an informal overview of the various canonicalization techniques currently employed by the Deutsches Textarchiv project at the Berlin-Brandenburg Academy of Sciences and Humanities to prepare a corpus of historical German text for part-of-speech tagging, lemmatization, and integration into a robust online information retrieval system.
Das Korpus des Deutschen Textarchivs soll als Basis für ein dynamisch erweiterbares historisches Referenzkorpus dienen. Sieben Anforderungen für eine Korpus-Infrastruktur werden benannt, die dazu dienen sollen, Texte in systematischer Weise für die historische Korpusforschung nutzbar zu machen. Dazu gehören ein Textsorteninventar, die Einheitlichkeit der Formate, eine Qualitätssicherung, Übergreifende Abfragbarkeit bei nichtstandardisierten Wortformschreibungen, Nachnutzbarkeit der Texte, offenen Infrastrukturen für die Erweiterung der Textbasis und dynamische Strukturen für Updates und verschiedene Versionen der Datenbasis. Dabei werden auch rechtliche (OpenAccess) und technische (Standardisierung der Formate) Eckpfeiler benannt.
Die Schaffung des Bonner Frühneuhhochdeutsch-Referenzcorpus "Frühneuhochdeutsch", das seit 2011 an der Ruhr Universität Bochum in Zusammenarbeit mit der Universitäten Halle und Potsdam geschaffen wird, kann auf zwei zwischen 1972-1985 geschaffenen Bonner Corpora aufbauen: das große Gesamtcorpus, bestehend aus 1500 Texten vom 14.-17. Jahrhundert (aufgebaut 1972-74) und einem elektronischen Teilcorpus, bestehend aus 40 annotierten Texten (aufgebaut 1972-1985). Das elektronische Teilcorpus diente bisher mit seiner Annotation von Flexionsformen in Forschung und Lehre. Datenbestand und Struktur dieses Teilcorpus werden für die Schaffung des neuen Referenzcorpus genutzt, korrigiert, um bisher nicht digitalisierte Texte aus dem Gesamtcorpus erweitert und nach neuen Standards annotiert. Dieses Referenzcorpus des Frühneuhochdeutschen wird als Teil in ein umfassendes Historisches Referenzcorpus des Deutschen einfließen (von den Anfängen der deutschen Überlieferung bis 1800). Es soll für die Forschung zum Frühneuhochdeutschen zur Verfügung stehen. Abgelöst davon soll das alte Bonner Teilcorpus weiterhin zur Nutzung bereit stehen.
The article summarizes the contents and the structurtal premises of the “Thesaurus Indogermanischer Text- und Sprachmaterialien” (TITUS), focussing on search functions and facilities and questions of the encoding of ancient languages written in various scripts. Examples are taken from Tocharian, Greek, Vedic Sanskrit, and other ancient Indo-European languages covered by TITUS.
Der Thesaurus Linguae Aegyptiae ist eine lexikalische Datenbank ägyptischer Texte. Durch die Verknüpfung einer Textdatenbank mit einem lexikalischen Wort-Thesaurus innerhalb eines modernen Navigationsprogramms sind vielfältige Abfragemöglichkeiten geschaffen worden, die weit über gedruckte Formate von Texteditionen und Wörterbüchern hinausgehen, diese aber nicht ersetzen sollen und können. Der TLA ist ein völlig neuartiges Instrument der Recherche und Forschung, das in diesem Aufsatz beschrieben wird.