Conference Proceeding
Refine
Year of publication
Document Type
- Conference Proceeding (74) (remove)
Language
- German (61)
- English (12)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (13)
- Technikphilosophie (12)
- Lexikographie (8)
- Mediävistik (3)
- Demotisch (2)
- Deutsch (2)
- Edition (2)
- Griechisch (2)
- Ingenieur (2)
- Konferenz (2)
Has Fulltext
- yes (74)
Institute
- Berlin-Brandenburgische Akademie der Wissenschaften (40)
- Akademienvorhaben Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache. Text- und Wissenskultur im alten Ägypten (19)
- Interdisziplinäre Arbeitsgruppe Gentechnologiebericht (14)
- Akademienvorhaben Monumenta Germaniae Historica (5)
- Zentrum Mittelalter (5)
- Veröffentlichungen von Akademiemitgliedern (3)
- ALLEA (2)
- TELOTA - IT/Digital Humanities (2)
- Akademienunion (1)
- Akademienvorhaben Altägyptisches Wörterbuch (1)
- Akademienvorhaben Berliner Klassik (1)
- Akademienvorhaben Digitales Wörterbuch der Deutschen Sprache (1)
Der Thesaurus Linguae Aegyptiae ist eine lexikalische Datenbank ägyptischer Texte. Durch die Verknüpfung einer Textdatenbank mit einem lexikalischen Wort-Thesaurus innerhalb eines modernen Navigationsprogramms sind vielfältige Abfragemöglichkeiten geschaffen worden, die weit über gedruckte Formate von Texteditionen und Wörterbüchern hinausgehen, diese aber nicht ersetzen sollen und können. Der TLA ist ein völlig neuartiges Instrument der Recherche und Forschung, das in diesem Aufsatz beschrieben wird.
The article summarizes the contents and the structurtal premises of the “Thesaurus Indogermanischer Text- und Sprachmaterialien” (TITUS), focussing on search functions and facilities and questions of the encoding of ancient languages written in various scripts. Examples are taken from Tocharian, Greek, Vedic Sanskrit, and other ancient Indo-European languages covered by TITUS.
Auf dem Hintergrund des umfassenden EDV-Einsatzes, der die vorbereitende Materialbereitstellung seit 1986 (Findebuch zum mittelhochdeutschen Wortschatz) bzw. 1994 (für das neue Mittelhochdeutsche Wörterbuch selbst) ebenso wie die Ausarbeitung und Publikation des neuen Mittelhochdeutschen Wörterbuchs seit 2006 kennzeichnet, beleuchtet der Beitrag den Gewinn von digitalen Textcorpora für Macher und Nutzer von historischen Belegwörterbüchern: Den Lexikographen verschafft ein umfangreiches digitales Textarchiv und daraus durch halbautomatische Lemmatisierung gewonnenes Belegarchiv, das in einem Redaktionssystem für die Artikelarbeit bereitgestellt wird, größere und leichtere Übersicht über den historischen Sprachgebrauch und entlastet sie von zeitraubenden Exzerptions- und Korrekturarbeiten; den Wörterbuchbenutzern wird es durch die Verknüpfung der Belegzitate bzw. Belegstellenangaben mit den digitalisierten und im Online-Angebot zur Verfügung gestellten Volltexten der Wörterbuchquellen ermöglicht, den Quellenbezug der lexikographischen Befunde zu rekontextualisieren. Aus der Erfahrung eines Vierteljahrhunderts der Vorbereitung und Ausarbeitung eines großen digitalen Belegwörterbuchs werben die Autoren für die Bereitstellung von umfassenden digitalisierten Textcorpora (einschließlich der Retrodigitaliserung der älteren lexikographischen Hilfsmittel) für die historische Sprachforschung selbst wie für die Nutzer ihrer Forschungsergebnisse. Eine umfassende Textdigitalisierung von historischen Sprachquellen des Deutschen steckt aber leider (im Gegensatz zur Bilddigitalisierung von Handschriften und gedruckten Büchern) trotz großer Anstrengungen und überzeugender Ergebnisse in einzelnen Vorhaben immer noch in den Anfängen oder wird zum Teil unter zu engen Gesichtspunkten betrieben.
Die Schaffung des Bonner Frühneuhhochdeutsch-Referenzcorpus "Frühneuhochdeutsch", das seit 2011 an der Ruhr Universität Bochum in Zusammenarbeit mit der Universitäten Halle und Potsdam geschaffen wird, kann auf zwei zwischen 1972-1985 geschaffenen Bonner Corpora aufbauen: das große Gesamtcorpus, bestehend aus 1500 Texten vom 14.-17. Jahrhundert (aufgebaut 1972-74) und einem elektronischen Teilcorpus, bestehend aus 40 annotierten Texten (aufgebaut 1972-1985). Das elektronische Teilcorpus diente bisher mit seiner Annotation von Flexionsformen in Forschung und Lehre. Datenbestand und Struktur dieses Teilcorpus werden für die Schaffung des neuen Referenzcorpus genutzt, korrigiert, um bisher nicht digitalisierte Texte aus dem Gesamtcorpus erweitert und nach neuen Standards annotiert. Dieses Referenzcorpus des Frühneuhochdeutschen wird als Teil in ein umfassendes Historisches Referenzcorpus des Deutschen einfließen (von den Anfängen der deutschen Überlieferung bis 1800). Es soll für die Forschung zum Frühneuhochdeutschen zur Verfügung stehen. Abgelöst davon soll das alte Bonner Teilcorpus weiterhin zur Nutzung bereit stehen.
Das Korpus des Deutschen Textarchivs soll als Basis für ein dynamisch erweiterbares historisches Referenzkorpus dienen. Sieben Anforderungen für eine Korpus-Infrastruktur werden benannt, die dazu dienen sollen, Texte in systematischer Weise für die historische Korpusforschung nutzbar zu machen. Dazu gehören ein Textsorteninventar, die Einheitlichkeit der Formate, eine Qualitätssicherung, Übergreifende Abfragbarkeit bei nichtstandardisierten Wortformschreibungen, Nachnutzbarkeit der Texte, offenen Infrastrukturen für die Erweiterung der Textbasis und dynamische Strukturen für Updates und verschiedene Versionen der Datenbasis. Dabei werden auch rechtliche (OpenAccess) und technische (Standardisierung der Formate) Eckpfeiler benannt.
Virtually all conventional text-based natural language processing techniques - from traditional information retrieval systems to full-fledged parsers - require reference to a fixed lexicon accessed by surface form, typically trained from or constructed for synchronic input text adhering strictly to contemporary orthographic conventions. Unconventional input such as historical text which violates these conventions therefore presents difficulties for any such system due to lexical variants present in the input but missing from the application lexicon. To facilitate the extension of synchronically-oriented natural language processing techniques to historical text while minimizing the need for specialized lexical resources, one may first attempt an automatic canonicalization of the input text. This paper provides an informal overview of the various canonicalization techniques currently employed by the Deutsches Textarchiv project at the Berlin-Brandenburg Academy of Sciences and Humanities to prepare a corpus of historical German text for part-of-speech tagging, lemmatization, and integration into a robust online information retrieval system.
Die Vielschichtigkeit der über 4500-jährigen schriftlichen ägyptischen Texttradition mit ineinander greifenden Sprachstufen, niedergelegt in verschiedene Schriftformen, hat einen adäquaten einheitlichen Zugang zum ägyptischen Wortschatz erschwert. Das Ägyptisch-Koptische wurde bisher lexikographisch separat innerhalb von Teildisziplinen erschlossen - für das Hieroglyphisch-Hieratische, für das Demotische und für das Koptische in jeweils eigenen Wörterbüchern. Um einen einheitlichen Zugang zum ägyptisch-koptischen Wortschatz zu schaffen und auch den Sprachwandel dieser Sprache besser abbilden zu können, wird eine integrierte elektronische Wortliste geschaffen, in der Lexeme aus allen Sprachstufen in allen überlieferten Schriftformen verzeichnet und miteinander vernetzt dargestellt werden. Die Schwierigkeiten bei der Abbildung des synchronen und diachronen Wortgebrauchs mit einem damit verbundenen Wechsel in Orthographie und Lautung sowie in Syntax und Semantik werden an ausgewählten Beispielen dargestellt.