Refine
Document Type
- Article (1)
- Book (1)
- Preprint (1)
- Working Paper (1)
Keywords
- Germanistik (4) (remove)
Has Fulltext
- yes (4)
Der Artikel stellt zunächst die Grundlagen und Ziele des an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) beheimateten, DFG-geförderten Projekts Deutsches Textarchiv (DTA) vor, im Rahmen dessen die Grundlage für ein Referenzkorpus des historischen Neuhochdeutschen (ca. 1600 bis ca. 1900) erarbeitet und als frei zugängliches Textkorpus über das Internet bereitgestellt wird. Die Methoden der Texterstellung, XML-basierten Aufbereitung und Annotation sowie die computerlinguistische Erschließung der DTA-Texte werden erläutert. Zudem werden Maßnahmen zur (kollaborativen) Qualitätssicherung sowie zur Erweiterung des Gesamtkorpus durch externe Textressourcen vorgestellt. Anhand von Beispielen werden die vielfältigen Möglichkeiten der Arbeit mit der DTA-Infrastruktur sowie der Nutzung der DTA-Korpora in verschiedenen Kontexten beispielhaft gezeigt. Die DTA-Korpora können dabei nicht allein für sprachhistorische Forschungen, sondern auch zur Vermittlung sprach- und kultur¬geschichtlicher Inhalte im universitären und schulischen Unterricht genutzt werden.
Numerous high-quality primary text sources—in the context of the curation project described here, this means full-text transcriptions (and corresponding image scans) of German works originating from the 15th to the 19th centuries—are scattered among the web or stored remotely. E.g., transcriptions of historical sources are stored locally on degrading recording media and cannot be found, let alone accessed by third parties. Additionally, idiosyncratic, project-specific markup conventions and uncommon, out-of-date or inflexible storage formats often hinder further usage and analysis of the data. Often, textual resources are accompanied by scarce, insufficient or inaccurate bibliographic information, which is only one further reason why valuable resources, even if available on the web, remain undiscovered by and are of little use to the wider research community. The integration of these dispersed primary text sources into the sustainable, web and centres-based research infrastructure of CLARIN-D will be an important step to solve this problem. The Full Paper illustrates an exemplary approach taken by the »Deutsches Textarchiv« (DTA; www.deutschestextarchiv.de) at the Berlin-Brandenburg Academy of Sciences and Humanities (BBAW) to integrate dispersed textual resources and corresponding image scans from various sources into a large historical text corpus of its own and to insert these into the infrastructure of CLARIN-D.