Das DTA-Basisformat zur TEI-XML-konformen Annotation historischer Textressourcen : Vortrag beim Berliner DH-Kolloquium 1. September 2017

  • Im Vortrag wurde ausführlich der Grundgedanke hinter dem DTA-Basisformat, d. h. die Etablierung eines reduzierten, zugleich vollständig TEI-konformen XML-Markups für historische Textressourcen, erläutert. ‚Reduziert‛ bedeutet in diesem Zusammenhang, dass immer dort, wo die P5-Richtlinien der TEI mehrere Möglichkeiten zur Annotation gleichartiger Phänomene bieten, innerhalb des DTABf nur genau eine dieser Varianten gewählt werden kann. Ziele dieser Restriktion sind zum einen die Gewährleistung gleichartiger Annotationsweisen innerhalb des DTA-Korpus sowie zum anderen die Erhöhung der Interoperabilität verschiedener TEI-XML-kodierter Textkorpora. Neben dem DTABf für historische Drucke erwähnte Susanne Haaf in ihrem Vortrag auch die verschiedenen Spezialtagsets innerhalb des DTABf, die beispielsweise für die Annotation von (historischen) Zeitungen, Funeralschriften und seit einiger Zeit auch für die Auszeichnung (neuzeitlicher) Manuskripte entwickelt wurden. Dabei wurde das immer noch sehr breite Spektrum der Phänomene erkennbar, die sich mit dem DTABf standardkonform auszeichnen lassen, wobei die ausführliche und reich illustrierte Dokumentation des DTABf eine zuverlässige Orientierungshilfe bietet. In technischer Hinsicht wurde die Erstellung der umfangreichen DTABf-Dokumentation mit dem Dokumentenformat DITA (Darwin Information Typing Architecture) erläutert, das deren Handhabung und Modularisierung (auch durch Nachnutzende) enorm vereinfacht. Als weitere technische Komponenten stellte Haaf das mit dem Chaining-ODDs-Mechanismus modularisierte ODD, auf dem das DTABf beruht, das RNG-Schema sowie die weitere Spezifikation der Annotationspraxis durch einen Schematron-Regelsatz vor. [2] Alle Komponenten des DTABf werden mittlerweile über die DTA-Präsenz auf der Entwicklungsplattform GitHub verwaltet und versioniert. Sie können dadurch auch von externen Nutzerinnen und Nutzern kommentiert, heruntergeladen und ggf. auf deren eigene Bedürfnisse hin modifiziert werden. Als weiterer Schritt zur stärkeren Einbindung der wachsenden Nutzer-Community des DTABf ist die Einrichtung einer Steuerungsgruppe mit externen Beteiligten geplant, die über zukünftige Modifikationen und Erweiterungen des Formats entscheiden wird. Darüber hinaus wurde in diesem Zusammenhang die geplante Übersetzung der DTABf-Dokumentation ins Englische, die im Rahmen des EU-Projekts PARTHENOS vorgesehen ist, erwähnt. [3] Die anschließende Diskussion widmete sich u.a. den Implikationen der zunehmenden Verbreitung des DTABf, das mittlerweile von mehr als 25 externen Projekten genutzt und sowohl vom EU-weiten Infrastrukturprojekt CLARIN als auch von der Deutschen Forschungsgemeinschaft (DFG) empfohlen wird, was einen wichtigen Schritt in Richtung Standardisierung bzw. Etablierung von Best Practices innerhalb der Historischen Linguistik sowie allgemein der textbasiert arbeitenden Philologien, Geschichts- und Kulturwissenschaften darstellt. Das DTABf wurde zwar ursprünglich für die Auszeichnung des primär deutschsprachigen Korpus des Deutschen Textarchivs entwickelt, eignet sich aber ebenso zur Annotation von Textressourcen, die in anderen Sprachen (oder anderen Sprachstufen des Deutschen) verfasst wurden.

Download full text files

Export metadata

  • Export Bibtex
  • Export RIS

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Susanne Haaf
URN:urn:nbn:de:kobv:b4-opus4-28079
Document Type:Lecture
Language:German
Date of Publication (online):2017/09/19
Release Date:2017/09/21
Pagenumber:61
Institutes:BBAW / Drittmittelprojekt Deutsches Textarchiv
collections:BBAW / Konferenzen, Tagungen, Workshops / Digital-Humanities-Kolloquium an der Berlin-Brandenburgischen Akademie der Wissenschaften
Licence (German):License LogoCreative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen (CC BY-SA 3.0 DE)

$Rev: 13581 $