Digital-Humanities-Kolloquium an der Berlin-Brandenburgischen Akademie der Wissenschaften
Refine
Document Type
- Lecture (15)
Language
- German (12)
- English (2)
- Multiple languages (1)
Keywords
- Digital Humanities (10)
- Edition (3)
- API (1)
- Antikes Christentum (1)
- Brief (1)
- CMIF (1)
- Datenmanagement (1)
- Geisteswissenschaften (1)
- Graphdatenbank (1)
- Graphentechnologien (1)
Has Fulltext
- yes (15)
Institute
Im Vortrag wurde ausführlich der Grundgedanke hinter dem DTA-Basisformat, d. h. die Etablierung eines reduzierten, zugleich vollständig TEI-konformen XML-Markups für historische Textressourcen, erläutert. ‚Reduziert‛ bedeutet in diesem Zusammenhang, dass immer dort, wo die P5-Richtlinien der TEI mehrere Möglichkeiten zur Annotation gleichartiger Phänomene bieten, innerhalb des DTABf nur genau eine dieser Varianten gewählt werden kann. Ziele dieser Restriktion sind zum einen die Gewährleistung gleichartiger Annotationsweisen innerhalb des DTA-Korpus sowie zum anderen die Erhöhung der Interoperabilität verschiedener TEI-XML-kodierter Textkorpora.
Neben dem DTABf für historische Drucke erwähnte Susanne Haaf in ihrem Vortrag auch die verschiedenen Spezialtagsets innerhalb des DTABf, die beispielsweise für die Annotation von (historischen) Zeitungen, Funeralschriften und seit einiger Zeit auch für die Auszeichnung (neuzeitlicher) Manuskripte entwickelt wurden. Dabei wurde das immer noch sehr breite Spektrum der Phänomene erkennbar, die sich mit dem DTABf standardkonform auszeichnen lassen, wobei die ausführliche und reich illustrierte Dokumentation des DTABf eine zuverlässige Orientierungshilfe bietet. In technischer Hinsicht wurde die Erstellung der umfangreichen DTABf-Dokumentation mit dem Dokumentenformat DITA (Darwin Information Typing Architecture) erläutert, das deren Handhabung und Modularisierung (auch durch Nachnutzende) enorm vereinfacht. Als weitere technische Komponenten stellte Haaf das mit dem Chaining-ODDs-Mechanismus modularisierte ODD, auf dem das DTABf beruht, das RNG-Schema sowie die weitere Spezifikation der Annotationspraxis durch einen Schematron-Regelsatz vor. [2]
Alle Komponenten des DTABf werden mittlerweile über die DTA-Präsenz auf der Entwicklungsplattform GitHub verwaltet und versioniert. Sie können dadurch auch von externen Nutzerinnen und Nutzern kommentiert, heruntergeladen und ggf. auf deren eigene Bedürfnisse hin modifiziert werden. Als weiterer Schritt zur stärkeren Einbindung der wachsenden Nutzer-Community des DTABf ist die Einrichtung einer Steuerungsgruppe mit externen Beteiligten geplant, die über zukünftige Modifikationen und Erweiterungen des Formats entscheiden wird. Darüber hinaus wurde in diesem Zusammenhang die geplante Übersetzung der DTABf-Dokumentation ins Englische, die im Rahmen des EU-Projekts PARTHENOS vorgesehen ist, erwähnt. [3]
Die anschließende Diskussion widmete sich u.a. den Implikationen der zunehmenden Verbreitung des DTABf, das mittlerweile von mehr als 25 externen Projekten genutzt und sowohl vom EU-weiten Infrastrukturprojekt CLARIN als auch von der Deutschen Forschungsgemeinschaft (DFG) empfohlen wird, was einen wichtigen Schritt in Richtung Standardisierung bzw. Etablierung von Best Practices innerhalb der Historischen Linguistik sowie allgemein der textbasiert arbeitenden Philologien, Geschichts- und Kulturwissenschaften darstellt. Das DTABf wurde zwar ursprünglich für die Auszeichnung des primär deutschsprachigen Korpus des Deutschen Textarchivs entwickelt, eignet sich aber ebenso zur Annotation von Textressourcen, die in anderen Sprachen (oder anderen Sprachstufen des Deutschen) verfasst wurden.
The computer has come to play a transformative role in the ways we model, store, process and study text. Nevertheless, we cannot yet claim to have realised the promises of the digital medium: the organisation and dissemination of scholarly knowledge through the exchange, reuse and enrichment of data sets. Despite the acclaimed interdisciplinary nature of digital humanities, current digital research takes place in a closed environment and rarely surpasses the traditional boundaries of a field. Furthermore, it is worthwhile to continue questioning the models we use and whether they are actually suitable for our scholarly needs. There’s a risk that the affordances and limitations of a prevailing model may blind us to aspects it doesn’t support.
In her talk, Elli Bleeker discusses different technologies to model data with respect to their expressive power and their potential to address the needs of the scholarly community. Within this framework, she introduces a new data model for text, Text-As-Graph (TAG), and it’s reference implementation Alexandria, a text repository system. The TAG model allows researchers to store, query, and analyse text that is encoded from different perspectives. Alexandria thus stimulates new ways of looking at textual objects, facilitates the exchange of information across disciplines, and secures textual knowledge for future endeavours. From a philosophical perspective, the TAG model and the workflow of Alexandria raise compelling questions about our notions of textuality, and prompt us to reconsider how we can best model the variety of textual dimensions.
(Open-Source-)OCR-Workflows
(2017)
Slides for the OCR-D talk at the Digital Humanities Kolloquium at the Berlin-Brandenburg Academy of Sciences and Humanities (4th August 2017).