Refine
Keywords
- Historische Sprachwissenschaft (2)
- Korpus <Linguistik> (2)
- Qualitätssicherung (2)
- Digitalisierung (1)
- Extensible Markup Language (XML) (1)
- Genauigkeit (1)
- Germanistik (1)
- Korpusanalyse (1)
- Korpusaufbau (1)
- Korpuslinguistik (1)
Has Fulltext
- yes (3)
Institute
Among mass digitization methods, double-keying is considered to be the one with the lowest error rate. This method requires two independent transcriptions of a text by two different operators. It is particularly well suited to historical texts, which often exhibit deficiencies like poor master copies or other difficulties such as spelling variation or complex text structures. Providers of data entry services using the double-keying method generally advertise very high accuracy rates (around 99.95% to 99.98%). These advertised percentages are generally estimated on the basis of small samples, and little if anything is said about either the actual amount of text or the text genres which have been proofread, about error types, proofreaders, etc. In order to obtain significant data on this problem it is necessary to analyze a large amount of text representing a balanced sample of different text types, to distinguish the structural XML/TEI level from the typographical level, and to differentiate between various types of errors which may originate from different sources and may not be equally severe. This paper presents an extensive and complex approach to the analysis and correction of double-keying errors which has been applied by the DFG-funded project “Deutsches Textarchiv” (German Text Archive, hereafter DTA) in order to evaluate and preferably to increase the transcription and annotation accuracy of double-keyed DTA texts. Statistical analyses of the results gained from proofreading a large quantity of text are presented, which verify the common accuracy rates for the double-keying method.
Der Artikel stellt zunächst die Grundlagen und Ziele des an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) beheimateten, DFG-geförderten Projekts Deutsches Textarchiv (DTA) vor, im Rahmen dessen die Grundlage für ein Referenzkorpus des historischen Neuhochdeutschen (ca. 1600 bis ca. 1900) erarbeitet und als frei zugängliches Textkorpus über das Internet bereitgestellt wird. Die Methoden der Texterstellung, XML-basierten Aufbereitung und Annotation sowie die computerlinguistische Erschließung der DTA-Texte werden erläutert. Zudem werden Maßnahmen zur (kollaborativen) Qualitätssicherung sowie zur Erweiterung des Gesamtkorpus durch externe Textressourcen vorgestellt. Anhand von Beispielen werden die vielfältigen Möglichkeiten der Arbeit mit der DTA-Infrastruktur sowie der Nutzung der DTA-Korpora in verschiedenen Kontexten beispielhaft gezeigt. Die DTA-Korpora können dabei nicht allein für sprachhistorische Forschungen, sondern auch zur Vermittlung sprach- und kultur¬geschichtlicher Inhalte im universitären und schulischen Unterricht genutzt werden.
Im Vortrag wurde ausführlich der Grundgedanke hinter dem DTA-Basisformat, d. h. die Etablierung eines reduzierten, zugleich vollständig TEI-konformen XML-Markups für historische Textressourcen, erläutert. ‚Reduziert‛ bedeutet in diesem Zusammenhang, dass immer dort, wo die P5-Richtlinien der TEI mehrere Möglichkeiten zur Annotation gleichartiger Phänomene bieten, innerhalb des DTABf nur genau eine dieser Varianten gewählt werden kann. Ziele dieser Restriktion sind zum einen die Gewährleistung gleichartiger Annotationsweisen innerhalb des DTA-Korpus sowie zum anderen die Erhöhung der Interoperabilität verschiedener TEI-XML-kodierter Textkorpora.
Neben dem DTABf für historische Drucke erwähnte Susanne Haaf in ihrem Vortrag auch die verschiedenen Spezialtagsets innerhalb des DTABf, die beispielsweise für die Annotation von (historischen) Zeitungen, Funeralschriften und seit einiger Zeit auch für die Auszeichnung (neuzeitlicher) Manuskripte entwickelt wurden. Dabei wurde das immer noch sehr breite Spektrum der Phänomene erkennbar, die sich mit dem DTABf standardkonform auszeichnen lassen, wobei die ausführliche und reich illustrierte Dokumentation des DTABf eine zuverlässige Orientierungshilfe bietet. In technischer Hinsicht wurde die Erstellung der umfangreichen DTABf-Dokumentation mit dem Dokumentenformat DITA (Darwin Information Typing Architecture) erläutert, das deren Handhabung und Modularisierung (auch durch Nachnutzende) enorm vereinfacht. Als weitere technische Komponenten stellte Haaf das mit dem Chaining-ODDs-Mechanismus modularisierte ODD, auf dem das DTABf beruht, das RNG-Schema sowie die weitere Spezifikation der Annotationspraxis durch einen Schematron-Regelsatz vor. [2]
Alle Komponenten des DTABf werden mittlerweile über die DTA-Präsenz auf der Entwicklungsplattform GitHub verwaltet und versioniert. Sie können dadurch auch von externen Nutzerinnen und Nutzern kommentiert, heruntergeladen und ggf. auf deren eigene Bedürfnisse hin modifiziert werden. Als weiterer Schritt zur stärkeren Einbindung der wachsenden Nutzer-Community des DTABf ist die Einrichtung einer Steuerungsgruppe mit externen Beteiligten geplant, die über zukünftige Modifikationen und Erweiterungen des Formats entscheiden wird. Darüber hinaus wurde in diesem Zusammenhang die geplante Übersetzung der DTABf-Dokumentation ins Englische, die im Rahmen des EU-Projekts PARTHENOS vorgesehen ist, erwähnt. [3]
Die anschließende Diskussion widmete sich u.a. den Implikationen der zunehmenden Verbreitung des DTABf, das mittlerweile von mehr als 25 externen Projekten genutzt und sowohl vom EU-weiten Infrastrukturprojekt CLARIN als auch von der Deutschen Forschungsgemeinschaft (DFG) empfohlen wird, was einen wichtigen Schritt in Richtung Standardisierung bzw. Etablierung von Best Practices innerhalb der Historischen Linguistik sowie allgemein der textbasiert arbeitenden Philologien, Geschichts- und Kulturwissenschaften darstellt. Das DTABf wurde zwar ursprünglich für die Auszeichnung des primär deutschsprachigen Korpus des Deutschen Textarchivs entwickelt, eignet sich aber ebenso zur Annotation von Textressourcen, die in anderen Sprachen (oder anderen Sprachstufen des Deutschen) verfasst wurden.