Refine
Document Type
- Conference Proceeding (13)
- Preprint (3)
- Working Paper (3)
- Article (2)
- Lecture (1)
- Part of Periodical (1)
Language
- German (14)
- English (8)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (23) (remove)
Has Fulltext
- yes (23)
Institute
- Akademienvorhaben Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache. Text- und Wissenskultur im alten Ägypten (12)
- Akademienvorhaben Altägyptisches Wörterbuch (6)
- Akademienvorhaben Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm (1)
- Akademienvorhaben Digitales Wörterbuch der Deutschen Sprache (1)
- Drittmittelprojekt Deutsches Textarchiv (1)
Berlin Text System 3.1 User Manual : Editorial Software of the Thesaurus Linguae Aegyptiae Project
(2018)
The Berlin Text System (BTS) Version 3.1 manual introduces a Java-based software designed for editing and annotating Ancient Egyptian texts. BTS integrates a CouchDB database and an Elastic search engine to support its main components: Text Editor, Lemma List, Thesaurus, and Abstract Text.
The Text Editor facilitates transliteration, translation, lemmatization, and annotations, allowing for detailed lexical and grammatical analysis. Hieroglyphic transcriptions can be entered via a specialized Hieroglyph Type Writer based on JSesh.
The Lemma List ist ready to contain pre-Coptic lemmata, divided into Hieroglyphic/Hieratic and Demotic scripts, providing comprehensive entries with passport data, transliterations, and translations.
The Thesaurus allows for metadata enrichment of texts with controlled vocabulary for consistent data management, supporting contextual analysis through structured metadata.
The manual covers BTS's user interface, including menu bar, toolbar, status bar, and workspace, divided into views for each main component. Features like Revision History for tracking and restoring versions, indexing, and search capabilities enhance user efficiency. BTS is a powerful tool for the study and preservation of Ancient Egyptian texts, integrating advanced database and search technologies with specialized textual analysis tools.
Der Artikel stellt zunächst die Grundlagen und Ziele des an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) beheimateten, DFG-geförderten Projekts Deutsches Textarchiv (DTA) vor, im Rahmen dessen die Grundlage für ein Referenzkorpus des historischen Neuhochdeutschen (ca. 1600 bis ca. 1900) erarbeitet und als frei zugängliches Textkorpus über das Internet bereitgestellt wird. Die Methoden der Texterstellung, XML-basierten Aufbereitung und Annotation sowie die computerlinguistische Erschließung der DTA-Texte werden erläutert. Zudem werden Maßnahmen zur (kollaborativen) Qualitätssicherung sowie zur Erweiterung des Gesamtkorpus durch externe Textressourcen vorgestellt. Anhand von Beispielen werden die vielfältigen Möglichkeiten der Arbeit mit der DTA-Infrastruktur sowie der Nutzung der DTA-Korpora in verschiedenen Kontexten beispielhaft gezeigt. Die DTA-Korpora können dabei nicht allein für sprachhistorische Forschungen, sondern auch zur Vermittlung sprach- und kultur¬geschichtlicher Inhalte im universitären und schulischen Unterricht genutzt werden.
For a fistful of blogs: Discovery and comparative benchmarking of republishable German content
(2014)
We introduce two corpora gathered on the web and related to computer-mediated communication: blog posts and blog comments. In order to build such corpora, we addressed following issues: website discovery and crawling, content extraction constraints, and text quality assessment. The blogs were manually classified as to their license and content type. Our results show that it is possible to find blogs in German under Creative Commons license, and that it is possible to perform text extraction and linguistic annotation efficiently enough to allow for a comparison with more traditional text types such as newspaper corpora and subtitles. The comparison gives insights on distributional properties of the processed web texts on token and type level. For example, quantitative analysis reveals that blog posts are close to written language, while comments are slightly closer to spoken language.
Among mass digitization methods, double-keying is considered to be the one with the lowest error rate. This method requires two independent transcriptions of a text by two different operators. It is particularly well suited to historical texts, which often exhibit deficiencies like poor master copies or other difficulties such as spelling variation or complex text structures. Providers of data entry services using the double-keying method generally advertise very high accuracy rates (around 99.95% to 99.98%). These advertised percentages are generally estimated on the basis of small samples, and little if anything is said about either the actual amount of text or the text genres which have been proofread, about error types, proofreaders, etc. In order to obtain significant data on this problem it is necessary to analyze a large amount of text representing a balanced sample of different text types, to distinguish the structural XML/TEI level from the typographical level, and to differentiate between various types of errors which may originate from different sources and may not be equally severe. This paper presents an extensive and complex approach to the analysis and correction of double-keying errors which has been applied by the DFG-funded project “Deutsches Textarchiv” (German Text Archive, hereafter DTA) in order to evaluate and preferably to increase the transcription and annotation accuracy of double-keyed DTA texts. Statistical analyses of the results gained from proofreading a large quantity of text are presented, which verify the common accuracy rates for the double-keying method.
Es werden die Begriffe Textsorte / Textgattung und Diskurstradition erläutert und ihr Nutzen für die Lexikographie diskutiert. Anhand zweier ausgewählter Beispiel werden die lexikalischen Probleme erläutert, die die eindeutige Zuweisung dieser Texte zu Textsorten erschweren. Ebenso ist die Differenzierung nach Diskurstraditionen auf Grund der in der Textlinguistik üblichen Beschreibungssysteme für verschieden Diskursvarietäten am konkreten Text nicht immer eindeutig. Beispiele für Intertextualität und Textsorteninseln werden diskutiert, und es wird für eine verfeinerte Beschreibung der Texte in elektronischer Form plädiert.
Die internationale Tagung „Perspektiven einer corpusbasierten historischen Linguistik und Philologie“ vom 12. – 13. Dezember 2011 am Akademienvorhaben „Altägyptisches Wörterbuch“ der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) war dem Thema des Aufbaus und der Nutzungsperspektiven elektronischer Textcorpora und Wörterbücher in den historischen Sprachen gewidmet. Die Teilnehmer, Vertreter der Ägyptologie, der Hethitologie, Indogermanistik sowie Referenten aus der historischen Lexikographie des Mittel- und Frühneuhochdeutschen und des Altfranzösischen diskutierten vor allem über die Veränderungen, die mit dem Einsatz elektronischer Erfassungs- und Verarbeitungsprozeduren einhergehen.
This paper is an updated presentation of the Ramses project being currently developed at the University of Liège. The first section stresses the main objectives and gives a technical description of the general architecture of Ramses software. The second part describes the encoding procedures and reviews the current state of the annotation. In the third section, some changes brought about by the use of large-scale corpora are discussed from an epistemological viewpoint. The paper ends with the presentation of some new avenues for research that will ensue from the use of a complex multilevel corpus.
Der Thesaurus Linguae Aegyptiae ist eine lexikalische Datenbank ägyptischer Texte. Durch die Verknüpfung einer Textdatenbank mit einem lexikalischen Wort-Thesaurus innerhalb eines modernen Navigationsprogramms sind vielfältige Abfragemöglichkeiten geschaffen worden, die weit über gedruckte Formate von Texteditionen und Wörterbüchern hinausgehen, diese aber nicht ersetzen sollen und können. Der TLA ist ein völlig neuartiges Instrument der Recherche und Forschung, das in diesem Aufsatz beschrieben wird.