Refine
Year of publication
- 2013 (13) (remove)
Document Type
- Conference Proceeding (12)
- Article (1)
Language
- German (7)
- English (5)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (13) (remove)
Has Fulltext
- yes (13)
Es werden die Begriffe Textsorte / Textgattung und Diskurstradition erläutert und ihr Nutzen für die Lexikographie diskutiert. Anhand zweier ausgewählter Beispiel werden die lexikalischen Probleme erläutert, die die eindeutige Zuweisung dieser Texte zu Textsorten erschweren. Ebenso ist die Differenzierung nach Diskurstraditionen auf Grund der in der Textlinguistik üblichen Beschreibungssysteme für verschieden Diskursvarietäten am konkreten Text nicht immer eindeutig. Beispiele für Intertextualität und Textsorteninseln werden diskutiert, und es wird für eine verfeinerte Beschreibung der Texte in elektronischer Form plädiert.
Das Korpus des Deutschen Textarchivs soll als Basis für ein dynamisch erweiterbares historisches Referenzkorpus dienen. Sieben Anforderungen für eine Korpus-Infrastruktur werden benannt, die dazu dienen sollen, Texte in systematischer Weise für die historische Korpusforschung nutzbar zu machen. Dazu gehören ein Textsorteninventar, die Einheitlichkeit der Formate, eine Qualitätssicherung, Übergreifende Abfragbarkeit bei nichtstandardisierten Wortformschreibungen, Nachnutzbarkeit der Texte, offenen Infrastrukturen für die Erweiterung der Textbasis und dynamische Strukturen für Updates und verschiedene Versionen der Datenbasis. Dabei werden auch rechtliche (OpenAccess) und technische (Standardisierung der Formate) Eckpfeiler benannt.
The article summarizes the contents and the structurtal premises of the “Thesaurus Indogermanischer Text- und Sprachmaterialien” (TITUS), focussing on search functions and facilities and questions of the encoding of ancient languages written in various scripts. Examples are taken from Tocharian, Greek, Vedic Sanskrit, and other ancient Indo-European languages covered by TITUS.
This paper is an updated presentation of the Ramses project being currently developed at the University of Liège. The first section stresses the main objectives and gives a technical description of the general architecture of Ramses software. The second part describes the encoding procedures and reviews the current state of the annotation. In the third section, some changes brought about by the use of large-scale corpora are discussed from an epistemological viewpoint. The paper ends with the presentation of some new avenues for research that will ensue from the use of a complex multilevel corpus.
Die internationale Tagung „Perspektiven einer corpusbasierten historischen Linguistik und Philologie“ vom 12. – 13. Dezember 2011 am Akademienvorhaben „Altägyptisches Wörterbuch“ der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) war dem Thema des Aufbaus und der Nutzungsperspektiven elektronischer Textcorpora und Wörterbücher in den historischen Sprachen gewidmet. Die Teilnehmer, Vertreter der Ägyptologie, der Hethitologie, Indogermanistik sowie Referenten aus der historischen Lexikographie des Mittel- und Frühneuhochdeutschen und des Altfranzösischen diskutierten vor allem über die Veränderungen, die mit dem Einsatz elektronischer Erfassungs- und Verarbeitungsprozeduren einhergehen.
Among mass digitization methods, double-keying is considered to be the one with the lowest error rate. This method requires two independent transcriptions of a text by two different operators. It is particularly well suited to historical texts, which often exhibit deficiencies like poor master copies or other difficulties such as spelling variation or complex text structures. Providers of data entry services using the double-keying method generally advertise very high accuracy rates (around 99.95% to 99.98%). These advertised percentages are generally estimated on the basis of small samples, and little if anything is said about either the actual amount of text or the text genres which have been proofread, about error types, proofreaders, etc. In order to obtain significant data on this problem it is necessary to analyze a large amount of text representing a balanced sample of different text types, to distinguish the structural XML/TEI level from the typographical level, and to differentiate between various types of errors which may originate from different sources and may not be equally severe. This paper presents an extensive and complex approach to the analysis and correction of double-keying errors which has been applied by the DFG-funded project “Deutsches Textarchiv” (German Text Archive, hereafter DTA) in order to evaluate and preferably to increase the transcription and annotation accuracy of double-keyed DTA texts. Statistical analyses of the results gained from proofreading a large quantity of text are presented, which verify the common accuracy rates for the double-keying method.
Der zentrale Gegenstand dieses Beitrags ist die Frage, wie Themen als grundlegende Aspekte der sprachlichen Verständigung mit dem Wortgebrauch zusammenhängen und wie diese Zusammenhänge - die thematische Prägung des Wortgebrauchs - auch für die lexikographisch-lexikologische Dokumentation des Wortgebrauchs fruchtbar gemacht werden kann. Es wird auf Ergebnisse der Gesprächsforschung, der Textlinguistik und der Diskursforschung zurückgegriffen. Anhand von Beispielen (u.a. aus den Themenbereichen Rassenhygiene, Naturschutz, Sport/Fußball, Hygiene, Technik und Haushalt) werden Vorschläge gemacht, wie man den Themenbezug historischer Kommunikation und die thematische Prägung lexikalischer Mittel auch in lexikographischen Darstellungen stärker verankern kann. Anhand von zwei Textbeispielen wird auch erläutert, wie thematische Schlüsseltexte lexikographisch-lexikologisch genutzt werden können, um historische Systemstellen von Themen und Teilthemen mit den entsprechenden Bereichen im Wortschatz zu füllen.
Auf dem Hintergrund des umfassenden EDV-Einsatzes, der die vorbereitende Materialbereitstellung seit 1986 (Findebuch zum mittelhochdeutschen Wortschatz) bzw. 1994 (für das neue Mittelhochdeutsche Wörterbuch selbst) ebenso wie die Ausarbeitung und Publikation des neuen Mittelhochdeutschen Wörterbuchs seit 2006 kennzeichnet, beleuchtet der Beitrag den Gewinn von digitalen Textcorpora für Macher und Nutzer von historischen Belegwörterbüchern: Den Lexikographen verschafft ein umfangreiches digitales Textarchiv und daraus durch halbautomatische Lemmatisierung gewonnenes Belegarchiv, das in einem Redaktionssystem für die Artikelarbeit bereitgestellt wird, größere und leichtere Übersicht über den historischen Sprachgebrauch und entlastet sie von zeitraubenden Exzerptions- und Korrekturarbeiten; den Wörterbuchbenutzern wird es durch die Verknüpfung der Belegzitate bzw. Belegstellenangaben mit den digitalisierten und im Online-Angebot zur Verfügung gestellten Volltexten der Wörterbuchquellen ermöglicht, den Quellenbezug der lexikographischen Befunde zu rekontextualisieren. Aus der Erfahrung eines Vierteljahrhunderts der Vorbereitung und Ausarbeitung eines großen digitalen Belegwörterbuchs werben die Autoren für die Bereitstellung von umfassenden digitalisierten Textcorpora (einschließlich der Retrodigitaliserung der älteren lexikographischen Hilfsmittel) für die historische Sprachforschung selbst wie für die Nutzer ihrer Forschungsergebnisse. Eine umfassende Textdigitalisierung von historischen Sprachquellen des Deutschen steckt aber leider (im Gegensatz zur Bilddigitalisierung von Handschriften und gedruckten Büchern) trotz großer Anstrengungen und überzeugender Ergebnisse in einzelnen Vorhaben immer noch in den Anfängen oder wird zum Teil unter zu engen Gesichtspunkten betrieben.