OPUS 4 | 400 Sprache

The birth of rules (2001)

For a fistful of blogs: Discovery and comparative benchmarking of republishable German content (2014)

Barbaresi, Adrien ; Würzner, Kay-Michael

We introduce two corpora gathered on the web and related to computer-mediated communication: blog posts and blog comments. In order to build such corpora, we addressed following issues: website discovery and crawling, content extraction constraints, and text quality assessment. The blogs were manually classified as to their license and content type. Our results show that it is possible to find blogs in German under Creative Commons license, and that it is possible to perform text extraction and linguistic annotation efficiently enough to allow for a comparison with more traditional text types such as newspaper corpora and subtitles. The comparison gives insights on distributional properties of the processed web texts on token and type level. For example, quantitative analysis reveals that blog posts are close to written language, while comments are slightly closer to spoken language.

Die digitale Erschliessung des Schweizerischen Idiotikons über den Ausbau der Zugriffsstrukturen [Beitrag zum Workshop Künftige Standards wissenschaftlicher Lexikographie, 25.-27. März 2012, Berlin] (2012)

Bickel, Hans

Das Schweizerische Idiotikon dokumentiert die deutsche Sprache in der Schweiz vom Jahr 1300 bis heute. Es ist mit bisher 16 Bänden (Wortstrecke A – W) das grösste Regionalwörterbuch des Deutschen. An ihm wird seit genau 150 Jahren kontinuierlich gearbeitet, in ca. 12 Jahren soll der 17. und letzte Band abgeschlossen sein. Zur einfacheren Benutzung und zur grösseren Verbreitung des gedruckten Werkes sowohl in der wissenschaftlichen Gemeinschaft wie auch in der interessierten weiteren Öffentlichkeit wurde vor 3 Jahren mit der Digitalisierung begonnen. Die komplexe Mikrostruktur der Wörterbuchartikel sowie die beschränkten personellen Ressourcen, die in erster Linie für die Weiterarbeit am letzten Band eingesetzt werden müssen, liess eine Volltextdigitalisierung mit ausgebautem TEI-Tagging als zu langwierig und zu ambitiös erscheinen. Daher wurde die Digitalisierung schrittweise angegangen, indem zuerst die Zugriffstrukturen über mit vielen Schreib- und Aussprachevarianten versehene digitale Register ausgebaut wurden. In einem zweiten Schritt wurden die Register mit den digitalisierten Abbildern der gedruckten Buchseiten verbunden, und in einem dritten, gegenwärtig realisierten Schritt wird die Suche über einen mittels OCR erstellten Volltext implementiert.

The apparent paradox of language evolution: can universal grammar be explained by adaptive selection? (2001)

Bierwisch, Manfred

Vergleichende Gliederung des Sanskrits und der mit ihm verwandten Sprachen : Erste Abhandlung ; Von den Wurzeln und Pronominen erster und zweiter Person (1824)

Bopp, Franz

Der Jargon des Fremdlings - Fiktive Sprechweisen als Mittel der Gesellschaftskritik im 18. Jahrhundert (1997)

Charlier, Robert

From potential to realisation: an episode in the origin of language (2001)

Comrie, Bernard

Global Editions and the Dialogue among Civilizations (2013)

Crane, Gregory ; Babeu, Alison

This paper is about the reinvention of editing source texts from the human record. Editing may be largely a technical, frequently a tedious, and almost always an underappreciated task, but editing can have profound effects upon the world.

How language changed the genes: toward anexplicit account of the evolution of language (2001)

Dor, Daniel ; Jablonka, Eva

Khwarezmische Lexikographie (2003)

Durkin-Meisterernst, Desmond

Ein Überblick über die Quellen der mitteliranischen Sprache Khwarezmisch und der lexikographischen Arbeit an diesem Material. Das im Nachlaß von D.N. MacKenzie (verstorben 2001) befindliche fast zur Hälfte gedrungene Wörterbuch des Khwarezmsichen wird vorgestellt.

Sogdiana. Bericht über eine Reise nach Uzbekistan und Tadschikistan Juni 2006 (2006)

Durkin-Meisterernst, Desmond

Darstellung eines Besuchs bei einer uzebkisch-italienischen archäologischen Mission in Samarkand (Uzbekistan) sowie einer Reise nach Tadschikistan mit Bezug auf die Archäologie der Sogdiana, der Erforschung des Sogdischen und des Yaghnobi. Folgende archäologischen Stätte wurden besichtigt: Kafir Kala, Sarazm, Panjikand, Mug, Afrasiab, Jar-tepe und Urgut. Dabei ergab sich die Möglichkeit, die Arbeit dreier jungen itaienischen Archäologen zu verfolgen: F. Franceschini (Nomadengräber in Sazagan), Simone Mantellini (Ausgrabung in Kafir Kala, Vermessungen in Mug) und Bernardo Rondelli (Kartographierung des mittleren Zarafschan-Tals). Diese Arbeiten werfen einige Fragen an das iranische Textmaterial (awestisch und sogdisch) bezüglich Wassermanagement usw. auf. In Tadschikistan ergab sich auch die Kontaktaufnahme mit Dr. S. Mirzoev, der an der tadschikischen Akademie das Yaghnobi, eine noch lebende dem Sogdischen sehr nahstehende Sprache, betreut und ein Wörterbuch vorgelegt hat. Die Möglichkeit von Neufunden sogdischen Textmaterials in der von den Uzbeken und Italienern betriebenen Ausgrabung in Kafir Kala wird erörtert und eine Sigel aus Kafir Kala als die des 'Herrschers von Revdad' neuinterpretiert.

Ueda Kazutoshi und die moderne japanische Sprachwissenschaft (1997)

Eschbach-Szabo, Viktoria

Perspektiven historischer Lexikographie in einem digitalen lexikalischen System ; Workshop, 28.03.2011 (2011)

Gehweiler, Elke ; Scheider, Marco ; Schmidt, Hartmut ; Schrader, Norbert ; Solf, Michael ; Unger, Christiane

Nach Beendigung der Neubearbeitung des Deutschen Wörterbuchs werden die lexikographischen Arbeiten im Rahmen eines digitalen lexikalischen Systems fortgeführt. Welche Perspektiven sich insbesondere für die historische Lexikographie durch die neuen Arbeitsbedingungen eröffnen, ist Thema eines Workshops, den die Arbeitsstelle „Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm - Neubearbeitung” veranstaltet. Die Vorträge beleuchten das Thema unter verschiedenen Aspekten. So soll der spezifische Informationsgehalt von Artikeln in historischen Wörterbüchern illustriert und mit Angaben in gegenwartssprachlichen Wörterbüchern verglichen werden. Darüber hinaus werden Überlegungen zur Erschließung und Nutzung von Quellen sowie zur Erarbeitung und Präsentation lexikographischer Informationen im digitalen Zeitalter vorgestellt. Dazu gehört auch ein Überblick über bereits vorhandene elektronische Redaktionssysteme. Ein Vortrag, in dem es um Desiderata nach dem Ende der DWB-Neubearbeitung gehen soll, beschließt die Veranstaltung.

[Rezension zu:] Grund und Grenze des Verstehens : Theologie und Hermeneutik im Anschluss an Friedrich Schleiermacher / Florian Priesemuth. - Berlin: De Gruyter, 2020 (Schleiermacher-Archiv ; 32) (2020)

Gerber, Simon

Diese Rezension bespricht Florian Priesemuths kurze, aber gehaltvolle Dissertation über Schleiermachers Hermeneutik und hermeneutische Praxis als Exeget, Übersetzer, Rezensent und Kritiker sowie über deren Relevanz für die gegenwärtigen fundamentaltheologischen und sprachphilosophischen Debatten.

Aus der Editionswerkstatt: Schleiermachers Praktische Theologie – Frerichs’ Ausgabe in ihre Quellen zerlegt (2020)

Gerber, Simon

In 1850, Jacob Frerichs produced the first and until now the only edition of Friedrich Schleiermacher’s important lectures on Practical Theology. It is a mix and compilation of students’ transcripts from six different semesters, redundant and at times contradictory, which doesn’t correspond to Schleiermacher’s actual lectures. Most of the transcripts used by Frerichs are still preserved and have now been evaluated for a new edition of Schleiermacher’s Practical Theology. This article disassembles Frerichs’ edition into its components giving evidence for every text passage from which source Frerichs took it.

Grammatik im Großwörterbuch des Ungarischen [Beitrag zum Workshop Künftige Standards wissenschaftlicher Lexikographie, 25.-27. März 2012, Berlin] (2012)

Gerstner, Károly

Das Großwörterbuch des Ungarischen (GWU) ist grundsätzlich ein Bedeutungswörterbuch, das auch eine historische Dimension hat. Einerseits sind im Wörterbuch auch zahlreiche Stichwörter zu finden, die im Sprachgebrauch der früheren Jahrzehnte der bearbeiteten Periode (von 1772 bis zunächst 2000) wichtig gewesen sind. Andererseits kann die Bedeutungsstruktur vieler auch heute gebrauchter Wörter um Bedeutungen ergänzt werden, die nur aufgrund älterer Textstellen des Corpus erschlossen werden können. Diese Veränderungen im lexikalischen Bestand und in der Wortsemantik weisen natürlich auch auf aussersprachliche Umstände hin, aber auch auf das Verhältnis zwischen Innovation und Entlehnung als Möglichkeiten zur Erweiterung des Wortschatzes. Die lexikologische Markierung, d. h. die Bezeichnung der sprachlichen Verwendungsmöglichkeiten (Stile) und Fachbezogenheit der einzelnen Wörter (Bedeutungen) in einem historisch geprägten Bedeutungswörterbuch ist oft recht problematisch. Dem Lexikographen fehlt nämlich die persönliche Erfahrung des Sprachgebrauches einer früheren Synchronie, so ist er gezwungen, mit einer „zusätzlichen, erweiterten“ Kompetenz diese wichtigen Züge der behandelten Lexeme zu beschreiben. Anführungen zu unterschiedlichen grammatischen Merkmalen der Stichwörter können einem Wörterbuch nicht fehlen. Die Art und der Umfang dieser Verweise können die richtige Einschätzung der Verwendungsmöglichkeiten eines Wortes auch für ältere Perioden ziemlich gut fördern. Darüber hinaus können mit Hilfe der Wörterbuchgrammatik ggf. auch Veränderungen im grammatischen System dargestellt werden.

The TITUS Project : 25 years of corpus building in ancient languages (2013)

Gippert, Jost

The article summarizes the contents and the structurtal premises of the “Thesaurus Indogermanischer Text- und Sprachmaterialien” (TITUS), focussing on search functions and facilities and questions of the encoding of ancient languages written in various scripts. Examples are taken from Tocharian, Greek, Vedic Sanskrit, and other ancient Indo-European languages covered by TITUS.

Die italienische Übersetzung der Renaissance im Bezugsfeld des Eigenen und des Fremden (1997)

Guthmüller, Bodo

Die historischen Korpora des Deutschen Textarchivs als Grundlage für sprachgeschichtliche Forschungen (2016)

Haaf, Susanne ; Thomas, Christian

Der Artikel stellt zunächst die Grundlagen und Ziele des an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) beheimateten, DFG-geförderten Projekts Deutsches Textarchiv (DTA) vor, im Rahmen dessen die Grundlage für ein Referenzkorpus des historischen Neuhochdeutschen (ca. 1600 bis ca. 1900) erarbeitet und als frei zugängliches Textkorpus über das Internet bereitgestellt wird. Die Methoden der Texterstellung, XML-basierten Aufbereitung und Annotation sowie die computerlinguistische Erschließung der DTA-Texte werden erläutert. Zudem werden Maßnahmen zur (kollaborativen) Qualitätssicherung sowie zur Erweiterung des Gesamtkorpus durch externe Textressourcen vorgestellt. Anhand von Beispielen werden die vielfältigen Möglichkeiten der Arbeit mit der DTA-Infrastruktur sowie der Nutzung der DTA-Korpora in verschiedenen Kontexten beispielhaft gezeigt. Die DTA-Korpora können dabei nicht allein für sprachhistorische Forschungen, sondern auch zur Vermittlung sprach- und kultur¬geschichtlicher Inhalte im universitären und schulischen Unterricht genutzt werden.

Measuring the Correctness of Double-Keying : Error Classification and Quality Control in a Large Corpus of TEI-Annotated Historical Text (2013)

Haaf, Susanne ; Wiegand, Frank ; Geyken, Alexander

Among mass digitization methods, double-keying is considered to be the one with the lowest error rate. This method requires two independent transcriptions of a text by two different operators. It is particularly well suited to historical texts, which often exhibit deficiencies like poor master copies or other difficulties such as spelling variation or complex text structures. Providers of data entry services using the double-keying method generally advertise very high accuracy rates (around 99.95% to 99.98%). These advertised percentages are generally estimated on the basis of small samples, and little if anything is said about either the actual amount of text or the text genres which have been proofread, about error types, proofreaders, etc. In order to obtain significant data on this problem it is necessary to analyze a large amount of text representing a balanced sample of different text types, to distinguish the structural XML/TEI level from the typographical level, and to differentiate between various types of errors which may originate from different sources and may not be equally severe. This paper presents an extensive and complex approach to the analysis and correction of double-keying errors which has been applied by the DFG-funded project “Deutsches Textarchiv” (German Text Archive, hereafter DTA) in order to evaluate and preferably to increase the transcription and annotation accuracy of double-keyed DTA texts. Statistical analyses of the results gained from proofreading a large quantity of text are presented, which verify the common accuracy rates for the double-keying method.

Open Access

400 Sprache

Refine

Author

Year of publication

Document Type

Language

Keywords

Has Fulltext

Institute

57 search hits