430 Germanische Sprachen; Deutsch
Refine
Document Type
- Conference Proceeding (5)
- Book (1)
Keywords
- Korpus <Linguistik> (5)
- Deutsch (2)
- Anthropologie (1)
- Frühneuhochdeutsch (1)
- Hartmann von Aue (1)
- Herrschaft (1)
- Individualität (1)
- Iwein (1)
- Lexikographie (1)
- Literatur (1)
Has Fulltext
- yes (6)
Die Schaffung des Bonner Frühneuhhochdeutsch-Referenzcorpus "Frühneuhochdeutsch", das seit 2011 an der Ruhr Universität Bochum in Zusammenarbeit mit der Universitäten Halle und Potsdam geschaffen wird, kann auf zwei zwischen 1972-1985 geschaffenen Bonner Corpora aufbauen: das große Gesamtcorpus, bestehend aus 1500 Texten vom 14.-17. Jahrhundert (aufgebaut 1972-74) und einem elektronischen Teilcorpus, bestehend aus 40 annotierten Texten (aufgebaut 1972-1985). Das elektronische Teilcorpus diente bisher mit seiner Annotation von Flexionsformen in Forschung und Lehre. Datenbestand und Struktur dieses Teilcorpus werden für die Schaffung des neuen Referenzcorpus genutzt, korrigiert, um bisher nicht digitalisierte Texte aus dem Gesamtcorpus erweitert und nach neuen Standards annotiert. Dieses Referenzcorpus des Frühneuhochdeutschen wird als Teil in ein umfassendes Historisches Referenzcorpus des Deutschen einfließen (von den Anfängen der deutschen Überlieferung bis 1800). Es soll für die Forschung zum Frühneuhochdeutschen zur Verfügung stehen. Abgelöst davon soll das alte Bonner Teilcorpus weiterhin zur Nutzung bereit stehen.
König Philipp und seine Krone : über Fremdheit und Nähe mittelalterlichen Dichtens und Denkens
(2014)
Eine eigentümliche, typisch mittelalterliche Auffassung von Herrscher und Herrschaft, Herrschaftszeichen und Legitimität zeigen zwei Kommentare Walthers von der Vogelweide zur doppelten deutschen Königswahl von 1198. In den beiden „Sprüchen“ wirbt der Dichter für den staufischen Thronbewerber Philipp von Schwaben und begründet es nicht mit rechtlichen Abstraktionen, sondern mit der äußeren Erscheinung des gekrönten Herrschers überhaupt sowie mit dessen Selbstdarstellung vor den Fürsten beim Weihnachtsfest in Magdeburg.
Strukturen dieses fremdartigen Denkens finden sich neben der Politik auch insgesamt in der Praxis der feudalen Laiengesellschaft und in der auf sie bezogenen Literatur. Dies wird auch an weiteren literarischen Texten (Nibelungenlied, ‚Iwein‘, ‚Parzival‘ u. a.) erörtert.
Virtually all conventional text-based natural language processing techniques - from traditional information retrieval systems to full-fledged parsers - require reference to a fixed lexicon accessed by surface form, typically trained from or constructed for synchronic input text adhering strictly to contemporary orthographic conventions. Unconventional input such as historical text which violates these conventions therefore presents difficulties for any such system due to lexical variants present in the input but missing from the application lexicon. To facilitate the extension of synchronically-oriented natural language processing techniques to historical text while minimizing the need for specialized lexical resources, one may first attempt an automatic canonicalization of the input text. This paper provides an informal overview of the various canonicalization techniques currently employed by the Deutsches Textarchiv project at the Berlin-Brandenburg Academy of Sciences and Humanities to prepare a corpus of historical German text for part-of-speech tagging, lemmatization, and integration into a robust online information retrieval system.
Auf dem Hintergrund des umfassenden EDV-Einsatzes, der die vorbereitende Materialbereitstellung seit 1986 (Findebuch zum mittelhochdeutschen Wortschatz) bzw. 1994 (für das neue Mittelhochdeutsche Wörterbuch selbst) ebenso wie die Ausarbeitung und Publikation des neuen Mittelhochdeutschen Wörterbuchs seit 2006 kennzeichnet, beleuchtet der Beitrag den Gewinn von digitalen Textcorpora für Macher und Nutzer von historischen Belegwörterbüchern: Den Lexikographen verschafft ein umfangreiches digitales Textarchiv und daraus durch halbautomatische Lemmatisierung gewonnenes Belegarchiv, das in einem Redaktionssystem für die Artikelarbeit bereitgestellt wird, größere und leichtere Übersicht über den historischen Sprachgebrauch und entlastet sie von zeitraubenden Exzerptions- und Korrekturarbeiten; den Wörterbuchbenutzern wird es durch die Verknüpfung der Belegzitate bzw. Belegstellenangaben mit den digitalisierten und im Online-Angebot zur Verfügung gestellten Volltexten der Wörterbuchquellen ermöglicht, den Quellenbezug der lexikographischen Befunde zu rekontextualisieren. Aus der Erfahrung eines Vierteljahrhunderts der Vorbereitung und Ausarbeitung eines großen digitalen Belegwörterbuchs werben die Autoren für die Bereitstellung von umfassenden digitalisierten Textcorpora (einschließlich der Retrodigitaliserung der älteren lexikographischen Hilfsmittel) für die historische Sprachforschung selbst wie für die Nutzer ihrer Forschungsergebnisse. Eine umfassende Textdigitalisierung von historischen Sprachquellen des Deutschen steckt aber leider (im Gegensatz zur Bilddigitalisierung von Handschriften und gedruckten Büchern) trotz großer Anstrengungen und überzeugender Ergebnisse in einzelnen Vorhaben immer noch in den Anfängen oder wird zum Teil unter zu engen Gesichtspunkten betrieben.
Der zentrale Gegenstand dieses Beitrags ist die Frage, wie Themen als grundlegende Aspekte der sprachlichen Verständigung mit dem Wortgebrauch zusammenhängen und wie diese Zusammenhänge - die thematische Prägung des Wortgebrauchs - auch für die lexikographisch-lexikologische Dokumentation des Wortgebrauchs fruchtbar gemacht werden kann. Es wird auf Ergebnisse der Gesprächsforschung, der Textlinguistik und der Diskursforschung zurückgegriffen. Anhand von Beispielen (u.a. aus den Themenbereichen Rassenhygiene, Naturschutz, Sport/Fußball, Hygiene, Technik und Haushalt) werden Vorschläge gemacht, wie man den Themenbezug historischer Kommunikation und die thematische Prägung lexikalischer Mittel auch in lexikographischen Darstellungen stärker verankern kann. Anhand von zwei Textbeispielen wird auch erläutert, wie thematische Schlüsseltexte lexikographisch-lexikologisch genutzt werden können, um historische Systemstellen von Themen und Teilthemen mit den entsprechenden Bereichen im Wortschatz zu füllen.
Das Korpus des Deutschen Textarchivs soll als Basis für ein dynamisch erweiterbares historisches Referenzkorpus dienen. Sieben Anforderungen für eine Korpus-Infrastruktur werden benannt, die dazu dienen sollen, Texte in systematischer Weise für die historische Korpusforschung nutzbar zu machen. Dazu gehören ein Textsorteninventar, die Einheitlichkeit der Formate, eine Qualitätssicherung, Übergreifende Abfragbarkeit bei nichtstandardisierten Wortformschreibungen, Nachnutzbarkeit der Texte, offenen Infrastrukturen für die Erweiterung der Textbasis und dynamische Strukturen für Updates und verschiedene Versionen der Datenbasis. Dabei werden auch rechtliche (OpenAccess) und technische (Standardisierung der Formate) Eckpfeiler benannt.