Conference Proceeding
Refine
Year of publication
Document Type
- Conference Proceeding (74) (remove)
Language
- German (61)
- English (12)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (13)
- Technikphilosophie (12)
- Lexikographie (8)
- Mediävistik (3)
- Demotisch (2)
- Deutsch (2)
- Edition (2)
- Griechisch (2)
- Ingenieur (2)
- Konferenz (2)
Has Fulltext
- yes (74)
Institute
- Berlin-Brandenburgische Akademie der Wissenschaften (40)
- Akademienvorhaben Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache. Text- und Wissenskultur im alten Ägypten (19)
- Interdisziplinäre Arbeitsgruppe Gentechnologiebericht (14)
- Akademienvorhaben Monumenta Germaniae Historica (5)
- Zentrum Mittelalter (5)
- Veröffentlichungen von Akademiemitgliedern (3)
- ALLEA (2)
- TELOTA - IT/Digital Humanities (2)
- Akademienunion (1)
- Akademienvorhaben Altägyptisches Wörterbuch (1)
For a fistful of blogs: Discovery and comparative benchmarking of republishable German content
(2014)
We introduce two corpora gathered on the web and related to computer-mediated communication: blog posts and blog comments. In order to build such corpora, we addressed following issues: website discovery and crawling, content extraction constraints, and text quality assessment. The blogs were manually classified as to their license and content type. Our results show that it is possible to find blogs in German under Creative Commons license, and that it is possible to perform text extraction and linguistic annotation efficiently enough to allow for a comparison with more traditional text types such as newspaper corpora and subtitles. The comparison gives insights on distributional properties of the processed web texts on token and type level. For example, quantitative analysis reveals that blog posts are close to written language, while comments are slightly closer to spoken language.
In 20 articles experts from research, politics and research management discuss current challenges and future advancements of European research infrastructures for the humanities and social sciences, particularly in view of the funding scheme Horizon 2020 and the ESRFI Roadmap update. Starting with an overview of SSH infrastructures it elaborates on four specific areas that increasingly demand a pan-European approach. Drawing from the SSH infrastructure projects´ experience, it then (re-) defines the requirements and potential for next generation infrastructure projects. They highlight the developments and problems they anticipate, focussing in particular on advancing digitalisation in the SSH. The book draws together the insights gained at a conference of the same name, “Facing the Future”, held in Berlin in November 2013. The conference was attended by 70 experts from 19 European countries who met to discuss the new challenges posed by the increasing necessity of integrating digital research tools into everyday working life. It was organised by the European Strategy Forum on Research Infrastructures (ESFRI), the federation of All European Academies (ALLEA), the Union of the German Academies of Sciences and Humanities, and the German Data Forum. It took place as part of a project financed by the German Federal Ministry of Education and Research (BMBF) entitled Survey and Analysis of Basic Research in the Social Sciences and Humanities in Europe (SASSH).
Einleitung
(2007)
Auf dem Hintergrund des umfassenden EDV-Einsatzes, der die vorbereitende Materialbereitstellung seit 1986 (Findebuch zum mittelhochdeutschen Wortschatz) bzw. 1994 (für das neue Mittelhochdeutsche Wörterbuch selbst) ebenso wie die Ausarbeitung und Publikation des neuen Mittelhochdeutschen Wörterbuchs seit 2006 kennzeichnet, beleuchtet der Beitrag den Gewinn von digitalen Textcorpora für Macher und Nutzer von historischen Belegwörterbüchern: Den Lexikographen verschafft ein umfangreiches digitales Textarchiv und daraus durch halbautomatische Lemmatisierung gewonnenes Belegarchiv, das in einem Redaktionssystem für die Artikelarbeit bereitgestellt wird, größere und leichtere Übersicht über den historischen Sprachgebrauch und entlastet sie von zeitraubenden Exzerptions- und Korrekturarbeiten; den Wörterbuchbenutzern wird es durch die Verknüpfung der Belegzitate bzw. Belegstellenangaben mit den digitalisierten und im Online-Angebot zur Verfügung gestellten Volltexten der Wörterbuchquellen ermöglicht, den Quellenbezug der lexikographischen Befunde zu rekontextualisieren. Aus der Erfahrung eines Vierteljahrhunderts der Vorbereitung und Ausarbeitung eines großen digitalen Belegwörterbuchs werben die Autoren für die Bereitstellung von umfassenden digitalisierten Textcorpora (einschließlich der Retrodigitaliserung der älteren lexikographischen Hilfsmittel) für die historische Sprachforschung selbst wie für die Nutzer ihrer Forschungsergebnisse. Eine umfassende Textdigitalisierung von historischen Sprachquellen des Deutschen steckt aber leider (im Gegensatz zur Bilddigitalisierung von Handschriften und gedruckten Büchern) trotz großer Anstrengungen und überzeugender Ergebnisse in einzelnen Vorhaben immer noch in den Anfängen oder wird zum Teil unter zu engen Gesichtspunkten betrieben.
Die demotische Wortliste steht als Liste aller demotischen Wortschreibungen für die Entzifferungsarbeit demotischer Texte zur Verfügung. In einer Präsentation werden die Abfragemöglichkeiten vorgestellt, wobei ein besonderer Schwerpunkt auf der Suche anhand der Graphien der Determinative liegt. Ferner wird die Wortliste um mögliche Wortschreibungen erweitert, die als Resultat von bekannten Lautveränderungen automatisch generiert werden. Damit können bei der philologischen Arbeit verschiedenste Wortformen auf einen Basiseintrag zurückgeführt werden.
Das Corpus der Sargtexte wird in seinem Bezug auf die altägyptische Nutzung als auch auf die ägyptologische Abgrenzung betrachtet. Ihr Wortlaut ist über Jahrtausende hinweg überliefert, greift auf die älteren Pyramidentexte zurück und ist in vielfältigen auch neuen Überlieferungskontexten und auf verschiedensten Textträgern überliefert. Die Bedeutung eines Sargtextes oder auch eines Spruches der Sargtexte wird in einer Art Fadenkreuz gesehen. Jeder Spruch besitzt überlieferungsgeschichtlich Wurzeln, die unterschiedlich weit, mitunter sehr weit zurückreichen können, ein Text ist immer aber auch als Produkt der Zeit zu verstehen und somit als ein Einzelmanuskript zu behandeln, das in jeweils neuem Umfeld auftreten kann. Das muss bei der Erschließung und Bereitstellung des Textcorpus mit seinen Mehrfachbezeugungen berücksichtigt werden.