Conference Proceeding
Refine
Year of publication
Document Type
- Conference Proceeding (74) (remove)
Language
- German (61)
- English (12)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (13)
- Technikphilosophie (12)
- Lexikographie (8)
- Mediävistik (3)
- Demotisch (2)
- Deutsch (2)
- Edition (2)
- Griechisch (2)
- Ingenieur (2)
- Konferenz (2)
Has Fulltext
- yes (74)
Institute
- Berlin-Brandenburgische Akademie der Wissenschaften (40)
- Akademienvorhaben Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache. Text- und Wissenskultur im alten Ägypten (19)
- Interdisziplinäre Arbeitsgruppe Gentechnologiebericht (14)
- Akademienvorhaben Monumenta Germaniae Historica (5)
- Zentrum Mittelalter (5)
- Veröffentlichungen von Akademiemitgliedern (3)
- ALLEA (2)
- TELOTA - IT/Digital Humanities (2)
- Akademienunion (1)
- Akademienvorhaben Altägyptisches Wörterbuch (1)
- Akademienvorhaben Berliner Klassik (1)
- Akademienvorhaben Digitales Wörterbuch der Deutschen Sprache (1)
For a fistful of blogs: Discovery and comparative benchmarking of republishable German content
(2014)
We introduce two corpora gathered on the web and related to computer-mediated communication: blog posts and blog comments. In order to build such corpora, we addressed following issues: website discovery and crawling, content extraction constraints, and text quality assessment. The blogs were manually classified as to their license and content type. Our results show that it is possible to find blogs in German under Creative Commons license, and that it is possible to perform text extraction and linguistic annotation efficiently enough to allow for a comparison with more traditional text types such as newspaper corpora and subtitles. The comparison gives insights on distributional properties of the processed web texts on token and type level. For example, quantitative analysis reveals that blog posts are close to written language, while comments are slightly closer to spoken language.
In 20 articles experts from research, politics and research management discuss current challenges and future advancements of European research infrastructures for the humanities and social sciences, particularly in view of the funding scheme Horizon 2020 and the ESRFI Roadmap update. Starting with an overview of SSH infrastructures it elaborates on four specific areas that increasingly demand a pan-European approach. Drawing from the SSH infrastructure projects´ experience, it then (re-) defines the requirements and potential for next generation infrastructure projects. They highlight the developments and problems they anticipate, focussing in particular on advancing digitalisation in the SSH. The book draws together the insights gained at a conference of the same name, “Facing the Future”, held in Berlin in November 2013. The conference was attended by 70 experts from 19 European countries who met to discuss the new challenges posed by the increasing necessity of integrating digital research tools into everyday working life. It was organised by the European Strategy Forum on Research Infrastructures (ESFRI), the federation of All European Academies (ALLEA), the Union of the German Academies of Sciences and Humanities, and the German Data Forum. It took place as part of a project financed by the German Federal Ministry of Education and Research (BMBF) entitled Survey and Analysis of Basic Research in the Social Sciences and Humanities in Europe (SASSH).
Einleitung
(2007)
Auf dem Hintergrund des umfassenden EDV-Einsatzes, der die vorbereitende Materialbereitstellung seit 1986 (Findebuch zum mittelhochdeutschen Wortschatz) bzw. 1994 (für das neue Mittelhochdeutsche Wörterbuch selbst) ebenso wie die Ausarbeitung und Publikation des neuen Mittelhochdeutschen Wörterbuchs seit 2006 kennzeichnet, beleuchtet der Beitrag den Gewinn von digitalen Textcorpora für Macher und Nutzer von historischen Belegwörterbüchern: Den Lexikographen verschafft ein umfangreiches digitales Textarchiv und daraus durch halbautomatische Lemmatisierung gewonnenes Belegarchiv, das in einem Redaktionssystem für die Artikelarbeit bereitgestellt wird, größere und leichtere Übersicht über den historischen Sprachgebrauch und entlastet sie von zeitraubenden Exzerptions- und Korrekturarbeiten; den Wörterbuchbenutzern wird es durch die Verknüpfung der Belegzitate bzw. Belegstellenangaben mit den digitalisierten und im Online-Angebot zur Verfügung gestellten Volltexten der Wörterbuchquellen ermöglicht, den Quellenbezug der lexikographischen Befunde zu rekontextualisieren. Aus der Erfahrung eines Vierteljahrhunderts der Vorbereitung und Ausarbeitung eines großen digitalen Belegwörterbuchs werben die Autoren für die Bereitstellung von umfassenden digitalisierten Textcorpora (einschließlich der Retrodigitaliserung der älteren lexikographischen Hilfsmittel) für die historische Sprachforschung selbst wie für die Nutzer ihrer Forschungsergebnisse. Eine umfassende Textdigitalisierung von historischen Sprachquellen des Deutschen steckt aber leider (im Gegensatz zur Bilddigitalisierung von Handschriften und gedruckten Büchern) trotz großer Anstrengungen und überzeugender Ergebnisse in einzelnen Vorhaben immer noch in den Anfängen oder wird zum Teil unter zu engen Gesichtspunkten betrieben.
Die demotische Wortliste steht als Liste aller demotischen Wortschreibungen für die Entzifferungsarbeit demotischer Texte zur Verfügung. In einer Präsentation werden die Abfragemöglichkeiten vorgestellt, wobei ein besonderer Schwerpunkt auf der Suche anhand der Graphien der Determinative liegt. Ferner wird die Wortliste um mögliche Wortschreibungen erweitert, die als Resultat von bekannten Lautveränderungen automatisch generiert werden. Damit können bei der philologischen Arbeit verschiedenste Wortformen auf einen Basiseintrag zurückgeführt werden.
Das Corpus der Sargtexte wird in seinem Bezug auf die altägyptische Nutzung als auch auf die ägyptologische Abgrenzung betrachtet. Ihr Wortlaut ist über Jahrtausende hinweg überliefert, greift auf die älteren Pyramidentexte zurück und ist in vielfältigen auch neuen Überlieferungskontexten und auf verschiedensten Textträgern überliefert. Die Bedeutung eines Sargtextes oder auch eines Spruches der Sargtexte wird in einer Art Fadenkreuz gesehen. Jeder Spruch besitzt überlieferungsgeschichtlich Wurzeln, die unterschiedlich weit, mitunter sehr weit zurückreichen können, ein Text ist immer aber auch als Produkt der Zeit zu verstehen und somit als ein Einzelmanuskript zu behandeln, das in jeweils neuem Umfeld auftreten kann. Das muss bei der Erschließung und Bereitstellung des Textcorpus mit seinen Mehrfachbezeugungen berücksichtigt werden.
Der Thesaurus Linguae Aegyptiae ist eine lexikalische Datenbank ägyptischer Texte. Durch die Verknüpfung einer Textdatenbank mit einem lexikalischen Wort-Thesaurus innerhalb eines modernen Navigationsprogramms sind vielfältige Abfragemöglichkeiten geschaffen worden, die weit über gedruckte Formate von Texteditionen und Wörterbüchern hinausgehen, diese aber nicht ersetzen sollen und können. Der TLA ist ein völlig neuartiges Instrument der Recherche und Forschung, das in diesem Aufsatz beschrieben wird.
Die Schaffung des Bonner Frühneuhhochdeutsch-Referenzcorpus "Frühneuhochdeutsch", das seit 2011 an der Ruhr Universität Bochum in Zusammenarbeit mit der Universitäten Halle und Potsdam geschaffen wird, kann auf zwei zwischen 1972-1985 geschaffenen Bonner Corpora aufbauen: das große Gesamtcorpus, bestehend aus 1500 Texten vom 14.-17. Jahrhundert (aufgebaut 1972-74) und einem elektronischen Teilcorpus, bestehend aus 40 annotierten Texten (aufgebaut 1972-1985). Das elektronische Teilcorpus diente bisher mit seiner Annotation von Flexionsformen in Forschung und Lehre. Datenbestand und Struktur dieses Teilcorpus werden für die Schaffung des neuen Referenzcorpus genutzt, korrigiert, um bisher nicht digitalisierte Texte aus dem Gesamtcorpus erweitert und nach neuen Standards annotiert. Dieses Referenzcorpus des Frühneuhochdeutschen wird als Teil in ein umfassendes Historisches Referenzcorpus des Deutschen einfließen (von den Anfängen der deutschen Überlieferung bis 1800). Es soll für die Forschung zum Frühneuhochdeutschen zur Verfügung stehen. Abgelöst davon soll das alte Bonner Teilcorpus weiterhin zur Nutzung bereit stehen.
Virtually all conventional text-based natural language processing techniques - from traditional information retrieval systems to full-fledged parsers - require reference to a fixed lexicon accessed by surface form, typically trained from or constructed for synchronic input text adhering strictly to contemporary orthographic conventions. Unconventional input such as historical text which violates these conventions therefore presents difficulties for any such system due to lexical variants present in the input but missing from the application lexicon. To facilitate the extension of synchronically-oriented natural language processing techniques to historical text while minimizing the need for specialized lexical resources, one may first attempt an automatic canonicalization of the input text. This paper provides an informal overview of the various canonicalization techniques currently employed by the Deutsches Textarchiv project at the Berlin-Brandenburg Academy of Sciences and Humanities to prepare a corpus of historical German text for part-of-speech tagging, lemmatization, and integration into a robust online information retrieval system.
Physical principles underlying biological pattern formation are discussed. In particular, the combination of local self-enhancement and long-range (“lateral”) inhibition (Gierer and Meinhardt, 1972) accounts for de-novo pattern formation, and for striking features of developmental regulation such as induction, spacing and proportion regulation of centers of activation in tissues and cells. Part I explains physical principles of spatial organisation in biological development. Part II demonstrates in mathematical terms that and how short-range activation and long-range inhibition are conditions for the generation of spatial concentration patterns. The conditions can be expressed in terms of ranges, rates and orders of reactions. These conditions, in turn, can also be derived by analysis of dynamic instabilities by means of Fourier waves, showing the neither obvious nor trivial relation between the latter approach and the theory based primarily on autocatalysis and lateral inhibition.
Der Artikel verweist auf die eindrucksvollen Beiträge moderner bewusstseinsnaher Hirnforschung zum Verständnis höherer Leistungen und Fähigkeiten des menschlichen Gehirns, geht dann aber auf Gründe für prinzipielle Grenzen einer naturwissenschaftlichen Erklärung unseres Bewusstseins ein. Insbesondere stehen entscheidungstheoretische Gründe vermutlich einer vollständigen Dekodierung der Gehirn-Geist-Beziehung entgegen, zumal hinsichtlich selbstbezogener Aspekte. Dies impliziert unter anderem, dass dem Einstieg in fremdes Bewusstsein Grenzen gesetzt sind, was die Gedanken, das Wissen und den Willen Anderer angeht - und doch gibt es oft zu wenig Bescheidenheit und Zurückhaltung im Urteil über angeblich genau bekannte fremde Motive.