Conference Proceeding
Refine
Year of publication
Document Type
- Conference Proceeding (74) (remove)
Language
- German (61)
- English (12)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (13)
- Technikphilosophie (12)
- Lexikographie (8)
- Mediävistik (3)
- Demotisch (2)
- Deutsch (2)
- Edition (2)
- Griechisch (2)
- Ingenieur (2)
- Konferenz (2)
Has Fulltext
- yes (74)
Institute
- Berlin-Brandenburgische Akademie der Wissenschaften (40)
- Akademienvorhaben Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache. Text- und Wissenskultur im alten Ägypten (19)
- Interdisziplinäre Arbeitsgruppe Gentechnologiebericht (14)
- Akademienvorhaben Monumenta Germaniae Historica (5)
- Zentrum Mittelalter (5)
- Veröffentlichungen von Akademiemitgliedern (3)
- ALLEA (2)
- TELOTA - IT/Digital Humanities (2)
- Akademienunion (1)
- Akademienvorhaben Altägyptisches Wörterbuch (1)
Der griechisch-ägyptische Sprachkontakt, wie er sich in der Anreicherung des ägyptischen Lexikons im 1. Jahrtausend n. Chr. mit mehr als 4500 griechischen Wörtern der meisten Wortarten und semantischen Felder darstellt, ist einer der am breitesten und dichtesten bezeugten Fälle von intensiver lexikalischer Entlehnung in der Antike. Doch die Erfassung und elementare Aufbereitung der relevanten Sprachdaten, d.h. die Lexikographie griechischer Lehnwörter im Koptischen, scheiterte mehrmals während des 20. Jahrhunderts und ist zu einem kardinalen Desiderat der ägyptischen Wortforschung geworden. Vom 1. April 2010 bis zum 31. März 2012 arbeitete am Ägyptologischen Institut der Universität Leipzig das in der Ausschreibung „Geistes- und Sozialwissenschaftliche Forschung“ des Sächsischen Staatsministeriums für Wissenschaft und Kunst und der Sächsischen Akademie der Wissenschaften zu Leipzig bewilligte Projekt Database and Dictionary of Greek Loanwords in Coptic (DDGLC). In dieser zweijährigen Pilotphase wurde die Möglichkeit getestet, das umfangreiche und in sich reich untergliederte Gesamtcorpus koptischer Texte lehnwortlexikographisch aufzuarbeiten. Dazu wurden in einer Arbeitsdatenbank konzeptuelle und technische Voraussetzungen geschaffen und eine lexikographische Praxis entwickelt und erprobt, die hier in gebotener Kürze vorgestellt werden sollen.
Im 20. Jahr nach dem Mauerfall fand in der Berlin-Brandenburgischen Akademie der Wissenschaften vom 24. bis 25. November 2009 das Symposium „Wissenschaft und Wiedervereinigung. Bilanz und offene Fragen“ statt. Im Rahmen des Wissenschaftsjahres 2009 diskutierten Wissenschaftler und Wissenschaftspolitiker, ob bei der Vereinigung der beiden deutschen Wissenschaftssysteme Chancen genutzt oder verpasst wurden. Wie unterschiedlich oder ähnlich entwickelten sich die beiden getrennten Systeme bis zum Mauerfall? Wie kamen nach 1989 – welche – Entscheidungen zustande und mit welchen Folgen wurden sie umgesetzt? Kann der Um- und Neuaufbau von Hochschulen und außeruniversitären Instituten im Osten als Erfolg bewertet werden und wie steht es um die Zukunftsfähigkeit des gesamtdeutschen Wissenschaftssystems im globalen Wettbewerb? Die Ergebnisse des Symposiums sind in dieser Dokumentation nachzulesen. Sie enthält die Eröffnungsreden von Bundesministerin Annette Schavan und BBAW-Präsident Günter Stock, die Einführung und die Schlussbemerkungen von Jürgen Kocka sowie die Impulsreferate von Richard Schröder, Winfried Schulze, Mitchell G. Ash, Peer Pasternack und Wilhelm Krull. Die Redaktion der Referate und die Zusammenfassungen der Diskussionsbeiträge sämtlicher Podiumsteilnehmer verantworten die beiden Wissenschaftsjournalisten Corina Weber (Auftakt, Forum I und II) und Jörg von Bilavsky (Auftakt, Forum III und IV), die das Symposium vorbereitet und organisiert haben.
For a fistful of blogs: Discovery and comparative benchmarking of republishable German content
(2014)
We introduce two corpora gathered on the web and related to computer-mediated communication: blog posts and blog comments. In order to build such corpora, we addressed following issues: website discovery and crawling, content extraction constraints, and text quality assessment. The blogs were manually classified as to their license and content type. Our results show that it is possible to find blogs in German under Creative Commons license, and that it is possible to perform text extraction and linguistic annotation efficiently enough to allow for a comparison with more traditional text types such as newspaper corpora and subtitles. The comparison gives insights on distributional properties of the processed web texts on token and type level. For example, quantitative analysis reveals that blog posts are close to written language, while comments are slightly closer to spoken language.
Vorwort / Beiträge zum Ehrenkolloquium von Eckhard Müller-Mertens anlässlich seines 90. Geburtstages
(2014)
Die Vielschichtigkeit der über 4500-jährigen schriftlichen ägyptischen Texttradition mit ineinander greifenden Sprachstufen, niedergelegt in verschiedene Schriftformen, hat einen adäquaten einheitlichen Zugang zum ägyptischen Wortschatz erschwert. Das Ägyptisch-Koptische wurde bisher lexikographisch separat innerhalb von Teildisziplinen erschlossen - für das Hieroglyphisch-Hieratische, für das Demotische und für das Koptische in jeweils eigenen Wörterbüchern. Um einen einheitlichen Zugang zum ägyptisch-koptischen Wortschatz zu schaffen und auch den Sprachwandel dieser Sprache besser abbilden zu können, wird eine integrierte elektronische Wortliste geschaffen, in der Lexeme aus allen Sprachstufen in allen überlieferten Schriftformen verzeichnet und miteinander vernetzt dargestellt werden. Die Schwierigkeiten bei der Abbildung des synchronen und diachronen Wortgebrauchs mit einem damit verbundenen Wechsel in Orthographie und Lautung sowie in Syntax und Semantik werden an ausgewählten Beispielen dargestellt.
Das Corpus der Sargtexte wird in seinem Bezug auf die altägyptische Nutzung als auch auf die ägyptologische Abgrenzung betrachtet. Ihr Wortlaut ist über Jahrtausende hinweg überliefert, greift auf die älteren Pyramidentexte zurück und ist in vielfältigen auch neuen Überlieferungskontexten und auf verschiedensten Textträgern überliefert. Die Bedeutung eines Sargtextes oder auch eines Spruches der Sargtexte wird in einer Art Fadenkreuz gesehen. Jeder Spruch besitzt überlieferungsgeschichtlich Wurzeln, die unterschiedlich weit, mitunter sehr weit zurückreichen können, ein Text ist immer aber auch als Produkt der Zeit zu verstehen und somit als ein Einzelmanuskript zu behandeln, das in jeweils neuem Umfeld auftreten kann. Das muss bei der Erschließung und Bereitstellung des Textcorpus mit seinen Mehrfachbezeugungen berücksichtigt werden.
Das Korpus des Deutschen Textarchivs soll als Basis für ein dynamisch erweiterbares historisches Referenzkorpus dienen. Sieben Anforderungen für eine Korpus-Infrastruktur werden benannt, die dazu dienen sollen, Texte in systematischer Weise für die historische Korpusforschung nutzbar zu machen. Dazu gehören ein Textsorteninventar, die Einheitlichkeit der Formate, eine Qualitätssicherung, Übergreifende Abfragbarkeit bei nichtstandardisierten Wortformschreibungen, Nachnutzbarkeit der Texte, offenen Infrastrukturen für die Erweiterung der Textbasis und dynamische Strukturen für Updates und verschiedene Versionen der Datenbasis. Dabei werden auch rechtliche (OpenAccess) und technische (Standardisierung der Formate) Eckpfeiler benannt.
Physical principles underlying biological pattern formation are discussed. In particular, the combination of local self-enhancement and long-range (“lateral”) inhibition (Gierer and Meinhardt, 1972) accounts for de-novo pattern formation, and for striking features of developmental regulation such as induction, spacing and proportion regulation of centers of activation in tissues and cells. Part I explains physical principles of spatial organisation in biological development. Part II demonstrates in mathematical terms that and how short-range activation and long-range inhibition are conditions for the generation of spatial concentration patterns. The conditions can be expressed in terms of ranges, rates and orders of reactions. These conditions, in turn, can also be derived by analysis of dynamic instabilities by means of Fourier waves, showing the neither obvious nor trivial relation between the latter approach and the theory based primarily on autocatalysis and lateral inhibition.
This is the invited evening lecture of the biannual workshop on hydroid development of 1999. Its topic is the role of hydra as a rather puristic model for the de-novo generation of spatial patterns in development, and our work in this field. Emphasis is placed not only on experimental studies, but also on theoretical analysis, because the understanding of spatial order requires a systems approach involving the combination of knowledge on molecules, cells and tissues with mathematical analysis, laws and facts.
Der Artikel verweist auf die eindrucksvollen Beiträge moderner bewusstseinsnaher Hirnforschung zum Verständnis höherer Leistungen und Fähigkeiten des menschlichen Gehirns, geht dann aber auf Gründe für prinzipielle Grenzen einer naturwissenschaftlichen Erklärung unseres Bewusstseins ein. Insbesondere stehen entscheidungstheoretische Gründe vermutlich einer vollständigen Dekodierung der Gehirn-Geist-Beziehung entgegen, zumal hinsichtlich selbstbezogener Aspekte. Dies impliziert unter anderem, dass dem Einstieg in fremdes Bewusstsein Grenzen gesetzt sind, was die Gedanken, das Wissen und den Willen Anderer angeht - und doch gibt es oft zu wenig Bescheidenheit und Zurückhaltung im Urteil über angeblich genau bekannte fremde Motive.
The article summarizes the contents and the structurtal premises of the “Thesaurus Indogermanischer Text- und Sprachmaterialien” (TITUS), focussing on search functions and facilities and questions of the encoding of ancient languages written in various scripts. Examples are taken from Tocharian, Greek, Vedic Sanskrit, and other ancient Indo-European languages covered by TITUS.
Der zentrale Gegenstand dieses Beitrags ist die Frage, wie Themen als grundlegende Aspekte der sprachlichen Verständigung mit dem Wortgebrauch zusammenhängen und wie diese Zusammenhänge - die thematische Prägung des Wortgebrauchs - auch für die lexikographisch-lexikologische Dokumentation des Wortgebrauchs fruchtbar gemacht werden kann. Es wird auf Ergebnisse der Gesprächsforschung, der Textlinguistik und der Diskursforschung zurückgegriffen. Anhand von Beispielen (u.a. aus den Themenbereichen Rassenhygiene, Naturschutz, Sport/Fußball, Hygiene, Technik und Haushalt) werden Vorschläge gemacht, wie man den Themenbezug historischer Kommunikation und die thematische Prägung lexikalischer Mittel auch in lexikographischen Darstellungen stärker verankern kann. Anhand von zwei Textbeispielen wird auch erläutert, wie thematische Schlüsseltexte lexikographisch-lexikologisch genutzt werden können, um historische Systemstellen von Themen und Teilthemen mit den entsprechenden Bereichen im Wortschatz zu füllen.
Auf dem Hintergrund des umfassenden EDV-Einsatzes, der die vorbereitende Materialbereitstellung seit 1986 (Findebuch zum mittelhochdeutschen Wortschatz) bzw. 1994 (für das neue Mittelhochdeutsche Wörterbuch selbst) ebenso wie die Ausarbeitung und Publikation des neuen Mittelhochdeutschen Wörterbuchs seit 2006 kennzeichnet, beleuchtet der Beitrag den Gewinn von digitalen Textcorpora für Macher und Nutzer von historischen Belegwörterbüchern: Den Lexikographen verschafft ein umfangreiches digitales Textarchiv und daraus durch halbautomatische Lemmatisierung gewonnenes Belegarchiv, das in einem Redaktionssystem für die Artikelarbeit bereitgestellt wird, größere und leichtere Übersicht über den historischen Sprachgebrauch und entlastet sie von zeitraubenden Exzerptions- und Korrekturarbeiten; den Wörterbuchbenutzern wird es durch die Verknüpfung der Belegzitate bzw. Belegstellenangaben mit den digitalisierten und im Online-Angebot zur Verfügung gestellten Volltexten der Wörterbuchquellen ermöglicht, den Quellenbezug der lexikographischen Befunde zu rekontextualisieren. Aus der Erfahrung eines Vierteljahrhunderts der Vorbereitung und Ausarbeitung eines großen digitalen Belegwörterbuchs werben die Autoren für die Bereitstellung von umfassenden digitalisierten Textcorpora (einschließlich der Retrodigitaliserung der älteren lexikographischen Hilfsmittel) für die historische Sprachforschung selbst wie für die Nutzer ihrer Forschungsergebnisse. Eine umfassende Textdigitalisierung von historischen Sprachquellen des Deutschen steckt aber leider (im Gegensatz zur Bilddigitalisierung von Handschriften und gedruckten Büchern) trotz großer Anstrengungen und überzeugender Ergebnisse in einzelnen Vorhaben immer noch in den Anfängen oder wird zum Teil unter zu engen Gesichtspunkten betrieben.
Der Thesaurus Linguae Aegyptiae ist eine lexikalische Datenbank ägyptischer Texte. Durch die Verknüpfung einer Textdatenbank mit einem lexikalischen Wort-Thesaurus innerhalb eines modernen Navigationsprogramms sind vielfältige Abfragemöglichkeiten geschaffen worden, die weit über gedruckte Formate von Texteditionen und Wörterbüchern hinausgehen, diese aber nicht ersetzen sollen und können. Der TLA ist ein völlig neuartiges Instrument der Recherche und Forschung, das in diesem Aufsatz beschrieben wird.
Begrüßung
(2005)
Die demotische Wortliste steht als Liste aller demotischen Wortschreibungen für die Entzifferungsarbeit demotischer Texte zur Verfügung. In einer Präsentation werden die Abfragemöglichkeiten vorgestellt, wobei ein besonderer Schwerpunkt auf der Suche anhand der Graphien der Determinative liegt. Ferner wird die Wortliste um mögliche Wortschreibungen erweitert, die als Resultat von bekannten Lautveränderungen automatisch generiert werden. Damit können bei der philologischen Arbeit verschiedenste Wortformen auf einen Basiseintrag zurückgeführt werden.
Professor Dr. Eckhard Müller-Mertens als Hochschullehrer an der Humboldt-Universität zu Berlin
(2014)
Virtually all conventional text-based natural language processing techniques - from traditional information retrieval systems to full-fledged parsers - require reference to a fixed lexicon accessed by surface form, typically trained from or constructed for synchronic input text adhering strictly to contemporary orthographic conventions. Unconventional input such as historical text which violates these conventions therefore presents difficulties for any such system due to lexical variants present in the input but missing from the application lexicon. To facilitate the extension of synchronically-oriented natural language processing techniques to historical text while minimizing the need for specialized lexical resources, one may first attempt an automatic canonicalization of the input text. This paper provides an informal overview of the various canonicalization techniques currently employed by the Deutsches Textarchiv project at the Berlin-Brandenburg Academy of Sciences and Humanities to prepare a corpus of historical German text for part-of-speech tagging, lemmatization, and integration into a robust online information retrieval system.
Einleitung
(2007)
Antike und moderne Freiheit
(2003)
When managing large quantities of data, it is a common solution to utilize a centralized data management software to forge a connection between metadata and the data objects themselves. In case of text-based objects without any attached metadata, it is easy for humans to contextualize these objects by recognizing patterns such as filenames, titles, authors etc. This task becomes a challenge when dealing with non-text-based objects like images in the cultural heritage domain. Without metadata or expert knowledge, it becomes difficult to estimate the creation date of a painting or tell the name of its painter. Thus, the ability to contextualize data depends on whether there is a working connection between the metadata store and the data object itself. This connection fails as soon as the file is moved on the file system without having these changes also applied in the corresponding
data base, or when the file is shared without a reference to its original location. This paper presents an approach to overcome that type of co-dependency by utilizing XMP to embed cultural heritage metadata directly into image files to ensure their location-independent long-term preservation. The “Corpus Vitrearum Medii Aevi” Germany (CVMA) project serves as an example use-case.
quoteSalute strives to make data of digital scholarly editions of letters (DSELs) accessible in a playful fashion by enabling users to integrate salutations from DSELs in their own email correspondence. The foundation of quoteSalute is a curated TEI-XML text corpus which has been created by extracting <salute>-tags from TEI-XML-encoded DSELs. For providing users with fitting salutations, we annotated the data regarding language, level of politeness and intended gender of sender and receiver.
This paper is an updated presentation of the Ramses project being currently developed at the University of Liège. The first section stresses the main objectives and gives a technical description of the general architecture of Ramses software. The second part describes the encoding procedures and reviews the current state of the annotation. In the third section, some changes brought about by the use of large-scale corpora are discussed from an epistemological viewpoint. The paper ends with the presentation of some new avenues for research that will ensue from the use of a complex multilevel corpus.