400 Sprache
Refine
Year of publication
Document Type
- Part of a Book (25)
- Lecture (16)
- Article (6)
- Conference Proceeding (4)
- Working Paper (3)
- Preprint (2)
- Review (1)
Language
- German (34)
- English (22)
- Multiple languages (1)
Keywords
Has Fulltext
- yes (57)
Institute
- Berlin-Brandenburgische Akademie der Wissenschaften (25)
- Akademienvorhaben Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm (15)
- Interdisziplinäre Arbeitsgruppe Die Herausforderung durch das Fremde (12)
- Akademienvorhaben Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache. Text- und Wissenskultur im alten Ägypten (3)
- Akademienvorhaben Turfanforschung (3)
- Veröffentlichungen von Akademiemitarbeitern (3)
- Akademienvorhaben Schleiermacher in Berlin 1808-1834, Briefwechsel, Tageskalender, Vorlesungen (2)
- Veröffentlichungen der Vorgängerakademien (2)
- Akademienvorhaben Alexander von Humboldt auf Reisen - Wissenschaft aus der Bewegung (1)
- Akademienvorhaben Digitales Wörterbuch der Deutschen Sprache (1)
The birth of rules
(2001)
For a fistful of blogs: Discovery and comparative benchmarking of republishable German content
(2014)
We introduce two corpora gathered on the web and related to computer-mediated communication: blog posts and blog comments. In order to build such corpora, we addressed following issues: website discovery and crawling, content extraction constraints, and text quality assessment. The blogs were manually classified as to their license and content type. Our results show that it is possible to find blogs in German under Creative Commons license, and that it is possible to perform text extraction and linguistic annotation efficiently enough to allow for a comparison with more traditional text types such as newspaper corpora and subtitles. The comparison gives insights on distributional properties of the processed web texts on token and type level. For example, quantitative analysis reveals that blog posts are close to written language, while comments are slightly closer to spoken language.
Das Schweizerische Idiotikon dokumentiert die deutsche Sprache in der Schweiz vom Jahr 1300 bis heute. Es ist mit bisher 16 Bänden (Wortstrecke A – W) das grösste Regionalwörterbuch des Deutschen. An ihm wird seit genau 150 Jahren kontinuierlich gearbeitet, in ca. 12 Jahren soll der 17. und letzte Band abgeschlossen sein. Zur einfacheren Benutzung und zur grösseren Verbreitung des gedruckten Werkes sowohl in der wissenschaftlichen Gemeinschaft wie auch in der interessierten weiteren Öffentlichkeit wurde vor 3 Jahren mit der Digitalisierung begonnen. Die komplexe Mikrostruktur der Wörterbuchartikel sowie die beschränkten personellen Ressourcen, die in erster Linie für die Weiterarbeit am letzten Band eingesetzt werden müssen, liess eine Volltextdigitalisierung mit ausgebautem TEI-Tagging als zu langwierig und zu ambitiös erscheinen. Daher wurde die Digitalisierung schrittweise angegangen, indem zuerst die Zugriffstrukturen über mit vielen Schreib- und Aussprachevarianten versehene digitale Register ausgebaut wurden. In einem zweiten Schritt wurden die Register mit den digitalisierten Abbildern der gedruckten Buchseiten verbunden, und in einem dritten, gegenwärtig realisierten Schritt wird die Suche über einen mittels OCR erstellten Volltext implementiert.
Khwarezmische Lexikographie
(2003)