Filtern
Dokumenttyp
Sprache
- Deutsch (14)
- Englisch (7)
- Mehrsprachig (1)
Schlagworte
- Korpus <Linguistik> (22) (entfernen)
Volltext vorhanden
- ja (22) (entfernen)
Institut
- Akademienvorhaben Strukturen und Transformationen des Wortschatzes der ägyptischen Sprache. Text- und Wissenskultur im alten Ägypten (11)
- Akademienvorhaben Altägyptisches Wörterbuch (6)
- Akademienvorhaben Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm (1)
- Akademienvorhaben Digitales Wörterbuch der Deutschen Sprache (1)
- Drittmittelprojekt Deutsches Textarchiv (1)
For a fistful of blogs: Discovery and comparative benchmarking of republishable German content
(2014)
We introduce two corpora gathered on the web and related to computer-mediated communication: blog posts and blog comments. In order to build such corpora, we addressed following issues: website discovery and crawling, content extraction constraints, and text quality assessment. The blogs were manually classified as to their license and content type. Our results show that it is possible to find blogs in German under Creative Commons license, and that it is possible to perform text extraction and linguistic annotation efficiently enough to allow for a comparison with more traditional text types such as newspaper corpora and subtitles. The comparison gives insights on distributional properties of the processed web texts on token and type level. For example, quantitative analysis reveals that blog posts are close to written language, while comments are slightly closer to spoken language.
Der Artikel stellt zunächst die Grundlagen und Ziele des an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) beheimateten, DFG-geförderten Projekts Deutsches Textarchiv (DTA) vor, im Rahmen dessen die Grundlage für ein Referenzkorpus des historischen Neuhochdeutschen (ca. 1600 bis ca. 1900) erarbeitet und als frei zugängliches Textkorpus über das Internet bereitgestellt wird. Die Methoden der Texterstellung, XML-basierten Aufbereitung und Annotation sowie die computerlinguistische Erschließung der DTA-Texte werden erläutert. Zudem werden Maßnahmen zur (kollaborativen) Qualitätssicherung sowie zur Erweiterung des Gesamtkorpus durch externe Textressourcen vorgestellt. Anhand von Beispielen werden die vielfältigen Möglichkeiten der Arbeit mit der DTA-Infrastruktur sowie der Nutzung der DTA-Korpora in verschiedenen Kontexten beispielhaft gezeigt. Die DTA-Korpora können dabei nicht allein für sprachhistorische Forschungen, sondern auch zur Vermittlung sprach- und kultur¬geschichtlicher Inhalte im universitären und schulischen Unterricht genutzt werden.