Conference Proceeding
Refine
Document Type
- Conference Proceeding (13) (remove)
Language
- German (7)
- English (5)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (13) (remove)
Has Fulltext
- yes (13)
Das Korpus des Deutschen Textarchivs soll als Basis für ein dynamisch erweiterbares historisches Referenzkorpus dienen. Sieben Anforderungen für eine Korpus-Infrastruktur werden benannt, die dazu dienen sollen, Texte in systematischer Weise für die historische Korpusforschung nutzbar zu machen. Dazu gehören ein Textsorteninventar, die Einheitlichkeit der Formate, eine Qualitätssicherung, Übergreifende Abfragbarkeit bei nichtstandardisierten Wortformschreibungen, Nachnutzbarkeit der Texte, offenen Infrastrukturen für die Erweiterung der Textbasis und dynamische Strukturen für Updates und verschiedene Versionen der Datenbasis. Dabei werden auch rechtliche (OpenAccess) und technische (Standardisierung der Formate) Eckpfeiler benannt.
For a fistful of blogs: Discovery and comparative benchmarking of republishable German content
(2014)
We introduce two corpora gathered on the web and related to computer-mediated communication: blog posts and blog comments. In order to build such corpora, we addressed following issues: website discovery and crawling, content extraction constraints, and text quality assessment. The blogs were manually classified as to their license and content type. Our results show that it is possible to find blogs in German under Creative Commons license, and that it is possible to perform text extraction and linguistic annotation efficiently enough to allow for a comparison with more traditional text types such as newspaper corpora and subtitles. The comparison gives insights on distributional properties of the processed web texts on token and type level. For example, quantitative analysis reveals that blog posts are close to written language, while comments are slightly closer to spoken language.
Die internationale Tagung „Perspektiven einer corpusbasierten historischen Linguistik und Philologie“ vom 12. – 13. Dezember 2011 am Akademienvorhaben „Altägyptisches Wörterbuch“ der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) war dem Thema des Aufbaus und der Nutzungsperspektiven elektronischer Textcorpora und Wörterbücher in den historischen Sprachen gewidmet. Die Teilnehmer, Vertreter der Ägyptologie, der Hethitologie, Indogermanistik sowie Referenten aus der historischen Lexikographie des Mittel- und Frühneuhochdeutschen und des Altfranzösischen diskutierten vor allem über die Veränderungen, die mit dem Einsatz elektronischer Erfassungs- und Verarbeitungsprozeduren einhergehen.