Refine
Document Type
- Article (1)
- Conference Proceeding (1)
Language
- English (2) (remove)
Keywords
- Linguistik (2) (remove)
Has Fulltext
- yes (2) (remove)
For a fistful of blogs: Discovery and comparative benchmarking of republishable German content
(2014)
We introduce two corpora gathered on the web and related to computer-mediated communication: blog posts and blog comments. In order to build such corpora, we addressed following issues: website discovery and crawling, content extraction constraints, and text quality assessment. The blogs were manually classified as to their license and content type. Our results show that it is possible to find blogs in German under Creative Commons license, and that it is possible to perform text extraction and linguistic annotation efficiently enough to allow for a comparison with more traditional text types such as newspaper corpora and subtitles. The comparison gives insights on distributional properties of the processed web texts on token and type level. For example, quantitative analysis reveals that blog posts are close to written language, while comments are slightly closer to spoken language.
An der Sprache des Rechts wird Kritik geübt, seit die Aufklärung die Verständlichkeit der Gesetze zu ihrem Anliegen gemacht hat. Mit den großen Kodifikationen des Rechts im ausgehenden 19. Jahrhundert hat die Kritik am angeblich schlechten, unverständlichen Juristendeutsch eine besondere demokratietheoretische Legitimation bekommen. Diese Sprachkritik sucht seit den siebziger Jahren vermehrt bei der Linguistik Rat, wie denn eine bessere Allgemeinverständlichkeit von Rechtstexten verwirklicht werden könnte. Der Band versammelt systematisch aufeinander bezogene Beiträge ausgewiesener Linguisten, Juristen und Schriftsteller zur Problematik des Verständnisses juristischer Sprache, zur Methodik empirischer Verständlichkeitsmessung und zu den Möglichkeiten transdisziplinärer Kooperation zwischen Rechts- und Sprachwissenschaftlern.