Refine
Document Type
- Lecture (2)
- Conference Proceeding (1)
Keywords
- Computer-mediated communication (1)
- Computerlinguistik (1)
- Corpus linguistics (1)
- Creative Commons (1)
- Digital Humanities (1)
- Korpus <Linguistik> (1)
- Linguistik (1)
- Sprachstatistik (1)
- Text quality assessment (1)
- Web crawling (1)
- Web log (1)
Has Fulltext
- yes (3)
For a fistful of blogs: Discovery and comparative benchmarking of republishable German content
(2014)
We introduce two corpora gathered on the web and related to computer-mediated communication: blog posts and blog comments. In order to build such corpora, we addressed following issues: website discovery and crawling, content extraction constraints, and text quality assessment. The blogs were manually classified as to their license and content type. Our results show that it is possible to find blogs in German under Creative Commons license, and that it is possible to perform text extraction and linguistic annotation efficiently enough to allow for a comparison with more traditional text types such as newspaper corpora and subtitles. The comparison gives insights on distributional properties of the processed web texts on token and type level. For example, quantitative analysis reveals that blog posts are close to written language, while comments are slightly closer to spoken language.
(Open-Source-)OCR-Workflows
(2017)
Slides for the OCR-D talk at the Digital Humanities Kolloquium at the Berlin-Brandenburg Academy of Sciences and Humanities (4th August 2017).
Der Vortrag bietet eine Rückschau auf die Jahreskonferenz der Digital Humanities im deutschsprachigen Raum zu dem Thema "Kritik der digitalen Vernunft", die von 26.2. bis 2.3.2018 in Köln stattfand. Zunächst wird ein Überblick zu den Konferenzbeiträgen der Mitarbeiterinnen und Mitarbeiter der BBAW gegeben. Die Bandbreite der Beiträge aus dem Haus umfasst sowohl praxisorientierte Vorträge, in denen die Entwicklung digitaler Editionen und Korpora thematisiert wird, als auch theoretische Reflexionen. Im Anschluss formulieren die Vortragenden die wesentlichen Beobachtungen und Eindrücke zur Frage, wo die verschiedenen Bereiche der Digital Humanities (z. B. digitale Editionen, quantitative Textanalyse, Softwareentwicklung) im Moment stehen und welche Tendenzen sich für die nahe Zukunft abzeichnen.