Filtern
Dokumenttyp
- Vortrag, Vorlesung, Präsentation (8) (entfernen)
Schlagworte
- Digitalisierung (8) (entfernen)
Volltext vorhanden
- ja (8) (entfernen)
Norsk Ordbok is a 12 volume academic dictionary covering Norwegian Nynorsk literature and all Norwegian dialects from 1600 to the present. The dictionary is to be completed in 2014, the year of the bicentenary of the Norwegian constitution. The collection of data started in 1930 and the editing of the dictionary started in 1946. In the 1990s the Norwegian language collections were digitized, and from 2002 onwards Norsk Ordbok has been edited on a digital platform which communicates with a system of relational databases for manuscript storage. These databases include digitized slip archives, a draft manuscript from 1940, glossaries from the period between 1600 and 1850, canonical dictionaries from the period 1870-1910, bibliography, local dictionaries, text corpus (90 mill. words) etc. The source material is linked together in a Meta dictionary (MD). The MD is an electronic index with headwords in standard spelling, and it represents the hub of the language collections, where the source material from the databases is linked to headword nodes. This MD in turn communicates with the editing system and the dictionary database. The electronic linking up of the source material with the dictionary entries secures that the interpretation of data and product of scientific research can be reproducible in a very easy way. This is important to a scholarly dictionary. Further, the MD index system enables us to set a relative dimension for each dictionary entry and to make a master plan for setting alphabet dimensions for the whole dictionary. This is important to all modern dictionary projects with limited resources. The digitized source material, the digital editing platform and the digital dictionary product also point forward to new ways of presenting the data, and they point forward to future lexicographical research. The paper will present the digital resources of the Norsk Ordbok 2014 project, developed in close cooperation with the scientific programmers at the Unit of Digital Documentation at the University of Oslo. It will focus on the Norsk Ordbok 2014 experience with working on a fully digitized editing platform for the last 10 years, and it will also comment briefly on how the developed tools and resources point forward into Norwegian lexicography in the future.
Vor allem in älteren Wörterbüchern mit philologischer Ausrichtung ist die Mikrostruktur der Artikel häufig diskursiv und unsystematisch. Eine automatisierte Digitalisierung solcher Wörterbücher mit dem Ziel, ihre logische Struktur zu kodieren, ist nicht möglich; in vielen Fällen ist schon ein Parser für ein manuell nachzubearbeitendes Rohdigitalisat kein realistisches Ziel, weil die Angabetypen des Wörterbuchs nicht klar voneinander abgrenzbar und in den Einzelartikeln nicht eindeutig identifizierbar sind. In solchen Fällen wirft auch eine nachträgliche manuelle Formalisierung der Mikrostruktur große lexikografische Probleme auf. Für komplexere Anwendungsszenarien wie etwa Abfragen in Webanwendungen kann es dennoch unumgänglich sein, wenigstens sämtliche relevanten in den Artikeln diskutierten Wortformen mit grundsätzlichen diasystematischen und morphologischen Informationen sowie ihren Relationen zueinander in einem maschinell lesbaren Format strukturiert zu repräsentieren, etwa durch datenzentrierte XML-Dokumente. Der Vortrag versucht, die lexikografischen und technischen Möglichkeiten und Grenzen einer solchen teilweisen und manuellen Retrodigitalisierung am Beispiel von Erfahrungen mit einem älteren Wörterbuch deutscher Lehnwörter im Slovenischen (Striedter-Temps 1963) auszuloten. Das Wörterbuch soll in ein Portal von Lehnwörterbüchern mit Deutsch als gemeinsamer Gebersprache eingebunden werden. Die Einzelartikel werden dem Benutzer als Bilddigitalisate zur Verfügung gestellt; die zusätzliche textuelle Retrodigitalisierung ist jedoch für komplexere, insbesondere auch für wörterbuchübergreifende und portalweite, Suchabfragen erforderlich.
Con esta comunicación pretendemos debatir sobre los principales retos y oportunidades que supone un proyecto de cooperación entre la Academia de las Ciencias y las Humanidades de Berlín (BBAW) y la Casa Humboldt de la Oficina del Historiador de la Ciudad de La Habana (OHCH); asimismo, presentaremos los primeros avances realizados en la digitalización y edición digital con métodos filológicos de un corpus de textos centrado en la recepción del pensamiento antiesclavista de Alexander von Humboldt y en la realidad colonial de la isla.
El corpus seleccionado se define por su naturaleza transnacional y multilingüe (español, francés y alemán) y por su dispersión física, pues los documentos se encuentran en varias bibliotecas y archivos cubanos, alemanes y polacos. Gracias a las posibilidades de interconexión y reutilización del medio digital, este proyecto se propone preservar y dar acceso digital a una colección coherente y unitaria desde un punto de vista temático. De esta manera, los usuarios obtendrán una mirada nueva y completa al problema de la esclavitud y al funcionamiento del sistema colonial, que condenaba a la isla al monocultivo y a importar bienes de primera necesidad procedentes de la Metrópolis.
El proyecto cuenta con un equipo internacional y multilingüe capacitado para incrementar el acceso a través de internet del patrimonio cultural cubano-alemán. Con tal fin, se ha adquirido equipamiento (ordenadores, escáneres de alta resolución, impresora, mobiliario, etc.) adecuado con el que se digitalizarán los documentos preservados en Cuba. Asimismo, se espera definir una metodología en común que asegure la sostenibilidad de los archivos de imágenes en formato estándar (TIFF), la identificación y descripción de los objetos digitales mediante metadatos, la obtención de texto completo de las obras impresas por medio de tecnologías OCR, la representación de la estructura de los textos con lenguaje de marcado TEI/XML y, finalmente, la publicación de ediciones académicas digitales en una plataforma abierta y multilingüe.
¿Cuáles son las confluencias entre la biblioteconomía y las humanidades digitales? ¿Cómo pueden los humanistas digitales crear recursos en colaboración con los bibliotecarios? ¿Cómo la cultura y la política están dando forma al desarrollo de las prácticas de digitalización en América Latina y Europa? Esta ponencia pretende responder a algunas de estas preguntas analizando el Proyecto Humboldt Digital y dando algunos ejemplos sobre cuatro actividades de TADIRAH -captura, enriquecimiento, almacenamiento y difusión- relevantes tanto para bibliotecarios como para humanistas digitales.
The FEW is a huge dictionary when we consider the sheer mass of data (25 volumes, 16000 pages) and its exhaustive aims. It has indeed the purpose of registering and etymologizing the whole lexicon, not only of French, but also of earlier stages of the language and of Occitan; of every Gallo-romance dialect; of every technical or professional genre; of every language register, including slang. Summing up, the FEW aims to include and describe every single lexical unit which exists or has existed in the territory of ancient Gaul. The sheer size of this undertaking means two things, which directly influence the digitalisation of the dictionary: Firstly, there is a a huge amount of data; secondly, the presentation and organization of the data is exceedingly complex. The reasons for digitalising the FEW are the easy searches for units, and the carrying out of searches using criteria that are not possible to use with the printed version. However, the fulfillment of these purposes includes some risks, and potentially the cutting of some corners, especially the temptation of renouncing reading.
Entre la digitalización y la edición digital : retos y avances de “Proyecto Humboldt Digital”
(2022)
Tras la presentación de los objetivos, se discute los principales retos encontrados en Proyecto Humboldt Digital: sesgos de la digitalización, selección de documentos, Covid-19, embargo estadounidense, software libre, alianzas poscustodiales; asimismo se presentan los avances principales: flujo de trabajo, digitalización, adaptación de herramientas, documentación de criterios, edición de fuentes históricas, construcción de sitios web, exposición y actividades de difusión.
Der Beitrag geht von einer kritischen Bestandaufnahme digitalisierter Lexikografie der Gegenwart aus. Daran anknüpfend sollen pointierte Thesen bzw. Ideen formuliert werden, die auf Erkenntnisse über das Netzwerk europäischer Nachschlagewerke vergangener Jahrhunderte zurückgreifen. Die Thesen werden in zwei Richtungen entfaltet: In eine europäisch-globale Perspektive und in die Perspektive des Wunsches, Nutzerfreundlichkeit und wissenschaftliche Qualität mit einander zu verbinden.
Das Schweizerische Idiotikon dokumentiert die deutsche Sprache in der Schweiz vom Jahr 1300 bis heute. Es ist mit bisher 16 Bänden (Wortstrecke A – W) das grösste Regionalwörterbuch des Deutschen. An ihm wird seit genau 150 Jahren kontinuierlich gearbeitet, in ca. 12 Jahren soll der 17. und letzte Band abgeschlossen sein. Zur einfacheren Benutzung und zur grösseren Verbreitung des gedruckten Werkes sowohl in der wissenschaftlichen Gemeinschaft wie auch in der interessierten weiteren Öffentlichkeit wurde vor 3 Jahren mit der Digitalisierung begonnen. Die komplexe Mikrostruktur der Wörterbuchartikel sowie die beschränkten personellen Ressourcen, die in erster Linie für die Weiterarbeit am letzten Band eingesetzt werden müssen, liess eine Volltextdigitalisierung mit ausgebautem TEI-Tagging als zu langwierig und zu ambitiös erscheinen. Daher wurde die Digitalisierung schrittweise angegangen, indem zuerst die Zugriffstrukturen über mit vielen Schreib- und Aussprachevarianten versehene digitale Register ausgebaut wurden. In einem zweiten Schritt wurden die Register mit den digitalisierten Abbildern der gedruckten Buchseiten verbunden, und in einem dritten, gegenwärtig realisierten Schritt wird die Suche über einen mittels OCR erstellten Volltext implementiert.