OCR4all – ein Tool zur automatischen Texterkennung von historischen Quellen

Die Arbeit in den Humanities erfolgt häufig mit historischen Quellen in Form von gedruckten und handschriftlichen Texten. Meist liegen diese nur in Scans von sehr unterschiedlicher Qualität vor, was die weitere Bearbeitung einschränkt, insbesondere etwa die Volltextsuche oder Verfahren der quantitativen Analyse. Hierzu muss zunächst ein maschinenlesbarer Volltext erstellt werden. Der Workshop gibt einen Überblick über den aktuellen Stand zu Methoden, Tools und Ansätzen zur automatischen Texterkennung und einen praktischen Einblick mit Hands-on-Elementen in die an der Universität Würzburg entwickelte freie Software OCR4all (eine Alternative zu "Transkribus"). OCR4all kombiniert verschiedene Open-Source-Lösungen, um einen vollautomatischen Arbeitsablauf für die automatische Texterkennung von historischem gedrucktem (optical character recognition, OCR) und handschriftlichem (handwritten text recognition, HTR) Material bereitzustellen. In jeder Phase des Workflows kann der:die Benutzer:in mit den Ergebnissen interagieren, um Fehler zu minimieren und das Endergebnis zu optimieren.

Der Workshop wird gehalten von Eliese-Sophia Lincke, Juniorprofessorin für Computerphilologie & Data Science der Sprachen der Alten Welt an der FU Berlin, und Florian Langhanki vom Zentrum für Philologie und Digitalität der U Würzburg und Mitglied des OCR4all-Projektteams.

Der Workshop ist eine gemeinsame Veranstaltung des Digital Lab am ReCentGlobe und der Sächsischen Akademie der Wissenschaften zu Leipzig (SAW).

Datum und Zeit: 5. Dezember 2023, 10–16.30 Uhr

Ort: Seminarraum 5.55, Strohsackpassage, 5. Stock, Nikolaistr. 6–10

Sprache: Deutsch

Für weitere Informationen kontaktieren Sie gerne Eva Ommert (ReCentGlobe) oder Franziska Naether (SAW).

Bitte beachten: Der Workshop ist aktuell ausgebucht. Sie können uns trotzdem gern schreiben und damit auf die Warteliste kommen. Auf diese Weise wissen wir zudem, wer ggf. Interesse an einer Wiederholung des OCR-Workshops hätte.