OCR und HTR#

OCR (object character recognition) und spezifischer HTR (hand-written text recognition) heißt die Methode zur automatischen Transkription von Manuskripten und Drucken. Neben spezifisch trainierten Tools wie Transkribus, eScriptorium und OCR4all können auch multimodale Sprachmodelle wie z.B. Mistral (Frankreich), Kimi (China), GPT-5 (USA), Gemini (USA) verwendet werden. Diese Modelle können zwar deutlich schlechter Abkürzungen, Ligaturen und Textmarkierungen auflösen und frühe Handschriften daher nur sehr schwer “entziffern”, dafür ermöglichen sie gleich den Output als strukturierte Daten, z.B. als einfaches TEI-XML Format. Alle Tools normalisieren sofort, so dass eine digitale diplomatische Edition dadurch quasi übersprungen wird. Dies hängt u.a. auch mit der Codierung der Zeichen zusammen, die Spezialwissen bzw. Spezialtraining eines Tools voraussetzen.

Transkription manuell#

Am Beispiel der ersten 10 Zeilen des Manuskripts D’Orville 77 In Ciceronem wird der Unterschied zwischen einer diplomatischen Version und einer normalisierten Version veranschaulicht.

© Bodleian Libraries, University of Oxford, CC BY-NC 4.0.

Diplomatische und normalisierte Version (manuell)#

Die dargestellte diplomatische Version kommt dem Original nur in etwa nahe, da nicht alle “Übersetzungen” der Zeichen in UTF-8 gelungen sind, z.B. ist das sog. lange “s” der karolingischen Minuskel hier behelfsweise mit einem “f” mit Haken widergegeben.

Zeile diplomatische Version normalisierte Version
Titel incipit oratio sallusti contra ciceronē. incipit oratio sallusti contra ciceronem.
1 Grauiter æiniquo animo maledictatua paterer mtulli. Grauiter et iniquo animo maledicta tua paterer M. Tulli,
2 ƒiteƒcirē; iuditio magis quāmorbo animi petulantia ista uti si te scirem iudicio magis quam morbo animi petulantia ista uti.
3 Sedcū inte neq; modū neq; modestiā ullā animadūto. reƒpondebo Sed cum in te neque modum neque modestiam ullam animadverto, respondebo
4 tibi.utƒiquā male dicendo uoluptatē coepisti.~ eā maledicendo tibi: ut si quam maledicendo uoluptatem coepisti, eam maledicendo
5 amittaƒ. Ubi querar.~ quos implorē .pc. diripi.rp.atq; amittas. Ubi querar, quos implorem, patres conscripti, diripi rem publicam atque
6 audaciƒƒimo cuiq; eēpfidie.~ Apud .pr.qitalargitionib; audacissimo cuique esse perfidie? Apud populum Romanum qui ita largitionibus
7 corruptuƒē.utƒeipƒe acfortunaƒƒuaƒ uenaliƒ habeat.~ anapud corruptus est, ut se ipse ac fortunas suas venales habeat? An apud
8 uoƒ.pc. quorū auctoritaƒ turpiƒƒimo cuiq; æƒceleratiƒƒimo vos, patres conscripti, quorum auctoritas turpissimo cuique et sceleratissimo
9 ludibrio ē.~ Ubi ubi . m.tullius.legeƒ.iudica.rp.defendit ludibrio est? Ubi ubi, M. Tullius, leges, iudicia, rem publicam defendit
10 atq; inhoc ordine ita moderatur quaƒiunuƒ reliquuƒ e familia atque in hoc ordine ita moderatur quasi unus reliquus e familia

Automatische Transkriptionen#

Arbeitet man mit automatisch erzeugten Transkriptionen muss man selbstverständlich immer das Ergebnis überprüfen und weiter bearbeiten. Allerdings können die Tools die Arbeit des Digitalisierens deutlich vereinfachen, v.a. weil sie die lästige Tipparbeit abnehmen und ggf. bereits die Daten in einem gewünschten Ausgabeformat, bspw. TEI-XML, bereit stellen. Dadurch wird insbesondere fehleranfällige Arbeit auf der menschlichen Seite reduziert.

Transkribus (freie Testversion)#

Transkribus: Die frei zugängliche Testversion macht aus Zeile 6 zwei Zeilen und vertauscht dabei den hinteren Teil der Zeile mit dem vorderen.

Der Text kann in dieser Version nicht online bearbeitet werden. Das Ergebnis kann als PDF, DOC oder Rohtext (via Kopieren und Einfügen) aus der Anwendung mitgenommen werden, d.h. es liegt auch noch kein strukturiertes Datenformat vor.

Multimodale Sprachmodelle (MLLM)#

Prompt:

Nutze OCR/HTR, um den lateinischen Text des Manuskripts (Anhang) zu transkribieren. Das Manuskript ist in karolingischen Minuskeln geschrieben. Gib das Transkript im Format TEI-XML zeilenweise aus. Die erste Zeile ist der Titel <title> </title>. Nummeriere die weiteren Zeilen: Beispiel <l n="1">Grauiter et iniquo animo maledicta tua paterer M. Tulli.</l>.

Exemplarischer Vergleich Transkribus, MLLM und manuell#

Zeile Transkript Tool
1 Grauiter et iniquo animo maledicta tua paterer M. Tulli, manuell
Grauiter & iniquo animo maledicta tua paterer nulli Gemini
Gravi iter aequino animo maledicta tua paterer M. Tulli, GPT
Grauiter et iniquo animo maledicta tua paterer, nisi Kimi
Grauter & unico animo maledictatua paterer in tulli Mistral
rauiter et iniquo animo maledictatua paterer in tulli. Transkribus
6 audacissimo cuique esse perfidie? Apud populum Romanum qui ita largitionibus manuell
audacissimo cumq; effugere. Apud pr. qui a largitionib; Gemini
audacissimo cuique, et perfide. Apud pr. quia largitionib(us) GPT
audacissimo cuique et perdito. Apud praeclaros uiros largitionibus Kimi
audacissimo cuiq; ceptidie. Apud pr. quia largitionib; Mistral
Apud, pr. quia largitionibus
audacissimo cuique esse perfidię.
Transkribus

Bewertung der manuellen und automatischen Transkription#

Voraussetzung für die manuelle Transkription ist der Zugang zum Originaltext oder - wie im Forschungsbeispiel - ein hochauflösender Scan bzw. ein Photo. Diese Form der Transkription bringt im Prinzip die höchste Qualität, insbesondere im Hinblick auf eine diplomatische Fassung. Allerdings ermüden die Augen irgendwann, die Konzentration lässt nach und so schleichen sich Transkriptionsfehler ein. Eventuell entsteht auch eine doppelte Fehlerquelle, wenn die erste Transkription mit Stift und Papier erfolgt, um anschließend für die digitale Fassung abgeschrieben zu werden.

Demgegenüber bieten die eingesetzten Tools eine sofortige digitale, meist auch zuverlässig liniengetreue Textfassung, wenn das Original in einem vom Tool verarbeitbaren Datenformat vorliegt, z.B. im Bildformat PNG. Neben den zahlreichen Fehlern kann sich auch der “Tool-Bruch” für die weitere Bearbeitung der Ergebnisse als problematisch erweisen, wenn User nicht souverän genug mit verschiedenen Datentypen umgehen können. Während die Fehlerquelle des Abschreibens entfällt, wird das Original von Beginn an “geglättet” (normalisiert).

Vor allem die MLLM können (bisher, 10/2025) gar nicht anders, weil sie keinen Zugriff auf besondere Zeichenformen oder spezifisch trainierte KI-Modelle haben. Sie lösen daher auch nur “zufällig” Abkürzungen oder Ligaturen auf, indem sie mit statistischen Wahrscheinlichkeiten arbeiten. Bei aller notwendigen Nacharbeit ist es aber von großem Vorteil, nicht alles selbst tippen zu müssen und dank der MLLM sogar auf strukturierte Datenformate zurückgreifen zu können.