Datenbeschreibung

Datenbeschreibung#

Nachnutzung von Daten#

Die Basis des Forschungsvorhabens bildet die bisher nur im Bildformat digital vorliegende Handschrift In Ciceronem aus dem Manuskript D’Orville 77, die sich im Besitz der University of Oxford befindet. Außerdem werden für die verschiedenen Methoden unterschiedliche KI-Modelle des NLP nachgenutzt.

Es werden folgende Daten und Datensätze nachgenutzt:

  • Scan bzw. Fotos des Manuskripts D’Orville 77, Auszug In Ciceronem (6621 x 7242 px) im PNG-Format, © Bodleian Libraries, University of Oxford, CC BY-NC 4.0

Generierung von Daten#

Es entstehen durch Digitalisierung, Anreicherung und Verarbeitung des digitalen Textes Daten. Dabei handelt es sich um folgende Daten und Datensätze:

  • normalisiertes Digitalisat der Handschrift In Ciceronem als txt-Format (Rohtext)

  • diplomatischer Text handschriftlich, Format: PNG, Ablage: …

  • manuelle Annotationen für den Vergleich mit Ergebnissen der automatischen Analyse, Format: Excel

  • Jupyter Notebooks für die Einbettung von Code-Abschnitten in das Jupyter Book