Lucretia erzählt#
Forschungstandem: Wie kommen wir strategischen Auslassungen mit NLP-Methoden auf die Spur?
Lesezeit: 5 min
Ich bin Lucretia, Professorin der Klassischen Philologie. Wer sich schon mit antiker Geschichtsschreibung beschäftigt hat, weiß: selten finden wir gänzlich objektive Darstellungen der Ereignisse. Vielmehr müssen wir das gesamte Narrativ im Kontext betrachten und fragen, warum die Ereignisse auf eine bestimmte Weise erzählt werden.
Eine sehr breite Fragestellung? Das dachte ich mir auch. Deswegen frage ich lieber, warum bestimmte Ereignisse unvollständig oder gar nicht berichtet werden – obwohl es den historischen Fakten widerspricht.
Also suche ich nach… Ja, wonach genau sucht man, wenn man Lücken im Text sucht? Im Prinzip müsste ich alle Texte untersuchen, die sich mit dem historischen Rahmen meines gesuchten Ereignisses befassen. Aber die Suche nach einschlägigen Passagen stellt lediglich die Vorarbeit zu meiner eigentlichen Forschung dar – allerdings eine sehr aufwändige Vorarbeit, wenn man die riesigen Textmengen bedenkt. Eine echte Herausforderung, wenn die Publikation in wenigen Monaten erscheinen soll.
Deswegen habe ich beschlossen, etwas Neues auszuprobieren: Ich möchte sehen, wie gut mir die Methoden des Natural Language Processing (NLP) dabei helfen können, aus mehreren Bänden von griechischen und lateinischen Primärtexten einschlägige Passagen zu extrahieren.
Was ich mir davon erhoffe? Wenn eine erfolgreiche Modellierung dazu führt, dass ich direkt für das gesuchte Ereignis relevante Passagen sozusagen „geliefert“ bekomme, kann ich mich schneller an die eigentliche Arbeit machen: die Bedeutung der Lücken im Kontext zu analysieren und Schlussfolgerungen über die narrativen Absichten hinter dem jeweiligen historischen Werk zu ziehen.
Nun läuft das Ganze jedoch nicht so einfach ab wie eine Essensbestellung beim Onlinelieferanten unseres Vertrauens. So gibt es noch keine absolut präzisen Tools für klassische Sprachen, um direkt alle meine Wunschpassagen ausgeworfen zu bekommen. Bei dem ganzen Hype um KI und große Sprachmodelle könnte man meinen, es wäre heutzutage leicht – aber so weit sind wir da noch nicht. Ich selbst kann nicht programmieren, bestenfalls bekomme ich sinnvolle Statistiken zu passenden Suchbegriffen über Perseus. Weit darüber hinaus reichen meine digitalen Kompetenzen nicht, muss ich ehrlicherweise gestehen.
Damit bin ich aber in meinem Fach bei Weitem nicht allein; digitale Kompetenzen sind in den Geisteswissenschaften generell noch eher rar gesät. Deswegen möchte ich hier teilen, wie ich trotz all dieser Hürden an eine umfassende Sammlung mit einschlägigen Textstellen zu meinem gesuchten Ereignis gekommen bin.
Nach einer kurzen Suche habe ich von Daidalos erfahren, einem innovativen Projekt, das sich mit NLP für die Klassische Philologie beschäftigt. Volltreffer! Denn das Daidalos-Projekt war zu dem Zeitpunkt zufällig ohnehin auf der Suche nach Kooperationsmöglichkeiten.
Lucretia hat mit dem Daidalos-Team per E-Mail Kontakt aufgenommen und ein erstes Treffen vereinbart.
Spulen wir vor zum ersten Treffen: Nicht Daidalos persönlich, sondern Konstantin sitzt mir gegenüber. Zwar hat er selbst Griechisch und Latein studiert, aber er ist in den letzten Jahren tief in die Welt der maschinellen Sprachverarbeitung eingetaucht und betrachtet nun mein Anliegen aus einer für mich ungewohnten Perspektive.
Er hat schon erste Ideen, wie wir meine zugegeben nicht ganz simple Fragestellung operationalisieren können. Ich merke schnell, dass sich hier zwei Welten begegnen. Alle Texte und Begriffe, womit ich sonst arbeite, betrachten wir im Gespräch als Daten. Ich finde es faszinierend, mich auf diese neue Denkweise einzulassen.
Meine narratologischen Beobachtungen muss ich nun in Kategorien überführen, die sich maschinell verarbeiten lassen. Auf Anhieb gar nicht so leicht! Aber Konstantin erklärt geduldig, worauf es im ersten Schritt ankommt. Er hilft mir bei der Konkretisierung der Forschungsfrage und erklärt, welche Analysewerkzeuge und Visualisierungsoptionen geeignet sein könnten.
Nach diesem erkenntnisreichen ersten Treffen ist aber vor allem wieder meine Expertise gefragt. Damit Konstantin einen Prototypen bauen kann, stelle ich die Texte zusammen, die ich bereits ausgewertet und zur Entwicklung meiner Fragestellung herangezogen habe. Natürlich kommen mir bei der Sichtung meiner Textauswahl weitere Ideen, die ich an Konstantin spiele.
Lucretia stellt gezielt ein erweitertes Korpus zusammen. Schon bald bekommt sie Analyseergebnisse von Konstantin. So kann sie beurteilen, wie gut sie mit den Resultaten weiterarbeiten kann und wie viel Feinschliff der Prototyp noch braucht.
Bei unserem nächsten Treffen stellt mir Konstantin zuerst vor, was Named Entity Recognition (NER) zur Fragestellung beitragen kann. Wir sind uns schnell einig, dass die Hervorhebung von wichtigen Namen und Orten sehr hilfreich ist, aber noch nicht ausreicht. Ich möchte nämlich tiefer einsteigen und die Auswirkung der untersuchten Lücke auf das Narrativ analysieren.
Da es mir auch um eine gezielte Analyse der systematischen Auf- und Abwertung historischer Ereignisse geht, interessiere ich mich für weitere NLP-Methoden. Ist es möglich zu zeigen, dass die jeweiligen Autoren eine emotional gefärbte Sprache verwenden, wenn sie bestimmte Ereignisse schildern? Auf so einem Befund aufbauend könnte ich untersuchen, ob eher dann negative Affektivität vorliegt, wenn Ereignisse ausgelassen oder unvollständig berichtet werden.
Durch Konstantins Erklärungen scheint mir eine Sentimentanalyse meiner ausgewählten Texte als weiterer Schritt sehr vielversprechend. Allerdings gibt es hierbei eine Schwierigkeit: Im Gegensatz zu Latein gibt es für griechische Texte keine Vorarbeiten. Es wäre zu schade, hier abzubrechen, denn jetzt wird es richtig spannend. Können mir NLP-Methoden die Passagen liefern, die ich brauche, um Auslassungen als strategisch erklären zu können?
Die erste Iteration ist beiderseits gut vorbereitet und die Analyseergebnisse sind aufschlussreich. So geht die gemeinsame Arbeit im Forschungstandem gezielt auf dem angepassten Datensatz weiter.
Die nächste Runde wird herausfordernd. Denn nun müssen wir die Sentimentanalyse in die Wege leiten. Und dafür brauchen wir – wer hätte es gedacht – Daten! Wir überlegen genau, mit welchen Lexika und Übersetzungen meiner ausgewählten Passagen wir arbeiten. Einige autorspezifische Anmerkungen nehme ich noch selbst vor, damit die KI, die Konstantin für mich trainiert, noch bessere Ergebnisse liefert.
Und jetzt? Ich habe, was ich wollte – markierte Passagen und zur Abwechslung auch ein paar Auswertungen in Zahlen. So kann ich z. B. beurteilen, welche Stellen ich priorisieren möchte. Inzwischen habe ich meine strukturierte Auswertung fertiggestellt. Bald können Sie sicherlich einen frischen Aufsatz von mir lesen.
Nach der letzten Iteration hat Lucretia so viele aussagekräftige Analyseergebnisse vorliegen, dass sie mit den gefundenen Textstellen zufrieden ist. Sie bereitet anschließend eine Publikation vor, aus der ersichtlich wird, wie ihre narratologische Expertise mit den unterschiedlichen NLP-Methoden, die Konstantin für sie aufbereitet hat, Hand in Hand gegangen ist.
Für mich hat sich die Zusammenarbeit mit Daidalos sehr gelohnt, weil ich meine Texte durch andere Augen sehen konnte. Das hat meine Forschung bereichert. Also: Bleiben Sie immer schön neugierig!
Ihre Lucretia