Wortschatzanalyse#
Die sprachliche Analyse der Invektive In Ciceronem erfolgt mithilfe eines Tools, das in dem Vorgängerprojekt Callidus (Computer-Aided Language Learning: Lexikonerwerb im Lateinunterricht durch korpusgestützte Methoden, DFG, Projektnummer: 316618374, 2017-2020) entwickelt wurde und seitdem kontinuierlich gepflegt wird.
Machina Callida#
Die Machina Callida unterstützt die automatische Erstellung von intralingualen Wortschatzübungen, die Berechnung der Textkomplexität und den Abgleich eines ausgewählten Textes mit verschiedenen Referenzkorpora zur Bestimung der Textabdeckung, d.h. Anteil der Wörter im Text, die in einem Grundwortschatz der z. B. 500 häufigsten Wörter vorkommen. Außerdem bietet sie eine Übungsdatenbank, Übungssequenzen der Universität Potsdam und eine beispielhafte Übungseinheit mit kuratierten Übungen für einen Lern- und Testmodus.
Link: Machina Callida
Zenodo: Callidus Project
Wortschatzabdeckung#
Je nach Bezugskorpus
Bamberger Wortschatz, 1.276 Lemmata, BWS [1]
Ancient Greek and Latin Dependency Treebank, 7.182 Lemmata, AGLDT [2]
Parallel Treebank of the Old Indo-European Language, 16.402 Lemmata, PROIEL [3]
ergibt sich für die Invektive folgende Textabdeckung:
auf die 500 häufigsten Wörter des BWS bezogen: 76%
auf die 1276 häufigsten Wörter des BWS bezogen: 84%
auf die 500 häufigsten Wörter der AGLDT bezogen: 76%
auf die 1276 häufigsten Wörter der AGLDT bezogen: 82%
auf die 500 häufigsten Wörter von PROIEL bezogen: 70%
auf die 1276 häufigsten Wörter von PROIEL bezogen: 78%
Es zeigt sich, dass je nach Bezugskorpus die Textabdeckung erwartungsgemäß leicht schwankt. Als Konsequenz aus dem Zipfschen Gesetz zur Häufigkeitsverteilung von Wörtern in einem Text ergibt sich, dass (mehr als) die doppelte Menge an Wörtern eines “Lernwortschatzes” nicht einmal 10% mehr Textabdeckung ergibt. Untersuchungen für die englische Sprache haben ergeben,
“that learners are likely to understand speech when 95% of the words used are known (…). Similarly, they are likely to be able to comprehend wirtten discourse when 98% of the words in a text are known […]” [4]
Deswegen ist es aus Sicht des Spracherwerbs Latein auch so wichtig, den Basiswortschatz (Umfang, Auswahl) mit Blick auf die spätere Originallektüre zu modellieren, um eine möglichst hohe Textabdeckung zwischen Lernwortschatz und dem Wortschatz des literarischen Texts zu erzielen.
Vergleicht man die vorliegende Textabdeckung mit anderen Beispielen aus der lateinischen Literatur, so ist In Ciceronem noch recht gut durch einen Basiswortschatz von 500 Wörtern abgedeckt.
Quellen#
[1] Bamberger Wortschatz: The underlying reading corpus was determined by a detailed analysis of the current curricula and a comparison of the most important text editions. It contains the full range of texts and authors read at intermediate level. They are given in the epilogue together with the text passages recorded. The total volume of the corpus examined is considerable, with over 140,000 word forms: after deduction of the references to names, 7,154 lemmas, i.e. potential learning words. This makes the result all the more surprising and pleasing: with 1248 vocabulary, a good 83% of this text corpus can be captured. The detailed studies and preliminary work for the new generation of word studies were carried out within the framework of a didactic project sponsored by the publishing house under the title Bamberger Wortschatz (ADEO-Basiswortschatz).
[2] Ancient Greek and Latin Dependency Treebank (AGLDT): The Ancient Greek and Latin Dependency Treebank (AGLDT) is the earliest treebank for Ancient Greek and Latin, called Perseus.
[3] PROIEL Treebank: The PROIEL Treebank is a treebank of ancient Indo-European languages, including Latin and Ancient Greek. It uses a refined version of dependency grammar and is available under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International.
[4] Webb, S. & Nation, P. (2017): How Vocabulary is Learned. Oxford University Press. 11-12.