Normalisieren

Normalisieren#

Verschiedene Aufgaben fallen unter den Begriff der Normalisierung, deren Reihenfolge bei der Datenvorverabreitung (data preprocessing) davon abhängt, welche Analysemethoden folgen. Zu diesen Aufgaben gehören u.a.:

  • Text bereinigen von für die Analyse überflüssigen Metadaten

  • Stemming

  • Tokenisierung (Wort-, Satz-, Abschnittsebene)

  • Lemmatisierung

Für die automatische Analyse von Texten müssen die digitalen Textformate auf einfache Textformate (.txt) heruntergebrochen werden, d. h. man muss zunächst alle störenden Zusatzinformationen entfernen. In einem zweiten Schritt müssen aber auch textimmanente Störfaktoren wie z. B. arabische oder römische Zahlen, textkritische Zeichen entfernt werden, da sie ebenfalls die späteren Analysen behindern würden. Je nach Auswahl der weiterführenden Methoden der automatischen Sprachverarbeitung (Natural Language Processing) kann es sogar notwendig werden, alle Wörter klein zu schreiben und die Satzzeichen zu entfernen.

Zusatzinformationen entfernen#