# Textformate verstehen

Digitale Texte im Internet liegen in verschiedenen Formaten vor, die zusätzliche Informationen zum Text - entweder als 
Metadaten zum Text, als Anweisungen zur webbasierten Darstellung oder beides - enthalten. Typische Dateiformate sind
- XML bzw. TEI/XML
- HTML und CSS

Bei beiden Formaten kann man den eigentlichen Text und die zusätzlichen Informationen dadurch unterscheiden, dass die Informationen mit sog. _tags_ <code><</code> ... <code>></code> abgesetzt sind. Die Texte liegen demnach in strukturierten 
Formaten vor, die es Maschinen erleichtern, bestimmte Informationen zielgenau darzustellen oder zu extrahieren. 
 

## Beispiel HTML 

Folgendes, gekürztes Beispiel stammt aus dem Quelltext der Bibliotheca Augustana:

    <HEAD>
    <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
    <TITLE>bibliotheca Augustana</TITLE>
    <LINK REL="StyleSheet" TYPE="text/css" HREF="../../../css/f_ruberi.css">
    <LINK REL="StyleSheet" TYPE="text/css" HREF="../../../css/f_viridis.css">
    </HEAD>
    <BODY BGCOLOR="#558888" TEXT="#111133" LINK="#000099" VLINK="#000099">
    <DIV ID="navigatio1" CLASS="f_textus" ALIGN="center">
    <A HREF="sal_intr.html">&lt;&lt;&lt; introductio</A><BR>
    </DIV>
    <DIV ID="corpus" CLASS="f_textus" ALIGN="center" VALIGN="top">
    <TABLE BORDER="0" CELLSPACING="0" CELLPADDING="0" WIDTH="850">
        <TR>
            <TD WIDTH="30" BGCOLOR="#558888">&nbsp;</TD>
            <TD WIDTH="90" BGCOLOR="#AAAA77">&nbsp;</TD>
            <TD WIDTH="630" COLSPAN="3" BGCOLOR="#AAAA77" CLASS="f_textusg">
            <DL>
                <DD><SPAN CLASS="f_albus">I n v e c t i v a&nbsp;&nbsp; i n&nbsp;&nbsp; C i c e r o n e m</SPAN><BR>
                <DD><SPAN CLASS="f_viridis">[1]</SPAN> <SPAN CLASS="f_ruberi">G</SPAN>raviter et iniquo animo maledicta tua paterer, M. Tulli, si te scirem iudicio magis quam morbo animi petulantia ista uti. sed cum in te neque modum neque modestiam ullam animadverto, respondebo tibi, ut, si quam male dicendo voluptatem cepisti, eam male audiendo amittas. <BR>
            </DL>
        </TR>
    </TABLE>
    </DIV>
    </BODY>
    </HTML>


Der gleiche Text in "The Latin Library" sieht (gekürzt) als Quellcode so aus:

    <html>
	    <head>
		    <title>
			    Sallust: Invective Against Cicero
		    </title>
    <link rel="SHORTCUT ICON" href="http://www.thelatinlibrary.com/icon.ico"> 
    <link rel="StyleSheet" href="http://www.thelatinlibrary.com/latinlibrary.css">
    <link rel="StyleSheet" media="print" href="http://www.thelatinlibrary.com/latinlibrary_print_prose.css"> 
    <meta http-equiv="content-type" content="text/html;charset=utf-8" /> 
	    </head>	
        <body>
        <p class=pagehead>C. SALLVSTI CRISPI INVECTIVA IN CICERONEM
        </p>
        <p class=border></P>
        <p>
        <b>I</B>  1. Graviter et iniquo animo maledicta tua paterer, M. Tulli, si te scirem iudicio magis quam morbo animi petulantia ista uti. sed cum in te neque modum neque modestiam ullam animadverto, respondebo tibi, ut, si quam male dicendo voluptatem cepisti, eam male audiendo amittas.
        </p>
        </body>
    </html>

Es ist leicht zu erkennen, dass bereits diese beiden Textaufbereitungen mit der Auszeichnungssprache (Markup Language)
HTML sehr unterschiedlich ausfallen. Darüber hinaus unterscheiden sich die Kapitelbezeichnungen und die Zeichensetzung.

## Beispiel TEI/XML

Beispielhaft in einem wenig komplexen und kaum ausgefüllten TEI/XML-Format sieht das erste Abschnitt der Invektive so aus:

    <TEI version="3.3.0" xmlns="http://www.tei-c.org/ns/1.0">
        <teiHeader>
            <fileDesc>
            <titleStmt>
            <title>Invectiva in Ciceronem</title>
        </titleStmt>
        <publicationStmt>
            <p>Textus: Sallusti opera ed. W. Schöne/W. Eisenhut, München 1969</p>
        </publicationStmt>
        <sourceDesc>
            <p>Bibliotheca Augustana</p>
        </sourceDesc>
        </fileDesc>
        </teiHeader>
        <text>
        <body>
            <p>I 1. Graviter et iniquo animo maledicta tua paterer, M. Tulli, si te scirem iudicio magis quam morbo animi petulantia ista uti. sed cum in te neque modum neque modestiam ullam animadverto, respondebo tibi, ut, si quam male dicendo voluptatem cepisti, eam male audiendo amittas. </p>
        </body>
        </text>
    </TEI>

## Beispiel Rohtext

Ziel der automatischen und/oder manuellen Bearbeitung dieser digitalen Textfassungen ist der Rohtext:

    Graviter et iniquo animo maledicta tua paterer, M. Tulli, si te scirem iudicio magis quam morbo animi petulantia ista uti. sed cum in te neque modum neque modestiam ullam animadverto, respondebo tibi, ut, si quam male dicendo voluptatem cepisti, eam male audiendo amittas.