Die Text Encoding Initiative (TEI) wurde 1987 von der Association for Computers and the Humanities, der Association
for Computational Linguistics, und der Association for Literary
and Linguistic Computing gegründet, um Texte, insbesondere für Institutionen
wie Verlage, Bibliotheken und Museen einheitlich zu kodieren und zur
Veröffentlichung und Archivierung vorzubereiten. Die TEI hat für
verschiedene Textarten ein speziell zugeschnittenes
Tagset von Elementen und Attributen entworfen.
Ein TEI Dokument (nach TEI P4 (10)) besteht aus einem
TEI-Header, in dem die relevanten Meta-Informationen
enthalten sind, und einem TEI-Body, in dem Textinhalte kodiert werden.
Im TEI-Header sind die Metadaten hierarchisch gegliedert. Es gibt vier
große, komplexe Teilbereiche bzw. Elemente, die jeweils
untergeordnete Elemente enthalten. Diese untergeordneten Elemente
besitzen wiederum Unterelemente, so dass es drei
verschiedenen Elementebenen gibt.
Für die Elementebenen gibt es folgende Benennungskonventionen:
- Desc
- Beschreibung: Elemente enthalten eine Fließtextbeschreibung
- Stmt
- Aussage: Elemente notieren strukturierte Informationen
- Decl
- Erklärung: Informationen über verschiedene Kodierpraxen
- FileDesc
- Bibliographische Beschreibung der Datei
- titleStmt
- Gruppeninformation hinsichtlich des Titels
des Korpus oder der einzelnen Texte
- titel
- Titel der Datei oder des Textes
- author
- Name des Autors
- sponsor
- Verantwortliche für
die Finanzierung
- funder
- fördernde Organisation oder
Anstalt
- principal
- Name desjenigen, der den Text erstellt
hat
- respStmt
- (resposibility Statement) Verantwortliche für
den Textinhalt
- resp
- Art der Zuständigkeit, etwa durch wen die Kompilierung erfolgt ist
- name
- Name des/der Zustädnigen, z.B. Tanja Baumann
- editionStmt
- Informationen über die Ausgabe eines
Textes
- edition
- Besonderheiten/Merkmale der Ausgabe
- respStmt
- Verantwortlichen für den Textinhalt der
Ausgabe
- extent
- Umfang bzw. ungefähre Größe des elektronischen
Textes
- publicationStmt
- Gruppeninformation hinsichtlich der
Publikation oder der Verteilung des Textes
- publisher
- Name des Verlags oder einer Organisation
- distributer
- Name des Verantwortlichen für die
Verteilung
- authority
- Name des Berechtigten, soweit kein Verlag
oder Verteiler beteiligt ist
Existiert eines der drei Elemente, können diese jeweils folgende
Subelemente haben:
- pubPlace
- Publikationsort/Veröffentlichung
- address
- Adresse des Verlages/der Organisation/der
Einzelperson
- idno
- ISBN-Nummer oder nicht-standardisierte
Kennzeichnung
- availability
- Verwendbarkeit des Textes
bzw. Einschränkungen wie copyright
- date
- Datumsangabe
- seriesStmt
- Informationen über die
Publikationsreihe/-serie
- title
- Titel der Serie
- idno
- ISBN-Nummer oder nicht-standardisierte
Kennzeichnung
- resp
- (siehe respStmt)
- noteStmt
- sammelt sonstige, noch nicht notierte
Anmerkungen zum Text
- notes
- für besondere Anmerkungen
- sourceDesc
- bibliographische Beschreibung der
Quellenangaben
- bibl
- bibliographisches Zitieren
- biblFull
- komplett strukturiertes bibliographisches
Zitieren
- listBibl
- Liste des bibliographischen Zitierens
- EncodingDesc
- Verhältnis zwischen elektronischem Text
und dessen Quellen
- samplingDecl
- Fließtextbeschreibung des Grundprinzips
und der Methoden, die der Text anwendet
- p
- für den Inhalt, wobei hierin Folgendes enthalten sein kann:
- correction
- Vermerkung von Textkorrekturen
- normalisation
- Umfang der Normalisierung der
Quelle
- quotation
- Umgang mit Anführungszeichen
- hyphenation
- Kodierung von Zeichen wie
Bindestrichen
- segmentation
- Art der Segmentierung (in Sätze,
Toneinheiten, Maßeinheiten usw.)
- interpretation
- Hinzufügung analytischer/
interpretierender Informationen
- stdVals
- Formatierung von Nummern/Datenangaben
- projectDesc
- Ziel
und Zweck der Kodierung der Datei
- editorialDecl
- Details
über redaktionelle Grundregeln und Praxis der Kodierung
- p
- mit der gleichen unter samplingDecl
beschriebenen Struktur
- tagsDecl
- Informationen über Etikettierung der Elemente
(SGML)
- rendition
- Darstellung von Tags
- tagUsage
- Gebrauch von bestimmten Tags im Text
- refsDecl
- spezifiziert,
wie kanonische Hinweise für den Text konstruiert
werden
- p
- siehe oben
- classDecl
- kategorisiert die Taxonomie (Texttypologie),
definiert Zuordnungscodes, die der Text verwendet
- taxonomy
- verwendete Typologie
- category
- Einteilung in Kategorien
- catDesc
- Kategoriebeschreibung innerhalb einer
Texttypologie in Fließtext
- ProfileDesc
- Beschreibung
der deskriptiven Aspekte der Datei
- creation
- Informationen
über die Erstellung/Entstehung des Textes
- langUsage
- Informationen
über im Text verwendete Sprachen
- p
- siehe oben
- textClass
- klassifiziert die Textart
- keywords
- Liste textbeschreibender Schlüsselwörter
- classcode
- enthält den Klassifikationscode des Textes
- catRef
- kategorisiert die Taxonomie oder Texttypologie
- RevisionDesc
- Informationen über die Aktualisierung
der Datei
- change
- Veränderung
des Textes/der Version
- Date
- Datum
der Abänderung (ISO-Wert)
- Item
- Komponent
einer Liste/Natur der Veränderung
- RespStmt
- benennt
den/die Verantwortlichen für die Abänderung des Textes
- list
- hierarchische Auflistung der Änderungen
- Date
- Datum
der Abänderung (ISO-Wert)
- Item
- Komponent
einer Liste/Natur der Veränderung
- RespStmt
- benennt
den/die Verantwortlichen für die Abänderung des Textes
Die ersten beiden Metadaten-Ebenen und ihre Zusammenhänge
sind in Tabelle 1 dargestellt.
Tabelle 1:
Darstellung des TEI-Metadatensatzes (``Hauptelemente und deren
Subelemente'')
| fileDesc |
encodingDesc |
profileDesc |
revisionDesc |
| titleStmt |
samplingDecl |
creation |
change |
| edtionStmnt |
projectDesc |
langUsage |
list |
| extent |
editorialDecl |
textClass |
|
| publicationStmt |
tagsDecl |
keywords |
|
| seriesStmt |
refsDecl |
classcode |
|
| noteStmt |
classDecl |
catRef |
|
| sourceDesc |
|
|
|
Zu erkennen sind hier die vier Hauptelemente des
TEI-Headers, welche die erste Elementebene bilden.
Die zweite Elementebene zeigt deren eigene
Elemente, die als Subelemente der Hauptelemente klassifiziert werden.
Thorsten Trippel
2003-12-08