3 TEI-Metadatensatz

Die Text Encoding Initiative (TEI) wurde 1987 von der Association for Computers and the Humanities, der Association for Computational Linguistics, und der Association for Literary and Linguistic Computing gegründet, um Texte, insbesondere für Institutionen wie Verlage, Bibliotheken und Museen einheitlich zu kodieren und zur Veröffentlichung und Archivierung vorzubereiten. Die TEI hat für verschiedene Textarten ein speziell zugeschnittenes Tagset von Elementen und Attributen entworfen.

Ein TEI Dokument (nach TEI P4 (10)) besteht aus einem TEI-Header, in dem die relevanten Meta-Informationen enthalten sind, und einem TEI-Body, in dem Textinhalte kodiert werden.

Im TEI-Header sind die Metadaten hierarchisch gegliedert. Es gibt vier große, komplexe Teilbereiche bzw. Elemente, die jeweils untergeordnete Elemente enthalten. Diese untergeordneten Elemente besitzen wiederum Unterelemente, so dass es drei verschiedenen Elementebenen gibt.

Für die Elementebenen gibt es folgende Benennungskonventionen:

Desc
Beschreibung: Elemente enthalten eine Fließtextbeschreibung
Stmt
Aussage: Elemente notieren strukturierte Informationen
Decl
Erklärung: Informationen über verschiedene Kodierpraxen

FileDesc
Bibliographische Beschreibung der Datei
titleStmt
Gruppeninformation hinsichtlich des Titels des Korpus oder der einzelnen Texte
titel
Titel der Datei oder des Textes
author
Name des Autors
sponsor
Verantwortliche für die Finanzierung
funder
fördernde Organisation oder Anstalt
principal
Name desjenigen, der den Text erstellt hat
respStmt
(resposibility Statement) Verantwortliche für den Textinhalt
resp
Art der Zuständigkeit, etwa durch wen die Kompilierung erfolgt ist
name
Name des/der Zustädnigen, z.B. Tanja Baumann
editionStmt
Informationen über die Ausgabe eines Textes
edition
Besonderheiten/Merkmale der Ausgabe
respStmt
Verantwortlichen für den Textinhalt der Ausgabe

extent
Umfang bzw. ungefähre Größe des elektronischen Textes
publicationStmt
Gruppeninformation hinsichtlich der Publikation oder der Verteilung des Textes
publisher
Name des Verlags oder einer Organisation
distributer
Name des Verantwortlichen für die Verteilung
authority
Name des Berechtigten, soweit kein Verlag oder Verteiler beteiligt ist
Existiert eines der drei Elemente, können diese jeweils folgende Subelemente haben:
pubPlace
Publikationsort/Veröffentlichung
address
Adresse des Verlages/der Organisation/der Einzelperson
idno
ISBN-Nummer oder nicht-standardisierte Kennzeichnung
availability
Verwendbarkeit des Textes bzw. Einschränkungen wie copyright
date
Datumsangabe

seriesStmt
Informationen über die Publikationsreihe/-serie
title
Titel der Serie
idno
ISBN-Nummer oder nicht-standardisierte Kennzeichnung
resp
(siehe respStmt)

noteStmt
sammelt sonstige, noch nicht notierte Anmerkungen zum Text
notes
für besondere Anmerkungen
sourceDesc
bibliographische Beschreibung der Quellenangaben

bibl
bibliographisches Zitieren
biblFull
komplett strukturiertes bibliographisches Zitieren
listBibl
Liste des bibliographischen Zitierens

EncodingDesc
Verhältnis zwischen elektronischem Text und dessen Quellen

samplingDecl
Fließtextbeschreibung des Grundprinzips und der Methoden, die der Text anwendet
p
für den Inhalt, wobei hierin Folgendes enthalten sein kann:
correction
Vermerkung von Textkorrekturen
normalisation
Umfang der Normalisierung der Quelle
quotation
Umgang mit Anführungszeichen
hyphenation
Kodierung von Zeichen wie Bindestrichen
segmentation
Art der Segmentierung (in Sätze, Toneinheiten, Maßeinheiten usw.)
interpretation
Hinzufügung analytischer/ interpretierender Informationen
stdVals
Formatierung von Nummern/Datenangaben
projectDesc
Ziel und Zweck der Kodierung der Datei
editorialDecl
Details über redaktionelle Grundregeln und Praxis der Kodierung
p
mit der gleichen unter samplingDecl beschriebenen Struktur

tagsDecl
Informationen über Etikettierung der Elemente (SGML)
rendition
Darstellung von Tags
tagUsage
Gebrauch von bestimmten Tags im Text
refsDecl
spezifiziert, wie kanonische Hinweise für den Text konstruiert werden
p
siehe oben
classDecl
kategorisiert die Taxonomie (Texttypologie), definiert Zuordnungscodes, die der Text verwendet
taxonomy
verwendete Typologie
category
Einteilung in Kategorien
catDesc
Kategoriebeschreibung innerhalb einer Texttypologie in Fließtext
ProfileDesc
Beschreibung der deskriptiven Aspekte der Datei

creation
Informationen über die Erstellung/Entstehung des Textes
langUsage
Informationen über im Text verwendete Sprachen
p
siehe oben

textClass
klassifiziert die Textart
keywords
Liste textbeschreibender Schlüsselwörter
classcode
enthält den Klassifikationscode des Textes
catRef
kategorisiert die Taxonomie oder Texttypologie
RevisionDesc
Informationen über die Aktualisierung der Datei

change
Veränderung des Textes/der Version
Date
Datum der Abänderung (ISO-Wert)
Item
Komponent einer Liste/Natur der Veränderung
RespStmt
benennt den/die Verantwortlichen für die Abänderung des Textes
list
hierarchische Auflistung der Änderungen
Date
Datum der Abänderung (ISO-Wert)
Item
Komponent einer Liste/Natur der Veränderung
RespStmt
benennt den/die Verantwortlichen für die Abänderung des Textes

Die ersten beiden Metadaten-Ebenen und ihre Zusammenhänge sind in Tabelle 1 dargestellt.


Tabelle 1: Darstellung des TEI-Metadatensatzes (``Hauptelemente und deren Subelemente'')
fileDesc encodingDesc profileDesc revisionDesc
titleStmt samplingDecl creation change
edtionStmnt projectDesc langUsage list
extent editorialDecl textClass  
publicationStmt tagsDecl keywords  
seriesStmt refsDecl classcode  
noteStmt classDecl catRef  
sourceDesc      

Zu erkennen sind hier die vier Hauptelemente des TEI-Headers, welche die erste Elementebene bilden. Die zweite Elementebene zeigt deren eigene Elemente, die als Subelemente der Hauptelemente klassifiziert werden.

Thorsten Trippel 2003-12-08