VERBMOBIL LexDB documentation

SAMPA-D-VMlex

Dokumentation V1.0

Dafydd Gibbon

Bielefeld, 25. November 1995



1. SAMPA-Definition (Stand 1991)

Das computerlesbare phonemische Alphabet `SAMPA' für europäische Sprachen, sowie die Teilmenge davon `SAMPA-D' für das Deutsche, haben seit den ersten Veröffentlichungen Ende der 80er Jahre mehrere Modifikationen aufgrund von Anforderungen aus der Praxis erfahren. In einer späteren Version der Dokumentation werden die Vorstufen der SAMPA-Entwicklung erläutert.

Die Schritte, die zur Definition einer SAMPA-Anwendung führen, sind:

(A) Festlegung eines Phoneminventars,
(B) Zuordnung der Phoneme zu IPA-Symbolen.

Durch die allgemeine Definition von SAMPA existiert eine Zuordnung von IPA-Symbolen zu ASCII-Codes; die SAMPA-Kodierung folgt unmittelbar aus dem zweiten Schritt.

Unterschiedliche Phonemanalysen führen notwendigerweise zu verschiedenen Kodierungen. Die erste Definition von SAMPA und SAMPA-D als de facto-Standards erfolgte im Abschlußbericht des SAM-Projekts (ESPRIT 2589), 1991. Einige Modifikationen erfolgten im deutschen PHONDAT-Projekt, die zum großen Teil in die aktuelle Version eingingen. Die ursprüngliche Version kann als überholt angesehen werden.


2. Status von SAMPA-D-VMlex (Stand 1995)

Ein erweitertes Alphabet für das Deutsche wird in der VERBMOBIL-Lexikondatenbank verwendet. Diese aktualisierte Version des SAMPA-D wird hier als SAMPA-D-VMlex bezeichnet. Es wurde in der Anlaufzeit des VERBMOBIL-Projekts von Vertretern aller VERBMOBIL-Teilprojekte erörtert und für die Repräsentation phonologischer Information im Lexikon verwendet; das Inventar ist seit ca. zwei Jahren stabil geblieben.
Dieses erweiterte und leicht modifizierte SAMPA-Alphabet berücksichtigt alle bisher bekannten Praxisanforderungen an die Transkription in einem Aussprachelexikon; aus diesem Grunde stellt es eine Obermenge anderer Varianten des Alphabets dar und erlaubt die Übersetzung in andere, weniger reichhaltige Transkriptionssysteme.
Die SAMPA-D-VMlex-Repräsentationen werden zur automatischen Generierung von flexionsmorphologischen orthographischen und phonologischen Vollformen für die VERBMOBIL-Lexikon-Datenbank verwendet. Hierzu wird die Repräsentation der Stämme und Constraints über die flexionsmorphologische Paradigmenbildung verwendet.

A. Phoneminventar

In SAMPA-D-VMlex wird die `liberale Phonemisierung' der PHONDAT-Konventionen zugrundegelegt; dies bedeutet insbesondere, daß folgende Elemente, die streng genommen allophonische Redundanzen beinhalten, zum Inventar gehören:
  1. Vokale werden durch Qualität (gespannt/ungespannt) und Quantität (lang/kurz) unterschieden; bei /E/-/E:/ und /a/-/a:/ wird nur der Längenunterschied vermerkt.
  2. das /r/-Allophon [6] wird nach folgenden Regeln als Phonem behandelt:
    /@rK/ -> /6K/ (K ist Konsonant, Silben- oder Wortgrenze)
    /VrK/ -> /V6K/ (K ist Konsonant, Silben- oder Wortgrenze)
  3. Nicht unterschieden werden die regionalen Varianten der apikalen und der velaren /r/-Varianten (oft mit /r/ gegenüber /R/ notiert). Für beide wird /r/ verwendet.
  4. Der Glottalverschluß wird Phonemstatus (vor betonten Vokalen im Anlaut) zugewiesen. Lexikalisierungsprozesse können bedingen, daß an dieser Position kein Glottalverschluß steht.
  5. Bei Vokalen in Lehnwörtern romanischen oder griechischen Ursprungs besteht oft eine Aussprachefluktuation, und damit auch eine Variation in der phonemischen Transkription: Ein nicht phonologisch bedingter Wechsel zwischen langen, kurzen, bzw. gespannten und ungespannten Vokalen kommt z.B. in Wörtern wie `Kommunikation', `Telefon', `Silikon', `Dialyse' vor, die zwischen verschiedenen Transkribenten zu Inkonsistenzen führen kann. Aus theoretischer Sicht wäre die Einführung einer besonderen Vokalklasse für diese Vokale gerechtfertigt; dies wird jedoch hier nicht vorgenommen.
  6. Silbengrenzen und morphologische Grenzen (Morphgrenzen, Flexionstammgrenzen, Wortgrenzen in Komposita und Wortgrenzen in phrasalen Einheiten) werden aufgenommen.
  7. Akzentzeichen werden direkt Vokalen und nicht Silbengrenzen zugeordnet, um möglichst eine zu große Abhängigkeit von silbentheoretischen Annahmen zu vermeiden. Primär- und Sekundärakzent werden unterschieden. Anm.: Die Position von Primärakzent kann morphologisch bedingt variieren oder bedeutungsdifferenzierend sein. Sekundärakzent kann bei sehr häufigen oder bekannten Wörtern aufgrund von Lexikalisierungsprozessen fehlen.
  8. Eine nichtredundante Konvention für lexikalische Transkription würde die Silbenreime /@l/, /@n/, /@m/, sowie /6/ oder /@r/, Vokal+/6/ ohne Schwa oder a-Schwa in schwachen Silben repräsentieren: /h'I.ml/, /d'a:.t#+n/, /?i:.r#+@m/, /j'a:r/, /j'e:.d#+r/.
    Die etwas redundantere Konvention mit explizitem Schwa bzw. a-Schwa wird in Übereinstimmung mit der allgemeinen Praxis in SAMPA-D-VMlex verwendet.
B. Kodierungskonventionen
  1. Linguistisch standardisierte Repräsentation von Silbengrenzen durch '.' statt `$' (vorgeschlagen: `!' für Silbengrenzen bei ambisilbischen Konsonanten, z.B. /h'a!t+@/ `hatte')
  2. Zusätzliche morphologische Segmentierung durch # (Wortgrenze in Komposita) ## (Wortgrenze in phrasalen/idiomatischen Einheiten) #+ (Grenze zwischen Stamm und Flexionsendungen) + (Morphgrenze bei Ableitung und zwischen Flexionsaffixen)
  3. Akzentzeichenzuordnung vor Vokalen statt an Silbengrenzen (vermeidet theoretische Annahmen über Silbengrenzen)


3. Zeicheninventar von SAMPA-D-VMlex

Als Transkriptionsbegrenzungen wird links und rechts `/' (Schrägstrich) verwendet, falls erforderlich.

Grenzzeichen
# Wortgrenze
#+ Flexionsgrenze
+ Morphgrenze
. Silbengrenze
(vor `+', falls benachbart: /?'E:n.+lI.C#+@s/)
! Silbengrenze (vorgeschlagen)
Anm.: `#' und `##' implizieren sowohl `+' als auch `.' (aber nicht umgekehrt).

Akzentzeichen
' Primärakzent (Hauptakzent), vor Vokal
'' Sekundärakzent (Nebenakzent), vor Vokal
Weitere Diakritika
: Längenzeichen
~ Nasalierungszeichen (nach Vokalen)

Schwache Vokale
6 /b'U.t6/ `Butter'
nichtbetonter zentraler halboffener Vokal mit velarer Färbung
(a-Schwa; r-Allophon)
@ /S'2:.n+@/ `schöne'
nichtbetonter zentraler halboffener Vokal (Schwa)

Vokale
i: /tE6.m'i:n/ `Termin'
gespannter langer ungerundeter geschlossener vorderer Vokal
I /In/ `in'
ungespannter kurzer ungerundeter vorderer Vokal
y: /z'y:s/ `süß'
gespannter langer gerundeter geschlossener vorderer Vokal
Y /?'Yp.sI.lOn/ `Ypsilon'
ungespanter kurzer gerundeter geschlossener vorderer Vokal
e: /g'e:#+n/ `gehen'
gespannter langer ungerundeter halbgeschlossener vorderer Vokal
E /?'an#g@.+StEl.+t#+@n/
`Angestellten' ungespannter kurzer ungerundeter halboffener vorderer Vokal (offenes /E/)
E: /b@.+St'E:.t+I.g+UN/ `Bestätigung'
gespannter langer ungerundeter halboffener vorderer Vokal (langes offenes E)
2: /S2:n/ `schön'
gerundeter halbgeschlossener vorderer Vokal
9 /gl'9k.+C@n/ `Glöckchen'
gerundeter halboffener vorderer Vokal
a: /n'a:.m#+@/ `Name'
langer offener hinterer Vokal
a /d'ax/ `Dach'
offener hinterer Vokal
a~ /rEs.to:.r+'a~/ `Restaurant'
nasales /a/ (in französischen Fremdwörtern)
o: /gr'o:s/ `groß'
gespannter langer halbgeschlossener hinterer Vokal
O /?'O.f@n/ `offen'
ungespannter kurzer halboffener hinterer Vokal (offenes /O/)
u: /S''u:.l#+@/ `Schule'
gespannter langer gerundeter geschlossener hinterer Vokal
U /h'U.m@l/ `Hummel'
ungespannter kurzer gerundeter geschlossener hinterer Vokal (kurzes /U/)

Diphthonge
Folgende Vokalsequenzen kommen als Diphthonge, in ähnlicher Distribution wie die langen Vokale, vor:
OY`eu', `äu' usw.
aI`ai', `ei' usw.
aU`au'
Die Sequenz Vokal und a-Schwa, als postvokalisches Allophon von /r/, kann ebenfalls als Diphthong angesehen werden.

Konsonanten
Plosive
p /ap/ `ab'
stimmloser bilabialer Plosiv
b /b@.r'aIt/ `bereit'
stimmhafter bilabialer Plosiv
t /tE6.m'i:n/ `Termin'
stimmloser alveolarer Plosiv
d /?o:.d6/ `oder'
stimmhafter alveolarer Plosiv
k /bl'Ok/ `Block'
stimmloser velarer Plosiv
g /n'a:.g@l/ `Nagel'
stimmhafter velarer Plosiv
? /?'an#tr''It/ `Antritt'
Glottalverschluß (vor betonten Anlautvokalen)
Frikative
f /f'o:6#b@.+Spr''E.C+UN/
`Vorbesprechung' stimmloser labiodentaler Frikativ
v /v'O.x#+@/ `Woche'
stimmhafter labiodentaler Frikativ
s /Str'a:.s#+@/ `Straße'
stimmloser alveolarer Frikativ
z /zEp.t'Em.b6/ `September'
stimmhafter alveolarer Frikativ
S /Str'a:.s#+@/ `Straße'
stimmloser postalveolarer Frikativ
Z /?a.raN.Z+'i:.r#+@n/ `arrangieren'
stimmhafter postalveolarer Frikativ
(in Fremdwörtern)
C /z'ICt/ `Sicht'
stimmloser palataler Frikativ
(Alternant des /C/-/x/-Morphophonems; Ich-Laut)
x /t'aU.x#+@n/ `tauchen'
stimmloser velarer Frikativ
(Alternant des /C/-/x/-Morphophonems; Ach-Laut)
h /h'al.t#+@n/ `halten'
stimmloser glottaler Frikativ
Affrikate
pf /kn'Opf/ `Knopf'
ts /m'E6ts/ `März'
tS /kv'atS/ `Quatsch'
Halbvokal
j /j'e:.n#+6/ `jener'
palataler Halbvokal (auch als Frikativ)
Sonoranten, Liquide
l /l'OYf#+t/ `läuft'
lateraler Sonorant
r /fr'Ist/ `Frist'
zentraler Sonorant (auch als Frikativ)
Nasale
m /m'e:6/ `mehr'
bilabialer Nasal
n /n'e:.m#+@n/ `nehmen'
alveolarer Nasal
N /p'YNkt.+lIC/ `pünktlich'
velarer Nasal

Dafydd Gibbon: 28.11.95, 29.11.95, 1.12.95, 4.01.97