Anmerkung: Der Begriff Ebene ist bei näherem Hinsehen vielleicht etwas irreführend, weil die Metapher `Ebene' übereinandergelegte Schichten suggeriert. Besser wäre wohl die Metapher einer `Sicht' oder einer `Perspektive' auf einen bestimmten Gegenstandsbereich mit bestimmten Methoden und Modellen. Die `Ebenen'-Terminologie hat aber eine lange wissenschaftliche Tradition. In einem Computermodell würden die Ebenen mit `Modulen' modelliert werden.
Wir beschäftigen uns jeden Tag mit gesprochener Sprache. Wir produzieren Signale, wenn wir sprechen, wir interpretieren Signale, wenn wir hören, und wir verarbeiten Symbole beim Lesen und Schreiben. Phonetik und Phonologie befassen sich sowohl mit Signalen als auch mit systematischer Symbolverarbeitung. Die Phonetik befaßt sich mit der Analyse von Lauten und die Phonologie befaßt sich mit der systematischen Organisation von Sprache in Lautstrukturen.
Deutsche Muttersprachler werden mit der Analyse der folgenden Buchstabenkette keine Probleme haben, auch wenn die konventionellen Leerstellen zwischen den Wörtern und die Interpunktion weggelassen werden:
Die Aufteilung von Sprachäußerungen, das sogenannte Segmentieren, setzt voraus, dass Informationen über Lautstrukturen zur Verfügung stehen. Im Deutschen ist die Lautkombination von m gefolgt von n am Wortanfang nicht zulässig. Im Irischen findet man diese Kombination in mna `Damen'. Es besteht eine Regelhaftigkeit innerhalb von Sprachen, die `Phonotaktik' die solche Kombinationen als zulässig oder unzulässig bestimmen lassen. Als Muttersprachler einer Sprache haben wir (bewußt oder unbewußt) Kenntnisse von solchen Regeln; diese nennt man linguistische Kompetenz.
Bei der Aussprache von Wörtern werden Kenntnisse über die im Wort vorhandenen Laute benötigt. Man kann nicht immer die Rechtschreibung als Grundlage für die Aussprache nehmen. Im Deutschen bietet die Rechtschreibung einen Hinweise auf die Aussprache. Wenn ein Lerner davon aussgeht, dass das g in Tag genauso ausgesprochen wird wie das g in gehen, hört sich die Aussprache etwas fremd an. Hilfreicher wäre der Hinweis, dass Tag als /taak/ ausgesprochen werden sollte. In einigen Sprachen wie Englisch oder Französisch bietet die Abbildung der Rechtschreibung auf die Aussprache aus historischen Gründen nicht so viel. Aufgrund dieser Tatsache hat George Bernard Shaw sich den Spaß erlaubt, den Form ghoti als denkbare Schreibweise für das englische Wort `fish' vorzuschlagen ( gh wie in cough, o wie in women und ti wie in nation). Der Laut [f] wird in der Rechtschreibung des Englischen durch verschiedene Buchstaben realisiert (f, ff, gh, ph).
Um die Aussprache von unbekannten Wörtern zu erleichtern, steht ein Alphabet zur Verfügung, in dem alle sprachlichen Äußerungen umgeschrieben werden können. Es besteht für alle Sprachen ein gemeinsames Transkriptionsystem, das phonetische Alphabet (IPA), in dem die Aussprache der Wörter in Wörterbüchern angegeben werden kann. Mit Kenntnissen dieses Alphabets ist es möglich einerseits eine Äußerung auszusprechen ohne die Rechtschreibung zu kennen und andererseits aufgrund der Rechtschreibung nachzuschlagen, wie das Wort ausgesprochen werden soll. Im Wörterbuch steht also meistens eine Standardaussprache in phonetischen Umschrift, die sogenannte Transkription. Eine solche phonetische Transkription wird präskriptiv (oder phonotypisch) genannt, da vorgeschrieben wird, wie die Aussprache standardmäßig lautet. Eine phonetische Transkription kann auch deskriptiv sein. In diesem Fall wird eine Äußerung beschrieben, in dem alle Informationen in der Transkription angegeben werden, die von dem Sprecher erzeugt werden (z. B. das [s] der norddeutschen Aussprache, das aber standardmäßig als [] `sch' ausgesprochen wird).
Man unterscheidet zwischen einer phonetischen Transkription (zwischen [...]
geschrieben), in der alle phonetischen Informationen der Äußerung
sich in der Transkription wiederfinden, und einer phonologischen
Transkription (zwischen /.../ geschrieben), in der nur die
Informationen wiedergegeben werden, die gebraucht werden, um diese
Äußerung von jeder anderen Äußerung dieser Sprache inhaltlich zu
unterscheiden. Das letztere basiert auf eine Teilmenge des phonetischen
Alphabets, die nur die Laute beinhalten, die zu inhaltlichen Unterscheidungen
innerhalb einer bestimmten Sprache beitragen. Das Thailändische unterscheidet
beispielsweise zwischen drei bedeutungsunterscheidenen bilabialen Plosivlauten
[p
], [p], [b] (Laute, in den durch beide Lippen ein Verschluß gebildet wird).
Obwohl diese drei Laute auch im Englischen zu finden sind, sind nur
zwei davon, [p] und [b] bedeutungsunterscheidend. Der dritte Laut
[p
] kann statt [p] ausgesprochen werden,
ohne dass eine andere Bedeutung entsteht (dies gilt jedoch nicht für [b],
vgl. `bat' und `pat'). Eine phonologische Transkription einer englischen
Äußerung braucht die Unterscheidung zwischen [p] und [p
] nicht wiederzugeben. Im Englischen werden sind die
Laute [p
] und [p] Allophone, d.h. unterschiedliche
Realisierungen des Phonems /p/.
Die Regelhaftigkeit von Lautstrukturen und ihrer Beziehung zur Aussprache ergibt nicht immer eine eindeutige Abbildung einer geschriebenen Form. So entstehen Mißverständnisse wie zum Beispiel bei der Interpretation von Montage oder beinhalten. Nur der geschriebene Form ist hier nicht eindeutig; der gesprochene Form gibt Hinweise durch Vokalqualität und Betonung.
Die Phonetik ist die Wissenschaft der beobachtbaren Eigenschaften von Sprachlauten. Sie beschäftigt sich mit der Detailbeschreibung von lautsprachlichen Äußerungen unter Berücksichtigung der Möglichkeiten der menschlichen Sprech- und Hörorgane und der Schallübertragung. Methodisch geht man in der Phonetik entweder perzeptiv oder instrumentell vor. Perzeptiv entspricht einer symbolphonetischen Vorgehensweise durch direkte Beobachtung, die eine geschulte Ausbildung voraussetzt. Instrumentell entspricht eher der signalphonetischen Vorgehensweise durch indirekte Beobachtung unter Hinzuziehung von physikalischen Meßverfahren. Diese Methoden werden auf die folgenden drei Gegenstandsbereich angewandt:
Die artikulatorische Phonetik beschäftigt sich mit den physiologischen Aspekten der Sprachproduktion: wie werden Sprachlaute gebildet, welche Organe sind am Sprachprozess beteiligt. Auch diese Informationen können visualisiert werden. Abbildung 5.3.2 zeigt einen Querschnitt des Kopfes bei der Produktion des Lautes [i]. Die Zunge ist hoch nach vorne und die Lippe sind offen. Andere Bilder (z.B. der Lippen von vorne oder der Stimmlippen) zeigen die andere Organe, die am Prozess beteiligt sind.
Die akustische Phonetik befaßt sich mit der Untersuchung von Sprachsignalen und der Physik von Schallproduktion und -analyse. Eine sprachliche Äußerung kann in verschiedenen Weisen visualisiert werden (wie z. B. durch einen Oszillogramm vgl. 5.3.2). Eine solche Visualisierung setzt eine komplexe Verarbeitung der Sprachäußerung voraus: Aufnahme, Digitalisierung, Parametererzeugung und Berrechnung der jeweiligen visuellen Formate. Gegenstand der akustischen Phonetik ist die Erzeugung und Weiterverarbeitung der Parameter und die Abbildung zur symbolischen Repräsentation der Äußerung (die Transkription).
Die auditive Phonetik beschäftigt sich sowohl mit den physiologischen Prozessen, die beim Hören einer Äußerung im Ohr stattfinden, als auch mit Modellen der Sprachwahrnehmung.
Die Phonologie ist die Wissenschaft der bedeutungsrelevanten minimalen Lautunterschiede. Sie beschäftigt sich mit der Beschreibung der Einheiten und Strukturen lautsprachlicher Äußerungen, die sprachlichen Zeichen (Wörter, Sätze) voneinander unterscheiden. Ziel dieser Beschreibung ist die redundanzfreie Kodierung sprachlicher Zeichen. Die kleinsten bedeutungsunterscheidenden Einheiten einer Sprache wurden traditionell Phoneme genannt. Aus heutiger Sicht ist der Phonembegriff jedoch problematisch, da er eine diskrete sequentielle Segmentierung von Sprachäußerungen annimmt und u.a. die prosodischen Eigenschaften von Wörtern aus diesem Grunde nicht berücksichtigen kann. Die Phonologie befaßt sich mit phonologischen Strukturen, die durch die folgenden Relationen definiert werden können:

Syntagmatische Relationen definieren Ganze/Teile nach bestimmten Ordnungsprinzipien; sie beziehen sich z. B. auf die Relation zwischen den Lauten im Wort Panne:
![]()
Syntagmatische Relationen erzeugen größere Teile (z.B. Silbenanfang, Silbe) nach Kompositionsregeln, die die zulässigen Kombinationen in der Sprache wiedergeben. Syntagmatische Relationen können sowohl zwischen Phonemen, zwischen größeren Silben- oder Wortteilen bestehen. Grenzphänomene wie ``im Berlin'' für ``in Berlin'' werden durch solchen solchen Relationen bedingt.
``Er redet, wie ihm der Schnabel gewachsen ist'' -- so wird jemand charakterisiert, der eine natürliche, ungezwungene, ungesteltzte Alltagssprache spricht. Metaphern aus anderen Lebensbereichen deuten andere Aspekte unserer Wahrnehmung gesprochener Sprache in einfachen Alltagstheorien an: eine ``ungehobelte Redeweise'', ``ungeschliffene Sprache'', ``abgeschliffene Wörter'', ``geschluckte Laute'', ``Brustton der Überzeugung'', ``der Ton macht die Musik'', ``Bauchredner''. Der Politikerspruch ``Es gilt das gesprochene Wort!'' trifft eine etwas andere Eigenschaft gesprochener Sprache, nämlich ihren handlungskonstituierenden Charakter (in diesem Fall wohl in einem geeigneten ritualisierten Geschäftskontext und eventuell unter Zeugen).
Die Schriftsprache ist in einer hochgradig entwickelten Gesellschaft ein notwendiges Instrument zur Konstitution komplexer gesellschaftlicher Strukturen und Verfahren. Aber die gesprochene Sprache stellt das vielschichtige Fundament dar, auf dem die Schriftsprache aufbaut. Für die Schriftsprache sind im Laufe von Jahrtausenden vielseitige technologische Hilfsmittel entwickelt worden, von Papier und einfachen Schreibutensilien zu komplexer Textverarbeitungssoftware. Für die gesprochene Sprache sind aber -- trotz der Fortschritte im 20. Jahrhundert bei der akustischen Speicherung und Kodierung gesprochener Sprache -- erst in der zweiten Hälfte der 90er Jahre technisch komplexe aber funktional noch recht einfache sprachtechnologische Hilfsmittel kommerziell verfügbar geworden, z.B. in der Form von Spracherkennungs- und Sprachsynthesesoftware.
Die Schriftsprache ist keine bloße Kodierung gesprochener Äußerungen, sondern -- auch in informellen Briefen -- eine sorgfältig redigierte, gespeicherte Realisierungsform der Sprache mit eigenen Gesetzlichkeiten und Normen. Diese dürfen allerdings nicht ohne weiteres unkritisch auf die gesprochene Sprache zurückübertragen werden; auch unscheinbare Elemente der gesprochenen Sprache wie ``ähm'', im Volksmund `Füllwörter' genannt, haben eine eigene, den Redefluß unbewußt steuernde Grammatik, ohne die die spontan gesprochene Sprache sehr schwer verständlich wäre. Einige der aus linguistischer Sicht wichtigsten Unterscheidungen zwischen gesprochener und geschriebener Sprache sind in Tabelle 1 gegenübergestellt.
Eine umfangreiche Darstellung der zentralen Verfahren für phonetische, linguistische und technische Untersuchungen an gesprochener Sprache und an sprachtechnologischen Systemen befindet sich in [].
In der gesprochenen Sprache lassen sich auf jeder Informationsebene verschiedene parallele Informationsströme identifizieren. Ein klassisches Sprachproduktionsmodell unterscheidet beispielsweise drei Ebenen. Auf der ersten Ebene, bei der Äußerungsplanung, sind neben sachlichen Informationen auch emotive, fokussierende, handlungssteuernde und kontaktpflegende Informationen mitzuteilen. Auf der zweiten Ebene, bei der organisierenden Formulierung von Äußerungen, sind neben der Generierung von Wörtern und Sätzen auch die Sprachmelodie und die rhythmische Organisation, aber auch kommunikative Gesten gleichzeitig zu gestalten. Auf der dritten Ebene, bei der konkreten physiologischen Produktion von Sprachlauten, sind parallele Gesten der Artikulationsorgane (Lungen, Kehlkopf, Gaumensegel, Zunge, Lippen) zu koordinieren, und in akustische Signale umzusetzen. Bei der Sprachwahrnehmung werden entsprechend (in umgekehrter Reihenfolge) drei Ebenen der physiologischen Wahrnehmung, der strukturellen Analyse, und des Verstehens angesetzt. Eine gute Übersicht über diesen Gegenstandsbereich wird in [] und [] gegeben.
Auf der physiologischen Ebene der Produktion und der Wahrnehmung sind Sprachsignale der direkten empirischen Untersuchung zugänglich als kontinuierliche Veränderungen von wahrnehmbaren Lauteigenschaften in der Zeit, z.B. durch direktes Hören eines geschulten Phonetikers, oder durch physiologische oder akustische Messungen. Für die Ergebnisse solcher Beobachtungen physiologischer Vorgänge wurden sehr präzise Modelle mit phonetischen Alphabeten für die direkte perzeptive Beobachtung der Vorgänge und mathematische Verfahren für indirektere physikalische Messungen der Vorgänge entwickelt.
In der akustischen Signalübertragungsphase
kann die Äußerung ``Ich habe ein schönes Buch''
aufgrund direkter Beobachtung mit einem phonetischen Alphabet als
/
ç ha:b
a
n
øn
s bu:x/
modelliert werden. Im Vergleich zur schriftsprachlichen Orthographie
hat ein solches Modell, in diesem Fall eine phonemische Transkription,
eine sehr viel direktere Beziehung zum Sprachsignal; jedes Symbol soll
in einem bestimmten Kontext einen eindeutig identifizierbaren Laut
darstellen. Für einige Laute existiert kein Buchstabe in der Orthographie,
z.B. stellt das Zeichen /
/ in /ha:b
/ -- ``habe''
den neutralen Vokal `Schwa' dar.
Das ``e'' in der Schriftsprache wird demgegenüber
benutzt, um eine Reihe von Lauten darstellen:
Im Wort ``Bielefelder'' hat das ``e'' beispielsweise vier Bedeutungen:
(1) Längungszeichen für langes /i:/ (vgl. ``Soest'', ``Lied'', ``Beet'');
(2) Schwa /
/ (vgl. auch /ha:b
/ -- ``habe'', /b
la
/ -- ``Belang'');
(3) kurzes /
/ (vgl. /f
lt/ -- ``Feld'');
(4) ein weiterer neutraler Vokal /
/, a-Schwa (vgl. auch /f
b
nd![]()
/ - ``Verbindung'').
Das ``e'' hat noch weitere Bedeutungen, etwa
als langes /e:/ in /me:t/ -- ``Met'',
als /a/ im Diphthong /a
/, vgl. /fa
n/ -- ``fein'',
oder als /
/ im Diphthong /![]()
/, vgl. /h![]()
/ -- ``Heu''.
Diese perzeptive Modellierung von Sprachsignalen
ist immer kategorial, d.h. der hörende Mensch (auch ein
Phonetikexperte) ordnet das gehörte Signal einer mit einzelnen Symbolen
dargestellten Lautkategorie zu -- man könnte von ``Schubladenwahrnehmung''
sprechen.
Aus physikalischer Sicht sind Sprachsignale aber im Prinzip dauernd wechselnde Veränderungen der Amplitude (Stärke) eines physikalischen Meßparameters, beispielsweise der Position von Luftmolekülen oder des Membrans eines Mikrophons oder eines Lautsprechers, die durch mathematische Verfahren analysierbar sind. Eine Visualisierung der mathematischen Analysen der Amplitude eines Sprachsignals (ebenfalls ``ich habe ein schönes Buch'') als Zeitfunktion (Oszillogramm, Verlauf in Millisekunden angegeben) ist in Abbildung 5.4.1 wiedergegeben. Mit gewissen Vereinfachungen ist der Wechsel von leiseren Geräuschen (entsprechend Konsonanten) und von lauteren harmonischen Klängen (entsprechend Vokalen) sehr deutlich zu sehen ist (das /n/ in ``schön'' stellt eine Zwischenkategorie dar); einzelne Silben, bestehend aus Konsonant-Vokal-Kombinationen, sind relativ leicht zu finden. Der Abschnitt ``habe'' wird zwischen zwei grauen Balken gezeigt.
Eine markante Eigenschaft der gesprochenen Sprache, auf die sich die Bielefelder Linguistik spezialisiert hat, ist die Sprachmelodie oder Intonation, die im Deutschen Äußerungen gliedert, eine gesprächssteuernde Funktion hat, und Emotionen widerspiegelt. Einige relevante Aspekte werden in [] besprochen. In vielen Sprachen der Welt können melodische Tonfolgen ebenso wie Konsonanten und Vokale zusätzlich Wörter unterscheiden.
Es würde zu weit gehen, hier auf Details der Intonationsanalyse einzugehen;
Abbildung
visualisiert aber die Ergebnisse eines
mathematischen Verfahrens zur Erfassung des melodischen Verlaufs von
Sprachsignalen (den Grundfrequenzverlauf) aus Aufnahmen von
spontansprachlichen Dialogen.
Am Beispiel ``der Mai ist ja noch ein hat ja noch ein bißchen Zeit und <pause> denke daß wir den April vorziehen sollten'' sieht man nach ca. 2.75 Sekunden auf dem Wort ``Zeit'' eine ausgeprägte Tonsteigung, die die Äußerung teilt. An dieser Äußerung wird auch die sogenannte `Fehlerhaftigkeit' gesprochener Sprache sehr deutlich, mit Abbrüchen und Wiederholungen, die Verlauf und Revisionen des Planungsprozess anzeigen. Besonders auffällig sind in der zweiten Äußerung starke Tonveränderungen von bis zu 100 Hz (hier fast eine Oktave), die betonte Wörter hervorheben (akzentuieren), z.B. das Wort ``auch''.
Eine der zentralen Aufgaben der Entwicklung sprachtechnologischer Systeme besteht in der formalen Definition und Implementierung einer Funktion, die ein kontinuierlich variierendes Sprachsignal auf eine Symbolstruktur abbildet (Spracherkennung, s. []) oder umgekehrt (Sprachsynthese, s. []). Einzelne Abschnitte der Sprachproduktion und der Sprachwahrnehmung können zum Teil bereits sehr detailliert operationalisiert werden. Dies bedeutet, daß Strukturen und Verfahren so genau modelliert werden, daß Computerprogramme entwickelt werden können, mit denen diese Modellabschnitte emuliert werden: die Datenstrukturen repräsentieren dann indirekt die anatomischen und physikalischen Strukturen im Modell, und die Algorithmen repräsentieren indirekt die Verarbeitungsverfahren, die die menschliche Kommunikation ermöglichen.
Die wichtigsten Sprachtechnologien befassen sich mit folgenden Aufgabenbereichen: Automatische Spracherkennung (Spracheingabe), Sprecherverifikation und -identifikation (z.B. als Paßwort- oder PIN-Ergänzung für Kreditkarten), Automatische Sprachsynthese (text-to-speech, neuerdings auch die anspruchsvollere Aufgabe concept-to-speech), Sprachdialogsysteme (speech dialogue systems), Übersetzungssysteme für gesprochene Sprache (speech-to-speech-translation systems), Kompressions- und Kodierungstechniken für Sprachsignale.
Solche Sprachtechnologien erfordern ein sehr gründlich durchdachtes Entwicklungsverfahren, das, grob gegliedert, folgende Schritte umfaßt (s. []):
Die Standardarchitektur eines Spracherkenners, als Beispiel eines sprachtechnologischen Systems, wird in Abbildung
illustriert; Kern eines
solchen Systems sind ein `Akustikmodell',
z.B. eine probabilistische (wahrscheinlichkeitstheoretische)
Beschreibung von Lauteigenschaften und Lautübergängen (ein `Hidden Markov
Model') und ein `Sprachmodell', z.B. eine probabilistische Beschreibung von
Wortübergängen. Die Wahrscheinlichkeiten werden aus einer großen Menge
von sogenannten `Trainingsdaten' gewonnen.
In Bielefelder Forschungsprojekten sowie in praktischen Anwendungen für die Lehre (vgl. Beiträge in [] sowie das interaktive multimediale Angebot im Internet []) wird das `Sprachmodell' weiter in phonologische und morphologische Prädiktoren unterteilt; für das Lexikon werden neuartige Modelle eingesetzt, die aus der Logik und der Künstlichen Intelligenz stammen.
Traditionelle Anwendungen für die Sprachtechnologien sind im Bereich von phonetischen Untersuchungen, im Fremdsprachenunterricht, sowie in der klinischen Diagnose und Therapie von Sprachstörungen zu finden. Der Stand bei Anwendungen von sprachtechnologischen Systemen schreitet von Jahr zu Jahr auffällig fort; Lesesoftware für Blinde (zum Vorlesen elektronischer Texte), Diktiersoftware für ärztliche Befunde usw. werden inzwischen kommerziell angeboten. Für einige bekannte Textverarbeitungssysteme bieten mehrere renommierte Hersteller bereits recht preiswerte allgemeine Diktiersoftware an, die relativ leicht auf Einzelsprecher zu adaptieren ist und nach der Adaptation sehr gute Erkennungsraten mit Wortschätzen von einigen zehntausend Wörtern bieten. Diese Programme erlauben die mündliche Eintragung von Text in ein Textverarbeitungs- oder Datenbanksystem; wie Tests in Verbraucherzeitschriften zeigen, handelt es sich dabei längst nicht mehr um Laborprototypen.