| Up to Reports | MODELEX Homepage | Allgemeine Angaben | Stand der Forschung und eigene Vorarbeiten | Ziele und Methoden | Arbeitsprogramm | Literatur |
Im ersten Teil dieses Abschnitts wird der heutige Stand der Forschung, auf dem das geplante Projekt aufbaut, dargestellt, im zweiten die dafür relevanten eigenen Arbeiten.
Das Projekt wird als Beitrag zur Verstärkung einer bereits beobachtbaren Tendenz zur Integration der Forschungsfelder Lexikontheorie, deskriptive Lexikologie und operationale Lexikographie verstanden. Folgende Strukturierung wird vorgenommen:
Einen umfassenden Überblick über den Stand der Entwicklung im Lexikonbereich wird von van Eynde & Gibbon (2000) gegeben, über multimodale Informationstypen von Gibbon, Mertins & Moore (2000).
Der Gegenstandsbereich multimodaler Lexika ist in den letzten Jahren sehr stark durch die Entwicklung multimodaler, insbesondere audio-visueller sprachtechnologischer Systeme vorangetrieben worden. Für tutorielle und informationssuchende Systeme werden sprechende und sich gestisch bewegende Avatare (als Metapher für Realisierungen virtueller anthropomorpher Systemkomponenten) entwickelt, für deren Einzelkomponenten atomare multimodale Elemente in einem in der Regel noch recht einfachen Lexikon definiert werden (Benoît & Campbell 1997; Pelachaud & Prevost 1994; Poggi & Magno Caldognetto 1996). Das Interesse im Projekt ist nicht darauf beschränkt sondern grundlagentheoretisch und deskriptiv-linguistisch motiviert durch das Ziel der Entwicklung linguistisch fundierter lexikologischer Grundlagen für die Formalisierung multimodaler Lexika und für deren Implementierung als multimediale lexikographische Ressourcen wie Datenbanken, Hypertextressourcen (wie sie u.a. von multimodal interagierenden sprachtechnologischen Systemen verwendet werden).
Durch die Zielsetzung des Projekts ist ein Gegenstandsbereich umrissen, der als Metagrammatik des Lexikons benannt werden kann, wobei Grammatik als theoretisch- und deskriptiv-linguistisches Pendant etwa zu einer DTD (Document Type Definition) in der SGML/XML-Welt verstanden wird (vgl. auch Lobin 1999, Lobin 2000). Die Metagrammatik des Lexikons wird einerseits durch die zyklischen Entwicklungsverfahren, die eine bestimmte lexikalische Objektdomäne (z.B. multimodale Ausdruckskategorien) mit bestimmten empirischen Methoden (z.B. quantitative Corpusanalyse, Abstraktion aus bestehenden Lexika, experimentellen Untersuchungen) und bestimmten formalen Methoden (Constraintsystemen, Attribut-Wert-Formalismen, Generalisierungs- und Spezialisierungshierarchien) untersuchen. Andererseits spielen vortheoretische, empirisch-intuitive Modellierungskonventionen, die im zyklischen Entwicklungsverfahren entstehen, eine zentrale steuernde Rolle, indem sie den Gegenstandsbereich allmählich strukturieren und die Bildung zunehmend differenzierter Arbeitshypothesen ermöglichen.
Konkret heißt dies beispielsweise beim LexikonObj, dass der ausdruckssemantische Teil der Mikrostruktur eines Lexikoneintrags nach den Erkenntnissen der sog. Gestischen oder Artikulatorischen Phonologie (erst recht beispielsweise bei einer Diskurspartikel oder einer Emphase-Prosodie) lexikalische Informationen für die mediale Interpretation als koextensive parallele Gesten enthält. Die Gesten werden auf zeitlich parallele akustische (Silbenstruktur - [aha], mit paralleler prosodischer Betonung), visuelle (Bewegung der Augenbrauen, des Kopfes, der Schultern, der Arm, der Hände) oder taktile Ereignisse (Händedruck, Schulterklopfen) abgebildet. Eine Definition von Geste wird erst im Laufe des Projekts entstehen, ausgehend von bekannten Ereignisbegriffen in der Logik, der linguistischen Semantik und der Computerphonologie (Carson-Berndsen 1998).
Eine in vorausgegangenen Arbeiten zur Grundlegung der Lexikographie gesprochener Sprache erarbeitete Visualisierung von Modellierungskonventionen im Bereich der Lexikontheorie, die in Zusammenarbeit mit den Partnern in den anderen Projekten weiterentwickelt werden soll, ist in Abb. 1 dargestellt.

Abbildung 1: Metalexikalische Architektur multimedialer Lexika
Die Abbildung zeigt ein erweitertes Zeichen mit zweistufigen Inhalts- und Ausdruckssemantiken:
Die gestrichelten Pfeillinien stellen beide Interpretationsfunktionen im Hinblick auf physikalische oder abstrakte Welten dar. Die festen Pfeillinien zeigen eine faktorisierte Interpretation in zwei Stufen: erst kategorial, dann in die Domäne numerischer Messungen. Wichtig ist hier die Parallele zwischen semantischer (inhaltlicher) Interpretation im klassischen Sinne und phonetischer (bzw. medialer) Interpretation.
Diese Dreikomponentenstruktur ist bewusst an die Modellarchitektur moderner formal-deskriptiver Syntaxen angelehnt: Die Interaktion zwischen Syntax einerseits und semantischer und phonetischer Interpretation andererseits ist z.B. allen Chomsky'schen und post-Chomsky'schen Modellen ab 1965 (Butt & al. 1999, Koenig 1999, Pollard & Sag 1987, 1994) gemeinsam.
Vorsicht ist geboten bei der Verwendung dieser Terminologie: Das gleiche Modell gilt nicht nur für die Metagrammatik des LexikonDok, um die es hier geht, sondern auch für die semiotischen Informationen, die in den Mikrostrukturen eines LexikonObj, repräsentiert werden, die konventionell als semantische, syntaktische, phonetische, graphische Kategorien bezeichnet werden.
Es besteht sicher mit dieser formalsemantisch orientierten Terminologie die Gefahr von Ebenenverwechslungen. Dies liegt nicht einfach an der Terminologie, sondern daran, dass es bislang beim heutigen Stand der Forschung keine adäquate Metatheorie des Lexikons in diesem Sinne gibt. Diese Unklarheiten zu erkennen und zu modellieren wird eine zentrale Aufgabe im Projekt sein.
Als erster Schritt in Richtung Integration bisher disparater Aufgabenbereiche werden einige der traditionellen Begriffsgruppen der Lexikographie hier kritisch kommentiert und im Projektkontext kontextualisiert:
Makrostruktur vs. Mikrostruktur eines Lexikons: Diese Begriffe werden als nach wie vor zutreffend für die deklarative Charakterisierung der Architektur eines Lexikons angesehen, allerdings müssen sie um weitere Unterscheidungen erweitert werden. Erstens wird die Makrostruktur in den hier dargestellten Modellierungskonventionen als eine Dreikomponentenstruktur mit syntaktischen, semantischen und medialen Strukturen dargestellt: Eine Hypertext-Struktur auf der Ausdruckssemantischen Seite ist nicht notwendigerweise isomorph mit den Kategorien und Strukturen der Dokumentsyntax; dies kann man sich leicht vorstellen, wenn man betrachtet, wie ein und dasselbe Dokument aus einer Textdatenbank heraus sowohl theoretisch als auch in der Praxis auf mehrere Buchformate oder mehrere Hypertextformate abgebildet werden kann. In einer adäquaten Metagrammatik des Lexikons muss außerdem eine Ranghierarchie von lexikalischen Lemmata unterschiedlicher `Größe' (Morphemtypen, Worttypen, Idiomtypen) sowie - z.B. in multilingualen Lexika - abstrakte `Transferlemmata' auf diesen Rangebenen definiert werden. Zweitens kann die Mikrostruktur (die Organisation von Typen lexikalischer Information) - wie in modernen Attributwertgrammatiken - hierarchisch mit weit höherer Granularität als in herkömmlichen Lexika strukturiert werden, um Subtypen lexikalischer Information zu definieren. Drittens ist es notwendig, zusätzlich eine Mesostruktur zu definieren, um neueren Ansätzen in der Definition generalisierter lexikalischer Informationen - in Typhierarchien, Defaulthierarchien, Objekthierarchien, lexikalischer Taxonomien - gerecht zu werden. Traditionell ausgedrückt: Die Mesostruktur beschreibt paradigmatische lexikalische Relationen (in der traditionellen lexikalischen Semantik als semantische Relationen, Wortfelder usw. beschrieben).
Phonetische Interpretation lexikalischer Einheiten: Schon an einem Lexikon, das die Relationen zwischen Aussprache und Schrift theoretisch adäquat darstellen will - also den Minimalfall eines multimodalen Lexikons darstellt - scheitert dieser Begriff. Es gibt zahlreiche Theorien zur phonetischen Interpretation, aber keine einzige vergleichbare linguistische Theorie der `graphischen Interpretation', wie sie zur Integration gestisch-akustischer, gestisch-visueller, gestisch-taktiler, handschriftlicher, maschinenschriftlicher Kommunikation im allgemeinen notwendig wäre. Beim Anspruch, multimodale Lexika zu modellieren und formal zu spezifizieren wird auf jeden Fall ein verallgemeinerter Interpretationsbegriff notwendig; der Begriff mediale Interpretation wird hierfür eingeführt.
Für die Definition von Typen lexikalischer Information im Projekt wird folgende Unterscheidung von Bedeutung sein, die aus der neueren Forschung zu multimodalen Systemen stammt (Gibbon, Mertins, Moore 2000, Kap. 2):
Über die linguistischen Modellierungskonventionen hinaus ist der Gegenstandsbereich vor allem durch das Szenario, also durch eine Domäne und Handlungen in dieser Domäne, sowie durch die Sprachwahl definiert:
Die Sprachwahl gestaltet sich z.T. pragmatisch, wegen vorhandener Expertise sowie Sprach- und Software-Ressourcen. Das Hauptinteresse gilt den Realisierungsformen sprachlicher Kategorien in verschiedenen Modalitäten und Submodalitäten im Hinblick auf deren lexikalische Bestandteile. Um nicht in apriorischen Annahmen über Universalien multimodaler Interpretationen lexikalischer Einheiten verstrickt zu werden, sollen im Projekt zunächst zwei Sprachen exemplarisch anhand des vorgesehenen Szenarios behandelt werden: Englisch, als flexionsmorphologisch einfache, derivationsmorphologisch komplexe Betonungs- und Intonationssprache und Anyi als Tonsprache, die flexionsmorphologisch komplexer und derivationsmorphologisch einfacher ist, behandelt werden. Ein Schwerpunkt der Modellierung sollen diskurssteuernde Partikeln in diesen Sprachen sein (Langer 1990, Gibbon & Sassen 1997, Tseng 1999, Fischer 2000), sowie deren Abbildung nicht nur auf die lautproduzierende Gestik gesprochener Sprache sondern auch auf manuelle Gestik und Gesichtsmimik. In einer späteren Phase des Projekts soll das Japanische in Zusammenarbeit mit dem Projekt Metzing unter anderem zur Evaluation der bis dahin entwickelten Methodik hinzukommen, um die Notwendigkeit von Erweiterungen im Hinblick auf eine flexionsmorphologisch komplexe Tonakzentsprache zu untersuchen.
Die heutige Lexikographie als auch die deskriptive Lexikologie und die lexikalische Theoriebildung zeigen große Überlappungsbereiche und deutliche, methodologisch bedingte Tendenzen zur Konvergenz. Während die Lexikographie mit der traditionellen, allerdings seit längerem durch umfangreiche Datenbanktechniken gestützten manuellen corpusorientierten Datenerfassung arbeitete, standen bis vor kurzem für die Lexikontheoriebildung einerseits ebenso traditionelle modellgesteuerte introspektive und distributionelle Analysemethoden (Coward & Grimes 1995), wie andererseits formale Konstrukte, z.T. aus der formalen Linguistik wie formalsprachliche Regelsysteme, Implikationsregeln, Attribut-Wert-Logiken (Pollard & Sag 1987; Pollard & Sag 1994; Pustejovsky 1995), z.T. aus der Künstlichen Intelligenz wie semantische Netze, Vererbungssysteme, objektorientierte System (Evans & Gazdar 1996, Gibbon 1992) zur Verfügung.
Das Bild hat sich in den letzten zehn Jahren dramatisch geändert: Die numerische Corpuslinguistik stellt Methoden zur Verfügung, die beide Disziplinen einsetzen; es ist heute kaum denkbar, dass eine empirisch tragfähige linguistische Theorie ohne umfangreiche numerische Corpusanalysen stattfindet, und es ist ebenfalls kaum denkbar, dass die numerische Corpusanalyse ohne die Entwicklung zunehmend komplexer formaler Modelle stattfindet, die das Parsen und Etikettieren von sehr großen Corpora z.B. für gesprochene Sprache ermöglichen, die sonst nicht erschließbar wären. In diesem Zusammenhang spielen Finite State Technologies eine zunehmend wichtige Rolle (Kaplan & Kay 1994; Carson-Berndsen 1998); dies ist vor allem deshalb im Kontext von Lexika insgesamt und multimodaler Lexika insbesondere von Bedeutung, weil es schon seit geraumer Zeit als gesichert gilt, dass weite Teile des Lexikons und ihrer ausdruckssemantischen Interpretation in die Domäne dieser Technologien fallen.
In der heutigen empirischen wie technologisch orientierten Linguistik hat der Begriff metadata inzwischen einen festen Platz. Die primäre Anwendung ist die Charakterisierung von Primärdaten, d.h. Corpora: Angabe der Quellen, Erstellungsinformationen, soziolinguistische und physikalische Eigenschaften der Corpora (Gibbon, Moore & Winski 1997). Lexika und lexikalische Informationen werden in der Lexikographie gern als lexical data bezeichnet; Lexika sind aber ihrerseits eine besondere Art von Metadaten in diesem Sinne, weil sie linguistisch oder technologisch motivierte Charakterisierungen von Corpora darstellen. Aus dokumentationstechnischer Sicht sind Lexika aber sicherlich auch als Daten aufzufassen, also als schriftliche oder multimodale Dokumente, die ihrerseits für linguistische Untersuchungen und technologische Anwendungen zur Verfügung stehen. Solche Dokumente höherer Ordnung (aus linguistischer Sicht) erfordern ihrerseits auch eine Beschreibung mit Metadaten, die in ihrer Eigenschaft als Metagrammatik oder Metalexikon eines Lexikons auch als Metametadaten bezeichnet werden könnten. Wir wenden aber eine type coercion-Operation in diesem Moment an: Dokumente sind Dokumente und damit Daten aus sprach- und texttechnologischer Sicht. Dennoch müssen die Meta-Ebenen klar definiert bleiben.
Auf der untersten Metadatenebene werden zwei Arten von lexikalischen Metadaten unterschieden:
Die Charakterisierung von Lexika basiert oft zunächst auf der Angabe ihrer Mikrostrukturen; dies betrifft sowohl die identifizierenden als auch die generalisierenden lexikalischen Metadaten. Nach dem heutigen Verständnis wird aber ein einheitlich-stilisierter Lexikonbegriff - "das oder ein Lexikon" - aufzugeben sein zugunsten eines mehrdimensionalen Lexikonkonzepts, in dem die eher traditionellen Kategorien der interpersonellen und zeitlichen Variation vorkommen. In der neueren Lexikontheorie (Pustejovsky 1995; Koenig 1999) werden vergleichbare, wenngleich weniger komplexe Strukturen durch rekursiv definierte Attribut-Wert-Strukturen oder gerichtete Graphen dargestellt. Eine erste Annäherung an die erforderliche Struktuierung einer komplexeren Mikrostruktur wird in Abbildung 2 visualisiert. Auf die wichtige mikrostrukturelle Dimension der monotonen vs. des nichtmonotonen lexikalischen Schließens einzugehen, würde an dieser Stelle zu weit gehen (s. aber z.B. neuere Arbeiten wie Lascarides & Copestake 1998).

Abbildung 2: Modell einer lexikalischen Mikrostruktur mit zeitlicher und interpersoneller Variation
In einer bottom-up-Sicht kann die hier entwickelte komplexe Mikrostruktur auf der ersten, intrapersonellen Ebene als eine Funktion der drei dokumentstrukturellen Bereiche Dokumentsyntax, inhaltliche Interpretation und mediale Interpretation definiert werden; auf der zweiten, interpersonellen, pragmatischen Ebene als Funktion mehrerer intrapersoneller Bereiche; auf der dynamischen Ebene schließlich als eine Funktion mehrerer interpersoneller Bereiche in der Zeit. Die komplexe Mikrostruktur eines Lexikons spiegelt also die erforderlichen sprachlichen Informationen wider, aber auch eine Dimension der synchronen interpersonellen (z.B. idiolektalen, dialektalen, soziolektalen) Variation und eine zeitliche Dimension der adaptiven diachronen - sowohl intrapersonellen als auch interpersonellen - Variation. Informationen dieser Arten sind in traditionellen Lexika zu finden, sind allerdings nicht systematisch modelliert. Eine systematische Modellierung ist aber unverzichtbar, wenn operationale Lexika für adaptive interaktive Kontexte - z.B. auch in multimodalen Systemen (Gibbon, Mertins & Moore 2000) - entwickelt werden sollen.
Die Modellierung vor allem solcher komplexer Mikrostrukturen und der darüber generalisierenden Mesostrukturen wird im Mittelpunkt des theoretischen Interesses des Projekts stehen. Es wird aber nicht genügen, ein solches Modell deklarativ darzustellen: Verschiedene operationale Eigenschaften, von der Kompositionalität und dem Schließen mit mesostrukturellen Informationen bis zur Selektion von Substrukturen für praktisch nutzbare und medial darstellbare Lexika, werden definiert werden müssen.
Für die LexikonDok:-Ausdruckssemantik, also die mediale Darstellung der komplexen Lexikonstrukturen, die bisher skizziert wurden, bieten sich hypertextuelle Formen an. In den letzten fünf Jahren entstand der Begriff Hyperlexikon, mit breiter Anwendung auf alle Lexika und Lexikonsysteme, die als Hypertexte, vor allem im WWW, realisiert werden. Die in der Linguistik und Computerlinguistik bekanntesten, im WWW leicht zu findenden Beispiele (vg. Van Eynde & Gibbon 2000) sind das VerbMobil-HyprLex seit 1995 (Gibbon) und das sprachtypologisch orientierte Hyperlex seit 1998 (Bird).
Unterschieden wird auch zwischen statischen und dynamischen oder on-the-fly Hyperlexika: statische Hyperlexika sind bereits vorkompilierte Compendia, wie z.B. eine WWW-Version eines gedruckten Lexikons als abfragbare Datenbank. Dynamische Hyperlexika sind Lexika, wie z.B. on-the-fly-Konkordanzen, die nicht statisch vorkompiliert sind, sondern mit einer sehr großen Kombinatorik abgefragt werden können, wobei keine Indexauflösung sondern eine echte Suche stattfindet. In diesem Sinne können beispielsweise WWW-Suchmaschinen der heutigen Generation als dynamische Konkordanzen angesehen werden.
Dynamische Hyperlexika können einerseits als Vorstufe zur Erzeugung von statischen Hyperlexika angesehen werden, andererseits können letztere als Teilmenge der Menge möglicher dynamischer Hyperlexikonresultate angesehen werden. Problematisch bei allen bestehenden Hyperlexika ist die fehlende theoretische Grundlegung: Ein Hypertext wird im Rahmen unserer Modellierungskonventionen primär als mögliche Realisierungsstruktur, also ausdruckssemantische Struktur eines Dokuments definiert, deren zugrundeliegende Dokumentsyntax auch anders realisierbar wäre. Angenommen, dies sei eine angemessene Teildefinition: Wie ist dann die zugrundeliegende Struktur eines Hyperlexikons zu charakterisieren? Diese Frage ist heute noch offen, und betrifft den Kern des hier beschrieben Projekts.
Das Zeichenmodell dient nicht nur der Klärung der Beschreibungsebenen von LexikonDok und LexikonObj sondern texttheoretisch zur Bestimmung eines Hypertexts. Ein Hypertext wird oft als durch seine Nichtlinearität im Gegensatz zur Linearität gedruckter Texte bestimmt. Dies ist eine sehr oberflächliche Sichtweise und bezieht sich vor dem Hintergrund unseres Modells ausschließlich auf die ausdruckssemantische Ebene. Ein gedruckter Text, der nicht gerade ein billiger Unterhaltungsroman ist, muss nicht linear sein; Lexika sind Paradebeispiele dafür und sind, mit ihren Querverweisen und hierarchischen Strukturen usw. weder linear strukturiert, noch werden sie linear traversiert. Andererseits können Hypertexte sowohl linear strukturiert (verkettet) sein, als auch eine lineare Traversierung erzwingen. Aber die zentrale Erkenntnis ist die, dass ein Dokument mit nichtlinearer (hierarchischer oder heterarchischer) Dokumentsyntax auf eine lineare oder nichtlineare gedruckte oder hypertextuelle Ausdruckssemantik abgebildet werden kann (nicht muss).
Es werden ausschließlich eigene Arbeiten zum lexikonbezogenen Projektthema besprochen. Diese Vorarbeiten, die mit allgemeinen Entwicklungen in der Lexikontheorie eng verzahnt sind, können in drei überlappende Bereiche angesiedelt werden:
In diesen Bereichen wurden sowohl theoretische Untersuchungen als auch operationale Implementierungsvorhaben durchgeführt. Die Arbeiten zur Lexikontheorie werden aufgrund ihrer zentralen Rolle für das Projekt ausführlicher besprochen, die anderen beiden Bereiche nur kurz.
Während der vergangenen 10 Jahre wurde vor allem die Frage der Integration der Prosodie in ein theoretisches linguistisch motiviertes Lexikon untersucht. Hierbei wurde ein Model integrierter lexikalischer Information entwickelt (`ILEX'); dieses Modell liegt dem Zeichenmodell des Lexikons zugrunde (vgl. Abb. 1), und expliziert den Kern der Mikrostruktur eines lexikalischen Zeichens als eine partiell kompositionelle Struktur und zwei Interpretationsfunktionen, die die Zeichenstruktur auf die Welt abbilden. Das Funktionenpaar expliziert die semiotische Relation des `Bedeutens' bzw. des `Ausdrückens': die inhaltliche `semantische' Interpretation ordnet dem Zeichen eine Bedeutung zu; die mediale `phonetische' (aber auch visuelle, taktile usw.) Interpretation ordnet dem Zeichen eine operationale Form zu:
Zur Validierung komplexer Lexika wurde diese Metatheorie im Laufe der Zeit als operationales Modell in mehreren Programmiersprachen implementiert (Scheme, Prolog, DATR) und mehrere auf diese Weise theoretisch fundierte konkrete Lexika wurden in diesen Sprachen hergestellt.


Abbildung 3: "Aaah!" - (falling-)rising-falling intonation.
Ein Beispiel für die Modellierung partiell kompositioneller gestisch-akustischer Informationen kann anhand der Prosodie illustriert werden, hier in der Form einer unklassischen lexikalischen Modellierung einer relativ stereotypisierten, (fallend-)steigend-fallenden Intonationskontur. In Abbildung 3 (Oszillogramm und F0-Verlauf); wird eine Instanz einer solchen Kontur visualisiert (mit der Praat Phonetik-Software). Wir nehmen zunächst arbeitshypothetisch an, dass gestisch-visuelle Verläufe, die ebenfalls parallel zur lokutiven, lexiko-syntaktischen Komponente sprachlicher Äußerungen laufen, ähnliche Eigenschaften haben. Im folgenden wird auf die Abbildung linguistischer Kategorien auf prosodische Spezifikationen eingegangen, nicht aber auf die weitere Abbildung in eine numerische akustische Domäne.
Die (fallend-)steigend-fallende Kernkontur ist lexikalisiert in dem Sinne, dass sie stereotyp und partiell kompositionell ist: Sie teilt medial-interpretative (`fallend') und inhaltlich-interpretative (`finale') Merkmale einerseits mit fallenden Kerntönen, andererseits mit steigenden Kerntönen: `nicht-final' in dem Sinne, dass eine Reaktion erwartet wird. Gleichzeitig ist sie idiosynkratisch-nichtkompositionell in dem Maße, dass sie tendentiell in isolierten Kontexten vorkommen, vor allem mit einer kleinen Gruppe von Diskurspartikeln wie "Aaah!", "Mmmh!", oder mit sehr kurzen Äußerungssegmenten, und dass sie tendentiell die Bedeutung `wertend', oft positiv wertend hat.
In der folgenden Diskussion wird die DATR-Pfad-Notation (Evans & Gazdar 1996; Gibbon & Strokin 1998) verwendet, weil DATR seit ca. 10 Jahren zu den geläufigsten de-facto-Standardsprachen für die lexikographische Prototypentwicklung gehört (in der theoretischen Lexikologie sind Unifikationsformalismen gebräuchlicher). In DATR-Pfad-Notation erbt der lexikalische Knoten
Rise_Fall:
<> == Complex_Prosody
<semantics> ==
'appraisive'
<phonetics> == broad_bandwidth
<constituent specifier> == "Rise:<>"
<constituent head> == "Fall:<>".
seine Eigenschaften vom mesostrukturellen Knoten `Complex_Prosody', die Eigenschaften seiner Kopfkonstituenten vom makrostrukturellen Knoten `Fall', die Eigenschaften seines Spezifizierers vom makrostrukturellen Knoten `Rise', und hat eine idiosynkratische, nicht geerbte Mikrostruktur mit wertender Semantik und großer phonetischer Modulationsbandbreite. Die lexikalischen Knoten
Rise:
<> == Complex_Prosody
<semantics> ==
'suspense'
<phonetics> == plagal
<constituent
specifier> == "Low:<>"
<constituent
head> == "High:<>".
Und
Fall:
<> == Complex_Prosody
<semantics> ==
'certainty'
<phonetics> == perfect
<constituent
specifier> == "High:<>"
<constituent
head> == "Low:<>".
sind ebenfalls partiell kompositionell und erben ihrerseits von High und Low (in unterschiedlichen Reihenfolgen).
High:
<> == Prosody
<category> == tonal_terminal
<semantics> == 'go'
<phonetics> == high.
Low:
<> == Prosody
<semantics> == 'stop'
<phonetics> == low.
Die Semantik-Angaben sind hier lediglich als Chiffren für eine auszuspezifizierende inhaltliche Interpretation angegeben. Der mesostrukturelle Knoten Complex_Prosody definiert die allgemeinen kombinatorischen Eigenschaften der Prosodie als Funktion dieser Eigenschaften seines Kopfes und seines Spezifizierers:
Complex_Prosody:
<> == Prosody
<category> == complex_tone
<interpretation> == ( "<constituent specifier
interpretation>"
'&' "<constituent head
interpretation>" ) .
während der allgemeinste Knoten Prosody den Begriff `Kopf' definiert:
Prosody:
<> == simple_tone
<interpretation> == "<>"
<category> == "<constituent head category>".

Abbildung 4: Makrostruktur (gepunktete Linien) und Mesostruktur (gestrichelte Linien) eines Prosodie-Lexikonauszugs.
Mit den für DATR definierten Inferenzregeln lassen sich Theoreme folgender Art berechnen:
Rise_Fall:<
semantics> = appraisive .
Rise_Fall:< phonetics>
= broad_bandwidth .
Rise_Fall:< category> =
complex_tone .
Rise_Fall:< interpretation semantics > = ( (
stop & go) & ( go & stop ) ) .
Rise_Fall:<
interpretation phonetics > = ( ( low & high ) & ( high &
low ) ) .
Mit diesem und verwandten Modellen sind weitere Bereiche der Prosodie (Bleiching, Drexel & Gibbon 1996 und dortige weitere Verweise) und anderer multimodaler Kanäle (Carson-Berndsen 1999) modelliert worden.
Dieses Beispiel ist zu Illustrationszwecken vereinfacht worden, zeigt aber das Prinzip der partiell-kompositionellen lexikalischen Repräsentation und integrierter Berechnung komplexer simultaner prosodischer Strukturen analog zur Behandlung simultaner Eigenschaften auf verschiedenen hierarchischen Ebenen in heutigen Attribut-Wert-basierten Lexikontheorien. Die kombinatorische Erweiterung auf die Kombination lexikosyntaktischer, prosodischer und multimodaler Information in abstrakteren, größeren Einheiten erfolgt durch die Spezifikation von koexistenten Attributpfad-Wert-Vererbungssystemen mit denselben Mechanismen. DATR wird auf jeden Fall für die ersten Prototyperstellungsarbeiten anhand der vorliegenden effizienten Implementierung Zdatr verwendet; inwiefern DATR beibehalten wird, hängt von Absprachen mit den Partnerprojekten ab.
Dieser Forschungsbereich ist eher indirekt mit den Vorbereitungen zum Projekt verbunden, kann also kürzer behandelt werden. Im Bereich der Computerlexikographie wurde derselbe Lexikonansatz computerlexikographisch eingesetzt, um aus der Mesostruktur eines morphologisch strukturierten Lexikons lemmatisierter Formen vollständige Flexionsparadigmen für die Spracherkennung des Deutschen abzuleiten (Bleiching, Drexel & Gibbon 1996). Das im Projekt verwendete Dreikomponentenmodell wurde erstmalig im EU-finanzierten EAGLES-Projekt verwendet: Es wurden texttechnologische Mittel eingesetzt, um aus einer `neutralen' Datenbank verschiedene Lexikonformate zu erzeugen (Gibbon & Trippel 2000):
Diese Arbeiten wurden im Kontext einer Systematisierung von Corpus-, Lexikon- und Evaluationsressourcen für sprachtechnologische Systeme im Auftrag der Europäischen Kommission durchgeführt und als zwei Handbücher veröffentlicht (Gibbon, Moore & Winski 1997; Gibbon, Mertins & Moore 2000).
Dieser Forschungsbereich ist ebenfalls eher indirekt mit den Vorbereitungen zum Projekt verbunden und kann also auch knapper behandelt werden. Erste Operationalisierungsschritte zur praktischen operationalen Umsetzung der Ergebnisse wurden bereits in mehreren Anwendungskontexten unternommen: