Theorie und Design multimodaler Lexika (B3)

Arbeitsprogramm

Das Arbeitsprogramm ist durch die bereits beschriebene Spezifikation der Ziele und Teilziele bestimmt; die Organisation der Arbeitspakete differiert aus Gründen der Arbeitsökonomie.

Beschreibung der Arbeitspakete

Arbeitspaket 1: Korpusentwurf-, erstellung und -analyse (Mitarbeiter A)

Im AP1 wird in Zusammenarbeit mit allen anderen Projekten ein gemeinsames Corpus aufgebaut, in dem (a) eine texttypologisch kohärente Bestimmung der schriftlichen und mündlichen empirischen Datentypen vorgenommen und die Szenarien spezifiziert werden; (b) die so bestimmten Daten erfasst bzw. Aufgenommen werden; (c) die Daten - je nach Typ - transkribiert, validiert, mit dem Sprachsignal aligniert und mit Mehrschicht-Annotationsgraphen versehen werden.

1. Spezifikation des zu verwendenden matching-game-Szenarios. Die konstitutiven Faktoren eines matching-game-Scenarios sind: mind. 3 Personen (Versuchsleitung, Instruktor, Konstruktor); zwei gleiche Mengen von Objektteilen für Konstruktions- und Instruktionsobjekt; Konstruktionsobjekt (Anfangszustand: Menge von Teilen, Endzustand: Objekt, das idealiter dem Instruktionsobjekt isomorph ist); Instruktionsobjekt (nach Elizitationskriterien aus Teilen konstruiert); Umgebung, in dem die Gesichtsfelder von Instruktor und Konstruktor nicht überlappen; Instruktion; akustischer Kommunikationskanal; Stereo-Aufnahmevorrichtung mit DAT-Rekorder; Videodokumentation. Zur Spezifikation gehört auch die Angabe von Erwartungen über elizitierbare linguistische Vorgänge und Strukturen (räumliche und zeitliche Relationen, ad-hoc-Wortbildungen, Fokusmuster, Sprechaktsequenzen, begleitende Gesten des Instruktors (bis hin zu Manipulationen am vorgegebenen Instruktionsobjekt) sowie des Konstruktors, einschließlich backtracking, emotive Äußerungen bei sehr problematischen Teilaufgaben. Diese Aufgabe wird vor allem mit dem Projekt A2 abgestimmt; die Objektteilmengen und die Objekte werden aufgrund der unterschiedlichen Aufgabenstellungen nicht notwendigerweise in beiden Projekten gleich sein, aber die Aufgaben sollen soweit parametrisiert werden, dass eine gemeinsame XML-Beschreibung des Szenarios möglich ist.

2. Spezifikation von Kriterien für multimodale Normaltranskriptionen und Signaletikettierungen. Die Transkriptionen werden von vornherein als Bird-Liberman-Graphen (Mehrebenen-Annotationsverbände) mit orthographischen, phonemischen oder phonetischen, prosodischen und visuellen Kantenbeschriftungen konzipiert und mit geeigneter Transkriptionssoftware (voraussichtlich die Praat-Software der Universität Amsterdam) getestet. Diese Kriterien werden mit der an der University of Pennsylvania, Linguistic Data Consortum angesiedelten Linguistic Exploration Initiative von Steven Bird abgestimmt, an der die Antragsteller beteiligt sind. Insbesondere in diesen Arbeiten wird eng mit dem Projekt A3 zusammengearbeitet.

3. Testaufnahme von jeweils ca. 1 Stunde Dialoge mit Bildmaterial pro Sprache, Auswahl einer kleineren, sehr detailliert zu transkribierenden und analysierenden Teilmenge von ca. 30 Minuten für 2 Sprachen. Die Aufnahmeverfahren sind in Gibbon, Moore & Winski (1997), Kap. 4 "SL corpus collection" (SL = Spoken Language) detailliert beschrieben. Der Umfang der Aufnahmen wird bewusst relativ klein gehalten, einerseits, weil das Mehrebenen-Annotationsverfahren recht zeitaufwendig ist, andererseits, weil weitere vorhandene Corpora berücksichtigt werden sollen, die eine Erweiterung des Lexikonkonzepts unterstützen sollen.

4. Transkription und Mehrebenen-Signalannotation der Aufnahmen (Erfahrungswert für den Echtzeitfaktor für diesen Transkriptionstyp ca. 1:400, also für 2 x 0.5 Stunden nahezu 3 Personenmonate). Die Anzahl der zu etikettierenden Ebenen wird erst im Projekt mit den Partnern erarbeitet, soll aber mindestens folgende umfassen: Orthographie, Töne bzw. Akzente je nach Sprache, rhythmische Gruppen, Globalkonturen (z.B. bei lexikalisierten Mehrwortsequenzen, pragmatischen Idiomen). Erfahrungswerte für den Echtzeitfaktor sind aus der Sprachtechnologie bekannt (Gibbon, Moore & Winski (1997), Kap 5 "SL corpus representation". Die Signalannotation wird mit der Praat-Software durchgeführt und mit einem XML-gesteuerten Editor weiterverarbeitet. Bei diesen Arbeiten werden die Antragsteller, insbesondere Gut, besonders intensiv mit den Projektmitarbeiten zusammenarbeiten.

5. Modifikation eines existierenden Konkordanzwerkzeugs zwecks Ableitung von Audiokonkordanzen aus den etikettierten Sprachsignaldateien. Ein vorhandener Konkordanzgenerator für ASCII-basierte Textdatenbanken wird modifiziert, um XML-markierte Audiodateienamen zu erfassen und eine Wiedergabemöglichkeit zur Unterstutzung der lexikographischen Arbeiten bereitzustellen. Das Konkordanzwerkzeug soll die Feinetikettierung in XML unterstützen, bei der die interne segmentale und prosodische Struktur lexikalischer Einheiten, sowie andere mikrostrukturelle Eigenschaften erfasst werden sollen.

6. Manuelle Entwicklung erster informeller makro- und mikrostruktureller Modelle, Entwurf von Mesostrukturen. Auf der Basis der Corpuswortlisten, die mit dem Konkordanzgenerator erstellt werden, wird zunächst eine einfache relationale lexikalische Datenbank aufgebaut, in der die lexikalischen Einträge erfasst sind. Die makrostrukturellen Relationen (etwa zwischen Lexikoneinträgen und ihren Bestandteilen auf anderen maktrostrukturellen Ebenen) wie auch die mikrostrukturellen Eigenschaften wie die Orthographie, die phonemische Repräsentation (bzw. die Repräsentation von Visemen usw.), die prosodische Struktur, die morphologische Struktur, sowie syntaktische und relevante semantische Eigenschaften sollen alle zunächst nach den linguistischen Kriterien gestisch orientierter Phonologien, Prosodien und Modellen visueller Kommunikation lexikographisch bearbeitet werden. Bei der Entwicklung einer Mesostruktur wird vor allem auf den Arbeiten der Antragsteller (insbesondere Gibbon) zu hierarchisch strukturierten Vererbungslexika aufgebaut; in diesem Bereich werden die Antragsteller selbst besonders aktiv sein, um das Projektpersonal einzuweisen.

Arbeitspaket 2: Formale Spezifikation von Makro-, Mikro-, Mesostrukturen (Mitarbeiter B)

In AP2 wird parallel zur Entwicklung linguistischer Corpusmetadaten in AP1 insbesondere in Kooperation mit Projekt C2 eine den Inhalten der lexikalischen Datenbank angemessene Formalisierung erarbeitet. Es werden nicht von Anfang an die formalen Methoden des Projekts C2 übernommen werden können sondern es werden auf default-logischer Basis nach den Methoden u.a. von Gazdar, Thomason, Gibbon Constraints für die Lexikondefinition formalisiert.

1. Formale Spezifikation von kompositionellen Strukturen für Makrostrukturen. Die Makrostrukturen werden anhand von Konstruktor-Operatoren über Mengen von Lexikoneinträge verschiedener Größe definiert; der Kern der Kompositionalität lexikalischer Einheiten wird hierdurch spezifiziert.

2. Formale Spezifikation von Attribut-Wert-Matrizen für multimodale Mikrostrukturen. Die Mikrostrukturen werden anhand von Attribut-Wert-Strukturen, wie sie in weitgehend formalisierten Linguistiktheorien wie LFG und HPSG eingesetzt werden, definiert, wobei im Unterschied zu diesen Theorien und in Anlehnung an die Tradition der morphologischen und phonologischen Markiertheits- und Präferenztheorien (von der Prager Schule der 30er Jahre des 20. Jh. über die generative Phonologie und die Natürliche Phonologie bis zur Optimalitätstheorie) auch Default-Ordnungen über Wertemengen zugelassen werden.

3. Formale Spezifikation von Implikationsstrukturen für Mesostrukturen. Die Implikationsstrukturen werden nicht als einzelne "Redundanzregeln" oder "Generalisierungsregeln" wie in traditionellen linguistischen Theorien erfasst sondern in verbundenen Graphen, deren Kanten als Implikationsregeln interpretiert werden und deren Knoten mit Attribut-Wert-Strukturen assoziert werden.

4. Operationales Testen der formalen Spezifikationen mit einem geeigneten operationalen constraint-Formalismus. Aus den radikal (also unter Einbeziehung von Defaults) unterspezifizierten Lexikoneinträgen werden voll spezifizierte Einträge mit einer Default-Inferenzkomponente abgeleitet. Zu Entwicklungs- und Testzwecken wird der bereits vorhandene Zdatr-Compiler für DATR-Theorien verwendet und unter Umständen modifiziert.

Arbeitspaket 3: Entwicklung von XML-DTDs für Lexikon-Metadaten und Lexikonstrukturen (Mitarbeiter A)

Zur Zeit werden Spezifikationen für Lexika von einem der Antragsteller (Gibbon) vorbereitet, die im Dezember 2000 auf einem Workshop in Philadelphia USA mit den anderen Mitgliedern der Linguistic Exploration Initiative erörtert und abgestimmt werden sollen. Auf dieser Grundlage sollen mit den im Projekt zur Verfügung stehenden XML-Werkzeugen die DTDs im Detail entwickelt und getestet werden.

1. Entwickeln und Testen des XML-DTD für Metadaten. Zunächst werden die lexikalischen Metadaten (die nicht Teil der Arbeiten des AP2 sind) systematisch definiert und mit allen anderen Projekten abgeglichen. Hierfür werden in enger Abstimmung vor allem mit den Projekten A2 und C1 die XML-Spezifikationen definiert.

2. Entwickeln und Testen des XML-DTD für Mikrostrukturen, Makrostrukturen und Mesostrukturen. Als erster Schritt bei der Entwicklung einer Modellierungsrelation zwischen wird eine relativ direkte und intuitiv geleitete `Implementierung' der formalen Lexikonstrukturen als XML-DTD entwickelt, die als Spezifikation für die formale Definition der Relation zwischen den formalen linguistischen Strukturen und den XML-Strukturen dienen soll.

3. Definition der Abbildungen von den operationalisierten formalen Spezifikationen auf die XML-DTDs. Ausgehend von den in AP2 definierten formalen Strukturen und den in AP3.2 definierten XML-Strukturen wird eine differenziertere und generalisierende Abbildung definiert, die als Grundlage für einen Compiler dienen soll.

4. Spezifikation eines Hyperlexikons auf der Basis der XML-DTDs. In diesem Teil des AP3 werden die DTS in Zusammenarbeit mit dem Projekt C1 unifiziert; sie werden auf konkrete Teillexika angewendet und mit Definitionen verschiedenen experimentellen Zugriffsprozeduren versehen und in Zusammenarbeit mit AP4 getestet.

Arbeitspaket 4: Implementierung eines Forschungsprototyps (Mitarbeiter B)

1. Spezifikation und Implementierung einer gemeinsamen Arbeitsumgebung für die vorgesehenen Werkzeuge und Schnittstellenrealisierung für eigene und fremde Software (z.B. MultiKWIC, Transcriber, Praat). Da die vorhandenen corpusverarbeitenden Werkzeuge in erster Linie als Protypen in Perl geschrieben wurden, wird zunächst eine erste Arbeitsoberfläche in Perl/Tk implementiert, um die lexikographische arbeit zu erleichtern. Vergleichbare Werkzeuge zu diesem Zweck gibt es noch nicht, obwohl sie in längerfristigeren Projekten z.B. vom SIL und vom MPI in Nijmegen entwickelt werden; die Antragsteller stehen in engen Kontakt mit diesen Entwicklern (Larry Hayashi, SIL und Peter Wittenburg, MPI Nijmegen).

2. Implementierung der Mikro-, Meso- und Makrostrukturspezifikationen in einem operationalen Formalismus. In enger Zusammenarbeit mit AP2 wird ein umfangreiches Testlexikon in DATR aufgebaut und mit der Hilfe von Generalisierungsoperationen über die in AP1 entwickelte Datenbank optimiert.

3. Implementierung der Abbildungen vom operationalen Lexikonformalismus auf XML. Die in AP3 entwickelten Spezifikationen werden als Grundlage für einen Compiler von der formalen, linguistisch motivierten Formalismus auf XML genutzt, sowohl auf DTD-Ebene als auch auf der Ebene der annotieren Texte.

4. Implementierung eines Hyperlexikons auf XML- und DSSSL- oder XSL-Basis. In diesem Arbeitspaket geht es entweder um die Weiterentwicklung der Perl/Tk-GUI aus AP4.1 oder um die Übernahme und Nutzung von Java-basierten GUI-Konzepten aus den Projekten A3 und A1, um einen auch für andere Projekte leicht nutzbare lexikographische Umgebung zu gestalten.

Bezüge zum Arbeitsprogramm anderer Projekte innerhalb der Forschergruppe

Die Bezüge zu den anderen Projekten sind in einer Übersicht in Tabelle 1 skizziert.


Projekt

AP1: Corpus

AP2: Formalismus

AP3: XML

AP4: Implementierung

A1

Spezifikation & Durch-führung der Annotation visueller Elemente.

Entwicklung empirisch adäquater A-W-Strukturen

Entwicklung von XML-Spezifikationen für multimodale Lexika.

Entwicklung eines gemeinsam genutzten multimodalen Lexikons.

A2

Generische Spezifikation des matching-game-Szenarios & der gemeinsamen Aufnahmeverfahren.

Verwendung gemeinsamer computerlinguistischer Grundlagen für die Modellierung des matching-game-Szenarios.


Integration vorhandener computer-lexikographischer Tools mit Arbeiten zur XML-Verarbeitung.

A3

Generische Spezifikation und Einsatz von Annotationsverbänden

Treebank-Spezifikationen für dialogische Transkriptionen.



B1


Abstimmung zwischen Grammatikformalisierung und Lexikonformalisierung

Verwendung gegenseitig kompatibler Markup-Konventionen


B2



Entwicklung einer Typologie von XML-DTDs für unterschiedliche empirische Datentypen


C1

XML-Treebank-Spezifikationen

Nutzung computer-linguistischer Modelle als formale Grundlage für die Entwicklung von XML-DTDs.

Spezifikation von XML-DTDs in Relation zu Baumgrammatiken und A-W-Strukturen

Abstimmung eines gemeinsamen Entwicklungsmodells für Lexika u. für Dokumente im allgemeinen.

C2


Entwicklung einer gemeinsamen Basis für die Vergleichbarkeit der verwendeten Formalismen

Abstimmung der Abbildung der Formalismen auf XML-Strukturen



Kooperationen mit externen Forschern

Im Rahmen der unter eigenen Vorarbeiten skizzierten Arbeiten bestehen vielfältige internationale Kontakte und Kooperationen in den Bereichen sprachtypologische Dokumentation, Phonetik, Computerlinguistik, und Sprachtechnologie, die für die Bereiche Lexikon und Dokumentauszeichnung, die im Projekt untersucht werden sollen, fruchtbar weiter genutzt werden sollen. Die Kernkooperationen für das Projekt sind mit folgenden Wissenschaftlern, mit denen langjährige Kooperationen bestehen:

Für Mitte 2001 ist ein Workshop in Bielefeld geplant, für den die Professoren Leben, Hyman, Liberman ihre Teilnahme bereits zugesagt haben.

Zeitplan

Der Zeitplan geht von 2 x 3 Personenjahren aus, jeweils für einen Linguisten und einen auf Lexikographie gesprochener Sprache spezialisierten Computerlinguisten. Die Aufgaben für den Linguisten sind nicht-kursiv, die Aufgaben für den Computerlinguisten kursiv dargestellt. Die Aufteilung der Aufgaben in einem Sechsmonatsabschnitt summiert sich auf 6 Personenmonate für die jeweilige Person, es muss aber nicht jede die vollen sechs Monate ausfüllen.

Zeitraum:

M1-M6

M7-M12

M13-M18

M19-M24

M25-M30

M31-M36

AP1: Corpus







  1. Szenario







  1. Transkriptionsspez.







  1. Testaufnahmen







  1. Transkription







  1. Konkordanz







  1. Strukturen







AP2: Formale Spezifikation







  1. A-W-Matrizen







  1. Implikationsstrukturen







  1. Komposition







  1. Evaluation







AP3: XML-DTDs







  1. Koordination







  1. Metadaten







  1. Ma-, Me-, Mi-Str.







  1. Abbildungen







  1. Hyperlexikon







AP4: Forschungsprototyp







  1. Arbeitsumgebung







  1. Strukturen







  1. Abbildungen







  1. Hyperlexikon







Anmerkung

:

Die Balken repräsentieren die Verteilung und die zeitlichen Abhängigkeiten der einzelnen Pakete, nicht die Personenmonate.

Monat 12 (Meilenstein): Systematisch transkribiertes Corpus mit Signalannotationen und erste Version des XML-Markup; Arbeitsumgebung mit Konkordanz und Integration bestehender Transkriptions- und Annotationssoftware; erstes Lexikonmodell.

Monat 24 (Meilenstein): Vollständig systematisch transkribiertes Corpus mit Signalannotationen und evaluierte Version des XML-Markup; Makro-, Mikro- und erste Mesostrukturen der Lexika.

Monat 36 (Ergebnis): Formales Modell des Lexikons mit generischen Abbildungen auf XML-Lexikon-Markup und Prototypanwendungen für Englisch und Anyi.