next up previous contents
Next: Appendix B: VERBMOBIL Up: No Title Previous: References

Appendix A: VERBMOBIL Lexical Word List V1.1 (May 1994) Header

%% Filename:    ubi.wortliste.demo.v1.1
%% Authors:     Doris Bleiching, Dafydd Gibbon, Daniela Steinbrecher
%%              U Bielefeld LiLi.
%% Date:        31 May 1994
%% Enquiries:   gibbon@asl.uni-bielefeld.de
%% Status:      Definitive wordlist for VERBMOBIL Demonstrator
%%              Revision of V1.0 (2 May 1994)
%% Description: Table of fully inflected orthographic forms with
%%              canonical phonemic, word prosodic and morphological
%%              information.
%%              Number of orthographic keywords:  1284
%% History:     Previous test versions distributed from January 1994
%%              on SB ftp server
%%              Criterion list distributed February 1994
%%              Criteria and contents negotiated at Bielefeld Lexicon
%%              Workshop 7.-9.3.94
%%              Previous version on server ftp@dfki.uni-sb.de
%%              since 2 May 1994.
%% 
%% Contents:    (1) Editing instructions for TP5 wordlist file
%%              (2) Handbuch zur Demonstrator-Wortliste V1.1
%%              (3) Demonstrator-Wortliste V1.1
%% 
%% --------------------------------------------------------------------
%% 
%% Editing instructions for TP5 wordlist file
%% 
%% Dafydd Gibbon, 30 May 1994
%% 
%% (1) Extract WL.README.V1.1 from this file with UNIX command:
%%  grep "%% " ubi.wortliste.demo.v1.1 | sed -e "s/%% //g" > WL.README.V1.1
%% (Note that the expressions "%% " and /%% / each contain one blank. The
%% blank between quotes is optional, the other obligatory.)
%% 
%% (2) Extract WL.DEMO.V1.1 from this file with UNIX command:
%%  grep -v "%% " ubi.wortliste.demo.v1.1 > WL.DEMO.V1.1
%% 
%% (3) Check correct orthographic word count (= 1284) with the following
%% UNIX commands:
%%  wc -l WL.DEMO.V1.1
%%  grep -v "%% " ubi.wortliste.demo.v1.1 | wc -l
%% 
%% 
%% ---------------------------------------------------------------
%% 
%% Handbuch zur Demonstrator-Wortliste V1.1
%% 
%% Doris Bleiching & Dafydd Gibbon
%% 
%% U Bielefeld, 31. Mai 1994
%% 
%% 
%% Vorbemerkung
%% 
%% Die in dieser Arbeit vorgelegten Lexikon-Standards f"ur Wortformen-
%% Interchange zwischen den VERBMOBIL-Projekten bei der
%% VERBMOBIL-Demonstrator-Entwicklung konnten nur durch intensive
%% Konsultation mit allen VERBMOBIL-Teilprojekten definiert werden.
%% Sicher stellt das Ergebnis notwendigerweise einen Kompromi"s
%% zwischen den sehr heterogenen Bed"urfnissen der Spracherkennung, der
%% Sprachsynthese und der Linguistik in VERBMOBIL dar. Der Kompromi"s
%% kann per Definitionem nicht f"ur alle Projekte in jedem Detail die
%% Maximalforderungen erf"ullen; wir hoffen jedoch, dass die nun
%% vorliegende L"osung eine gute, vielseitige und zukunftssichere ist.
%% Unser Dank gilt deshalb allen Partnern, die ihre Anforderungen und
%% Anregungen mit uns diskutiert haben, insbesondere den Teilnehmern
%% am Bielefelder Lexikon-Workshop (7.-9. M"arz 1994).
%% 
%% In der Diskussion wurden die unterschiedlichen Anforderungen
%% an Lexikon- und Corpus-Repr"asentationen diskutiert. Die lexiko-
%% graphischen Anforderungen werden unten im einzelnen erl"autert.
%% Um die Kompatibilit"at der f"ur die Spracherkennung wesentlichen
%% Aspekte des TP5-Lexikonformats und des neuen TP14-CDROM-Formats
%% zu gew"ahrleisten, werden genaue "Ubersetzungsvorschriften definiert
%% und als Satz von UNIX-Befehlen angegeben.
%% 
%% Durch diese einfache Ma"snahme wird die Forderung nach Kompatibilität
%% zwischen dem integrierten TP5-Wortformen-Interchange-Format und der
%% TP14-Notation voll erf"ullt. Allerdings konnten aus Gr"unden der
%% Konsistenz des Lexikons die nicht-phonematischen Aspekte der
%% TP14-Notation nicht "ubernommen werden (lexikalisch-morphologische
%% Akzentkriterien, partielles morphologisches Tagging), da hier
%% die Zust"andigkeit bei TP5 (in Absprache mit TP15.6) liegt.
%% 
%% F"ur Lexikon-Ausschnitte, die "uber den Demonstrator hinaus
%% gehen, sind Erweiterungen des hier verwendeten Wortformen-
%% Interchange-Formats vorgesehen, die weitere neuere Entwicklungen
%% vor allem im Bereich der Spracherkennung ber"ucksichtigen sollen.
%% Diese werden hier jedoch noch nicht thematisiert.
%% 
%% 
%% 1. Zielsetzung der Demonstrator-Wortliste
%% 
%% Wichtigste Ziele der TP5-Demonstrator-Wortliste sind:
%% (1) die Definition der Abdeckung (coverage) f"ur den VERBMOBIL-
%%     Demonstrator im Bereich der Wortformen (und damit einer Teilmenge
%%     der Informationen im VERBMOBIL-Hauptlexikon)
%% (2) die Definition von verschiedenen Informationstypen, die heute
%%     f"ur Spracherkennungskonzepte erforderlich sind bzw. in absehbarer
%%     Zeit sein werden. Hierzu war es erforderlich,
%% (3) ein kompaktes informationsreiches Schnittstellenformat f"ur den
%%     Zweck des Wortformen-Interchange zu definieren.
%% 
%% Diese Ziele und die Ergebnisse wurden mit den VERBMOBIL-Partnern in
%% mehreren Iterationen abgestimmt. Insbesondere enth"alt die Wortliste
%% ausschlie"slich Informationen, die von den Partnern im Bereich der
%% Spracherkennung angefordert wurden, und gleichzeitig die Anforderungen
%% der Linguistik im Hinblick auf Wortauswahl erf"ullen.
%% 
%% 
%% 2. Lexikon-Abdeckung und Wortauswahl
%% 
%% Die mit den VERBMOBIL-Partnern festgelegten Kriterien f"ur die Wortwahl
%% definieren die Wortliste als die Vereinigungsmenge folgender Wortmengen:
%% (1) Die W"orter aus dem Saarbr"ucker Referenzdialog
%% (2) Die W"orter aus den 10 'Blaubeuren'-Dialogen
%% (3) Erg"anzung um Funktionsw"orter
%% (4) Erg"anzung der szenariorelevanten geschlossenen lexikalischen
%%     Mengen (Wochentage usw.)
%% Eine Beschr"ankung auf 1200 bis 1300 Eintr"age wurde in Absprache mit
%% den Partnern in der Spracherkennung vereinbart.
%% Andere urspr"unglich von verschiedenen Partnern vorgeschlagene
%% Kriterien (100 h"aufigste W"orter des Deutschen, n h"aufigste
%% W"orter aus dem TP14-CD-ROM) konnten wegen der Gr"o"senbeschr"ankung
%% nur indirekt ber"ucksichtigt werden, indem gr"o"sere "Uberlappungen
%% nachtr"aglich festgestellt werden konnten.
%% 
%% 
%% 3. Abgrenzung der Demonstrator-Wortliste
%% 
%% Aus der Zielsetzung ergibt sich, da"s die Demonstrator-Wortliste
%% eine Teilmenge des VERBMOBIL-Hauptlexikons darstellt und nicht mit
%% folgenden spezielleren Wortlistentypen verwechselt werden sollte:
%% (1) Wortlisten mit kanonischer Aussprache f"ur die Synthese, in denen
%%     z.B. lexikalische Varianten nicht definiert werden m"ussen
%% (2) Corpusbasierte Wortvollformenlisten f"ur die Definition von
%%     Wortmodellen in der Spracherkennung, in denen lexikalische
%%     Varianten verschiedener Art sowie Worth"aufigkeiten enthalten sind
%% (3) Wortlisten mit phonetischen Aussprachevarianten als Grundlage
%%     f"ur Ausspracheregeln bzw. f"ur die Definition weiterer Wortmodelle
%% Durch die Fokussierung auf lexikalische Vollformen unterscheidet sich
%% diese Liste von anderen Teilmengen des VERBOBIL-Hauptlexikons wie z.B.
%% wortsemantisches Lexikon, Transferlexikon, Idiomlexikon, usw.
%% 
%% 
%% 4. Lexikographisches Konzept f"ur die Demonstrator-Wortliste
%% 
%% Das TP5-Hauptlexikon basiert auf einem deklarativen Lexikonkonzept,
%% das im Hinblick auf Erkennung und Synthese neutral ist. Die
%% Demonstrator-Wortliste widerspiegelt dieses Konzept weitgehend,
%% ber"ucksichtigt aber st"arker die Bed"urfnisse der Erkennung und
%% orientiert sich pragmatisch an den Bed"urfnissen der Partner:
%% (1) Zweispaltige Organisation mit Orthographie und Aussprache
%%     Repr"asentationen
%% (2) Orthographie: Beibehaltung der Gro"sschreibung bei Substantiven;
%%     Kennzeichnung von Eszet und umgelauteten Vokalen mit "s, "a,
%%     usw.; optionaler Separator f"ur Komposita; Separator f"ur W"orter
%%     in phrasalen Ausdr"ucken
%% (3) Aussprache - von verschiedenen Partnern gew"unschte Informationen:
%%     - kanonisch-phonematische Transkription (TP14-Kompatibilit"at)
%%     - silbenphonologische Separatoren
%%     - Separatoren zwischen Morphen (Wurzeln und Affixen)
%%     - Separatoren zwischen W"ortern in Komposita
%%     - Separatoren zwischen W"ortern in Phrasen
%%     - morphologisch abgeleitete Prim"ar- und Sekund"arakzente
%%     - heterophone Homographen, die verschiedene W"orter
%%       darstellen, einschlie"slich Betonungsvarianten
%%     - lexikalische freie Varianten (aber nicht Varianten,
%%       die durch Ausspracheregeln automatisch ableitbar sind),
%%       einschlie"slich freie Betonungsvarianten
%% (4) Verarbeitbarkeit der Wortliste mit UNIX-Werkzeugen, die
%%     regul"are Ausdr"ucke verwenden. Die 'stream editor'- und
%%     'get regular expression pattern'-Werkzeuge unter UNIX sind
%%     vermutlich allgemein bekannt. Zum Zweck der einfacheren Bearbeitung
%%     werden trotzdem Einzelbeispiele f"ur verschiedene Konversionen
%%     angegeben. Beispielsweise kann dieser Text extrahiert bzw.
%%     entfernt werden mit:
%%           grep "%%" thisfile > headfile
%%           grep -v "%%" thisfile > bodyfile
%%     Die Beispiele k"onnen zwecks Erstellung eines Skripts
%%     aus dieser Datei herausgetrennt werden z.B. mit:
%%           egrep '(sed -e|grep)' thisfile > editfile
%%     Die Kommentarzeilen-Pr"afixe werden bei Bedarf entfernt mit:
%%           sed -e "s/%% //g" < editfile > textfile
%%     Dieses Kriterium zur Verarbeitung der Wortliste erlaubt die
%%     Definition von folgenden weiteren lexikographischen Funktionen.
%% (5) Emulation von einfachen Datenbankfunktionen mit allgemeinen
%%     UNIX-Werkzeugen, die regul"are Ausdr"ucke verarbeiten.
%%     Dadurch k"onnen alle VERBMOBIL-Partner entsprechend ihren
%%     besonderen Bed"urfnissen ihre eigene Auswahl aus den
%%     gelieferten Informationen treffen. Entsprechend dieser Idee wurde
%%     das Wortformen-Interchange-Format sorgf"altig so spezifiziert,
%%     da"s Teillexika mit verschiedenen Constraint-Kombinationen durch
%%     einfache regul"are Ausdr"ucke definiert werden k"onnen, z.B.:
%%          - Menge der nichtbetonten Einsilbler
%%          - Menge der Komposita
%%          - Menge der mehrsilbigen nichtflektierten Simplizia
%%     Beispielsweise kann 'die Menge der morphologisch einfachen
%%     nichtbetonten Einsilbler mit kurzen Vokalen' definiert
%%     werden durch:
%%            grep -v "[.'+#:]" bodyfile > tinyfile
%%  (6) Eindeutige "Ubersetzbarkeit der ASCII-Kodierung in andere
%%     gebr"auchliche Kodierungskonventionen (TP14, lokale
%%     optimierte Notationen) durch Definition von regul"aren
%%     Ausdr"ucken f"ur UNIX-Werkzeuge. Der UNIX-Shell-Code zu
%%     diesem Zweck ist in Abschnitt 7 (unten) enthalten. Dieser
%%     Code l"ost das mit V1.0 gelieferte C-Werkzeug wlfilter ab.
%% 
%% 
%% 5. Zeichendefinition f"ur das Wortformen-Interchange-Format
%% 
%% (1) Orthographie:
%% Gro"sbuchstaben: Initialbuchstaben von Substantiven
%% "      Deutsche Buchstaben "s, "a, "o, "u, "A, "O, "U
%% $      Initialmarkierer f"ur Buchstabennamen $A, ... $Z
%% _      Unterstrich als Wortseparator in phrasalen Ausdr"ucken
%% -      Bindestrich als Wortseparator-Option
%% 
%% (2) Spaltenseparator:
%% 5 Leerstellen (ASCII 32 32 32 32 32) Dieser Separator gilt auch
%%       f"ur die Aussprachevarianten (kann also formal als
%%       'Header' fuer einzelne Ausspracheformen behandelt werden).
%%       Er kann durch einen anderen Separator (z.B. Leerstelle
%%       Sternchen Leerstelle) ersetzt werden mit z.B.
%%           sed -e "s/     / * /g"  < blankfile > starfile
%%       Bei Bedarf kann das erste Vorkommen eines Separators in
%%       einer Zeile identifiziert werden; vgl. folgende teilweise
%%       R"uckwandlung:
%%           sed -e "s/ * /     /1" < starfile > ulmfile
%% 
%% (3) Kanonisch-phonematische Transkription:
%% Die TP14-SAMPA-Version wurde "ubernommen mit zwei Kodierungen, die
%% durch die lexikographischen Kriterien bedingt sind:
%% ?     Kodierung von 'Q' (Glottalverschlu"s) zwecks einfacher
%%       Verarbeitung mit UNIX regul"aren Ausdr"ucken; das Zeichen Q
%%       ist in dieser Bedeutung f"ur einfache regul"are Ausdr"ucke
%%       nicht eindeutig, w"ahrend das Zeichen ? im Lexikon sonst
%%       nicht vorkommt. Hier unterscheiden sich die Kriterien
%%       f"ur das Lexikon-Interchange-Format und die Corpus-
%%       Beschreibungsnotation. Die Rekonstitution der TP14-
%%       Notation ist aber durch einfache Ersetzung gew"ahrleistet,
%%       z.B. mit:
%%           sed -e "s/?/Q/g" < thisfile > Qfile
%% (4) Wortprosodische Transkription:
%% '     morphologisch abgeleitete Prim"arbetonung
%% ''    morphologisch abgeleitete Sekund"arbetonung
%%       Diese Kodierung ist durch die lexikographischen Kriterien
%%       bedingt und soll die Verwechslung mit TEX-Konventionen bei
%%       der Verarbeitung mit einfachen regul"aren Ausdr"ucken
%%       vermeiden. Sie wurde mit den f"ur Wortprosodie zust"andigen
%%       Partnern in TP5 und TP15 abgestimmt.
%%       Die "Ubersetzung zwischen TP5- und TP14-Notationen ist
%%       eineindeutig; um die TP14-Notation herzustellen, gen"ugt
%%       z.B.:
%%           sed -e "s/''/\"/g" < thisfile > dquofile
%%       Sekund"are Akzentzeichen allein werden gel"oscht z.B. mit:
%%           sed -e "s/''//g"  < thisfile > nsacfile
%%       Alle Akzentzeichen werden gel"oscht z.B. mit:
%%           sed -e "s/'//g"  < infile > naccfile
%% (5) Separatoren
%% .     Silbenseparator. "Ubersetzung in Erlanger
%%       Notation durch
%%           sed -e "s/\./|/g"  < infile > outfile
%% +     Morphseparator. Morphseparatoren und Silben-
%%       separatoren sind z.T. unabh"angig voneinander;
%%       wenn sie zusammenfallen, wird der Silbenseparator
%%       vor den Morphseparator geschrieben.
%% #     Wortseparator in Komposita (auch bei unikalen
%%       Bestandteilen, sowie bei trennbaren Pr"afixen).
%%       Der Wortseparator gilt gleichzeitig als Silben-
%%       separator und Morphseparator.
%% ##    Wortseparator in phrasalen Ausdr"ucken.
%%       Der phrasale Wortseparator gilt gleichzeitig
%%       als Silbenseparator und Morphseparator.
%%       Sollte ein anderer Separator (z.B. ASCII 32) ben"otigt
%%       werden, mu"s die Ersetzung vor der Bearbeitung der
%%       einfachen Wortgrenzen erfolgen, z.B. durch:
%%           sed -e "s/##/ /g" < infile > outfile
%% Falls die Separatoren nicht ben"otigt werden, k"onnen sie
%% einzeln gel"oscht werden oder auch komplett mit:
%%           sed -e "s/[\.+#]//g"  < infile > outfile
%% Die in den TP14-CDROM-Wortlisten enthaltenen Zeichen '+' und '#'
%% dienen vorwiegend der Akzentsetzung und damit assoziierten
%% Reduktionsph"anomenen und nicht der morphologischen Segmentierung.
%% Aufgrund der expliziten Akzentsetzung werden sie im Lexikon-
%% format in dieser Interpretation nicht ben"otigt. Auf die Heranziehung
%% des zus"atzlichen Kriteriums des Grades der Lexikalisiertheit
%% (z.B. fehlender Sekund"arakzent in hochgradig lexikalisierten
%% Komposita) wird verzichtet, da die Forderung nach Sekund"arakzent
%% bei den Partnern in der Spracherkennung keine hohe Priorit"at hat.
%% 
%% 
%% 6. Unterschiede in Demonstrator-Wortliste V1.1 gegen"uber V1.0
%% 
%% (1) Gro"s-Klein-Schreibungs-Doubletten
%% Die eingeklammerten Versionen wurden entfernt:
%%   Dank      (dank)       Geloescht: vermutl. Translit.-fehler
%%   (Ganze)   ganze        Geloescht: Grenzfall.
%%   (Hallo)   hallo        Geloescht: vermutl. Translit.-Fehler
%%   (Ihnen)   ihnen        Geloescht: systematisch mehrdeutig.
%%   (Ihrem)   ihrem        Geloescht: systematisch mehrdeutig.
%%   Morgen    morgen       Bleiben: Versch. Wortarten.
%%   (Sie)     sie          Geloescht: systematisch mehrdeutig.
%%   Treffen   treffen      Bleiben: versch. Wortarten.
%% (2) Abweichend von der Duden-Konvention wurde in der phonologischen
%% Spalte folgende Ersetzung entsprechend der TP14-SAMPA-Version
%% vorgenommen:
%%        @.r       ->        6.r
%% Es handelt sich um folgende Eintr"age:
%%   Konferenz     kOn.+f6.r+'Ents
%%   andere     ?'an.d6.r+@
%%   anderem     ?'an.d6.r+@m
%%   anderen     ?'an.d6.r+@n
%%   anderes     ?'an.d6.r+@s
%%   fr"uhere     fr'y:.+6.r+@
%%   fr"uheren     fr'y:.+6.r+@n
%%   fr"uherer     fr'y:.+6.r+6
%%   insbesondere     ?Ins+b@.+z'On.d6.r+@
%%   mehrere     m'e:.r+6.r+@
%%   mehreren     m'e:.r+6.r+@n
%%   mehrerer     m'e:r+6.r+6
%%   sch"oneres     S'2:.n+6.r+@s
%%   sp"atere     Sp'E:.t+6.r+@
%%   sp"ateren     Sp'E:.t+6.r+@n
%%   sp"aterer     Sp'E:.t+6.r+6
%%   unsere     ?Un.z+6.r+@
%%   unserem     ?Un.z+6.r+@m
%%   unseren     ?Un.z+6.r+@n
%%   unserer     ?Un.z+6.r+6
%%   unseres     ?Un.z+6.r+@s
%%   wiederum     v'i:.d6.r+Um
%% Da die Abbildung eineindeutig ist, koennen Partner, die die Schwa-
%% Konvention verwenden, unter UNIX eine Rueckwandlung vornehmen, z.B.:
%%           sed -e "s/6\.r/@\.r/g" < infile > outfile
%% (3) Als Kennzeichnung der Header bzw. Kommentarzeilen wurde in
%%     Anlehnung an eine verbreitete Konvention # durch %% ersetzt,
%%     um die automatische Bearbeitung des Headers zu erleichtern.
%%     In den TP14-Corpus-Wortlisten und Label-Dateien wird einfaches %
%%     als Pr"afixbuchstabe f"ur unsicher transliterierte W"orter verwendet.
%%     Das Lexikon wird zwar hiervon nicht tangiert; durch die Verdoppelung
%%     wird eine Verwechslung aber auf jeden Fall ausgeschlossen.
%% 
%% 
%% 7. UNIX-Shell-Datei f"ur die Konversion in TP14-CDROM-Notation:
%% 
%% Hier wird ein einfaches UNIX-Shell-Script f"ur die Konversion
%% in TP14-CDROM-Notation bereitgestellt; der Code kann aus dieser
%% Datei automatisch extrahiert wrden. Folgende Zeilen enth"alten
%% die ersten Kommentar-Zeilen des Scripts:
%% 14 #!/bin/sh
%% 14 # tp5-tp14 D.Gibbon, 30.5.94 Makes TP14-like wordlist.
%% 14 # Make this file into an executable shell script with:
%% 14 # chmod 555 tp5-tp14
%% Der UNIX-Code kann zur Weiterverwendung in UNIX-Shell-Scripts mit
%% folgendem UNIX-Befehl extrahiert werden; in ver"anderter Form
%% bleibt diese Zeile als Kommentarzeile im Shell-Script, da das
%% Suchmuster nat"urlich bei der Anwendung selbst gefunden wird:
%% 14 # grep "%% 14 " thisfile | sed -e 's/%% 14 //g' > tp5-tp14
%% 14 # (The regular expressions in the above line are found and
%% 14 # altered during the extraction operation. Ignore or remove.)
%% 14 if [ $# -ne 2 -o ! -f $1 ]
%% 14 then
%% 14 echo Usage: tp5-tp14 lexfile romfile
%% 14 exit
%% 14 fi
%% 14 echo "Extracting TP14-CDROM-Notation from TP5 wordlist,"
%% 14 echo "keeping:    - TP5 stress marking criteria"
%% 14 echo "            - TP5 word separator criteria"
%% 14 echo "            - TP5 heterophonous homographs plus"
%% 14 echo "              free lexical (incl. stress) variants"
%% 14 echo "forgetting: TP14 morphological diacritics"
%% 14 echo "            - no-accent-suffix (+)"
%% 14 echo "            - particle-prefix (v:)"
%% 14 echo "changing:   ? -> Q"
%% 14 echo "            '' -> double_quote"
%% 14 echo "            1st 5-blank separator -> 3-blanks * blank"
%% 14 echo "            other 5-blank separators -> _&_"
%% 14 echo " Converting ..."
%% 14 grep -v "%%" $1 > buffer1
%% 14 sed -e 's/##/ /g' < buffer1 > buffer2
%% 14 sed -e 's/[.+]//g' < buffer2 > buffer1
%% 14 sed -e 's/?/Q/g' < buffer1 > buffer2
%% 14 sed -e "s/''/\"/g" < buffer2 > buffer1
%% 14 sed -e 's/     /   * /1' < buffer1 > buffer2
%% 14 sed -e 's/     /_\&_/g' < buffer2 > $2
%% 14 rm -f buffer1 buffer2
%% 
%% ------------------ START OF WORDLIST ----------------------------



Dafydd Gibbon
Fri Sep 1 19:40:09 MET DST 1995