%% Filename: ubi.wortliste.demo.v1.1 %% Authors: Doris Bleiching, Dafydd Gibbon, Daniela Steinbrecher %% U Bielefeld LiLi. %% Date: 31 May 1994 %% Enquiries: gibbon@asl.uni-bielefeld.de %% Status: Definitive wordlist for VERBMOBIL Demonstrator %% Revision of V1.0 (2 May 1994) %% Description: Table of fully inflected orthographic forms with %% canonical phonemic, word prosodic and morphological %% information. %% Number of orthographic keywords: 1284 %% History: Previous test versions distributed from January 1994 %% on SB ftp server %% Criterion list distributed February 1994 %% Criteria and contents negotiated at Bielefeld Lexicon %% Workshop 7.-9.3.94 %% Previous version on server ftp@dfki.uni-sb.de %% since 2 May 1994. %% %% Contents: (1) Editing instructions for TP5 wordlist file %% (2) Handbuch zur Demonstrator-Wortliste V1.1 %% (3) Demonstrator-Wortliste V1.1 %% %% -------------------------------------------------------------------- %% %% Editing instructions for TP5 wordlist file %% %% Dafydd Gibbon, 30 May 1994 %% %% (1) Extract WL.README.V1.1 from this file with UNIX command: %% grep "%% " ubi.wortliste.demo.v1.1 | sed -e "s/%% //g" > WL.README.V1.1 %% (Note that the expressions "%% " and /%% / each contain one blank. The %% blank between quotes is optional, the other obligatory.) %% %% (2) Extract WL.DEMO.V1.1 from this file with UNIX command: %% grep -v "%% " ubi.wortliste.demo.v1.1 > WL.DEMO.V1.1 %% %% (3) Check correct orthographic word count (= 1284) with the following %% UNIX commands: %% wc -l WL.DEMO.V1.1 %% grep -v "%% " ubi.wortliste.demo.v1.1 | wc -l %% %% %% --------------------------------------------------------------- %% %% Handbuch zur Demonstrator-Wortliste V1.1 %% %% Doris Bleiching & Dafydd Gibbon %% %% U Bielefeld, 31. Mai 1994 %% %% %% Vorbemerkung %% %% Die in dieser Arbeit vorgelegten Lexikon-Standards f"ur Wortformen- %% Interchange zwischen den VERBMOBIL-Projekten bei der %% VERBMOBIL-Demonstrator-Entwicklung konnten nur durch intensive %% Konsultation mit allen VERBMOBIL-Teilprojekten definiert werden. %% Sicher stellt das Ergebnis notwendigerweise einen Kompromi"s %% zwischen den sehr heterogenen Bed"urfnissen der Spracherkennung, der %% Sprachsynthese und der Linguistik in VERBMOBIL dar. Der Kompromi"s %% kann per Definitionem nicht f"ur alle Projekte in jedem Detail die %% Maximalforderungen erf"ullen; wir hoffen jedoch, dass die nun %% vorliegende L"osung eine gute, vielseitige und zukunftssichere ist. %% Unser Dank gilt deshalb allen Partnern, die ihre Anforderungen und %% Anregungen mit uns diskutiert haben, insbesondere den Teilnehmern %% am Bielefelder Lexikon-Workshop (7.-9. M"arz 1994). %% %% In der Diskussion wurden die unterschiedlichen Anforderungen %% an Lexikon- und Corpus-Repr"asentationen diskutiert. Die lexiko- %% graphischen Anforderungen werden unten im einzelnen erl"autert. %% Um die Kompatibilit"at der f"ur die Spracherkennung wesentlichen %% Aspekte des TP5-Lexikonformats und des neuen TP14-CDROM-Formats %% zu gew"ahrleisten, werden genaue "Ubersetzungsvorschriften definiert %% und als Satz von UNIX-Befehlen angegeben. %% %% Durch diese einfache Ma"snahme wird die Forderung nach Kompatibilität %% zwischen dem integrierten TP5-Wortformen-Interchange-Format und der %% TP14-Notation voll erf"ullt. Allerdings konnten aus Gr"unden der %% Konsistenz des Lexikons die nicht-phonematischen Aspekte der %% TP14-Notation nicht "ubernommen werden (lexikalisch-morphologische %% Akzentkriterien, partielles morphologisches Tagging), da hier %% die Zust"andigkeit bei TP5 (in Absprache mit TP15.6) liegt. %% %% F"ur Lexikon-Ausschnitte, die "uber den Demonstrator hinaus %% gehen, sind Erweiterungen des hier verwendeten Wortformen- %% Interchange-Formats vorgesehen, die weitere neuere Entwicklungen %% vor allem im Bereich der Spracherkennung ber"ucksichtigen sollen. %% Diese werden hier jedoch noch nicht thematisiert. %% %% %% 1. Zielsetzung der Demonstrator-Wortliste %% %% Wichtigste Ziele der TP5-Demonstrator-Wortliste sind: %% (1) die Definition der Abdeckung (coverage) f"ur den VERBMOBIL- %% Demonstrator im Bereich der Wortformen (und damit einer Teilmenge %% der Informationen im VERBMOBIL-Hauptlexikon) %% (2) die Definition von verschiedenen Informationstypen, die heute %% f"ur Spracherkennungskonzepte erforderlich sind bzw. in absehbarer %% Zeit sein werden. Hierzu war es erforderlich, %% (3) ein kompaktes informationsreiches Schnittstellenformat f"ur den %% Zweck des Wortformen-Interchange zu definieren. %% %% Diese Ziele und die Ergebnisse wurden mit den VERBMOBIL-Partnern in %% mehreren Iterationen abgestimmt. Insbesondere enth"alt die Wortliste %% ausschlie"slich Informationen, die von den Partnern im Bereich der %% Spracherkennung angefordert wurden, und gleichzeitig die Anforderungen %% der Linguistik im Hinblick auf Wortauswahl erf"ullen. %% %% %% 2. Lexikon-Abdeckung und Wortauswahl %% %% Die mit den VERBMOBIL-Partnern festgelegten Kriterien f"ur die Wortwahl %% definieren die Wortliste als die Vereinigungsmenge folgender Wortmengen: %% (1) Die W"orter aus dem Saarbr"ucker Referenzdialog %% (2) Die W"orter aus den 10 'Blaubeuren'-Dialogen %% (3) Erg"anzung um Funktionsw"orter %% (4) Erg"anzung der szenariorelevanten geschlossenen lexikalischen %% Mengen (Wochentage usw.) %% Eine Beschr"ankung auf 1200 bis 1300 Eintr"age wurde in Absprache mit %% den Partnern in der Spracherkennung vereinbart. %% Andere urspr"unglich von verschiedenen Partnern vorgeschlagene %% Kriterien (100 h"aufigste W"orter des Deutschen, n h"aufigste %% W"orter aus dem TP14-CD-ROM) konnten wegen der Gr"o"senbeschr"ankung %% nur indirekt ber"ucksichtigt werden, indem gr"o"sere "Uberlappungen %% nachtr"aglich festgestellt werden konnten. %% %% %% 3. Abgrenzung der Demonstrator-Wortliste %% %% Aus der Zielsetzung ergibt sich, da"s die Demonstrator-Wortliste %% eine Teilmenge des VERBMOBIL-Hauptlexikons darstellt und nicht mit %% folgenden spezielleren Wortlistentypen verwechselt werden sollte: %% (1) Wortlisten mit kanonischer Aussprache f"ur die Synthese, in denen %% z.B. lexikalische Varianten nicht definiert werden m"ussen %% (2) Corpusbasierte Wortvollformenlisten f"ur die Definition von %% Wortmodellen in der Spracherkennung, in denen lexikalische %% Varianten verschiedener Art sowie Worth"aufigkeiten enthalten sind %% (3) Wortlisten mit phonetischen Aussprachevarianten als Grundlage %% f"ur Ausspracheregeln bzw. f"ur die Definition weiterer Wortmodelle %% Durch die Fokussierung auf lexikalische Vollformen unterscheidet sich %% diese Liste von anderen Teilmengen des VERBOBIL-Hauptlexikons wie z.B. %% wortsemantisches Lexikon, Transferlexikon, Idiomlexikon, usw. %% %% %% 4. Lexikographisches Konzept f"ur die Demonstrator-Wortliste %% %% Das TP5-Hauptlexikon basiert auf einem deklarativen Lexikonkonzept, %% das im Hinblick auf Erkennung und Synthese neutral ist. Die %% Demonstrator-Wortliste widerspiegelt dieses Konzept weitgehend, %% ber"ucksichtigt aber st"arker die Bed"urfnisse der Erkennung und %% orientiert sich pragmatisch an den Bed"urfnissen der Partner: %% (1) Zweispaltige Organisation mit Orthographie und Aussprache %% Repr"asentationen %% (2) Orthographie: Beibehaltung der Gro"sschreibung bei Substantiven; %% Kennzeichnung von Eszet und umgelauteten Vokalen mit "s, "a, %% usw.; optionaler Separator f"ur Komposita; Separator f"ur W"orter %% in phrasalen Ausdr"ucken %% (3) Aussprache - von verschiedenen Partnern gew"unschte Informationen: %% - kanonisch-phonematische Transkription (TP14-Kompatibilit"at) %% - silbenphonologische Separatoren %% - Separatoren zwischen Morphen (Wurzeln und Affixen) %% - Separatoren zwischen W"ortern in Komposita %% - Separatoren zwischen W"ortern in Phrasen %% - morphologisch abgeleitete Prim"ar- und Sekund"arakzente %% - heterophone Homographen, die verschiedene W"orter %% darstellen, einschlie"slich Betonungsvarianten %% - lexikalische freie Varianten (aber nicht Varianten, %% die durch Ausspracheregeln automatisch ableitbar sind), %% einschlie"slich freie Betonungsvarianten %% (4) Verarbeitbarkeit der Wortliste mit UNIX-Werkzeugen, die %% regul"are Ausdr"ucke verwenden. Die 'stream editor'- und %% 'get regular expression pattern'-Werkzeuge unter UNIX sind %% vermutlich allgemein bekannt. Zum Zweck der einfacheren Bearbeitung %% werden trotzdem Einzelbeispiele f"ur verschiedene Konversionen %% angegeben. Beispielsweise kann dieser Text extrahiert bzw. %% entfernt werden mit: %% grep "%%" thisfile > headfile %% grep -v "%%" thisfile > bodyfile %% Die Beispiele k"onnen zwecks Erstellung eines Skripts %% aus dieser Datei herausgetrennt werden z.B. mit: %% egrep '(sed -e|grep)' thisfile > editfile %% Die Kommentarzeilen-Pr"afixe werden bei Bedarf entfernt mit: %% sed -e "s/%% //g" < editfile > textfile %% Dieses Kriterium zur Verarbeitung der Wortliste erlaubt die %% Definition von folgenden weiteren lexikographischen Funktionen. %% (5) Emulation von einfachen Datenbankfunktionen mit allgemeinen %% UNIX-Werkzeugen, die regul"are Ausdr"ucke verarbeiten. %% Dadurch k"onnen alle VERBMOBIL-Partner entsprechend ihren %% besonderen Bed"urfnissen ihre eigene Auswahl aus den %% gelieferten Informationen treffen. Entsprechend dieser Idee wurde %% das Wortformen-Interchange-Format sorgf"altig so spezifiziert, %% da"s Teillexika mit verschiedenen Constraint-Kombinationen durch %% einfache regul"are Ausdr"ucke definiert werden k"onnen, z.B.: %% - Menge der nichtbetonten Einsilbler %% - Menge der Komposita %% - Menge der mehrsilbigen nichtflektierten Simplizia %% Beispielsweise kann 'die Menge der morphologisch einfachen %% nichtbetonten Einsilbler mit kurzen Vokalen' definiert %% werden durch: %% grep -v "[.'+#:]" bodyfile > tinyfile %% (6) Eindeutige "Ubersetzbarkeit der ASCII-Kodierung in andere %% gebr"auchliche Kodierungskonventionen (TP14, lokale %% optimierte Notationen) durch Definition von regul"aren %% Ausdr"ucken f"ur UNIX-Werkzeuge. Der UNIX-Shell-Code zu %% diesem Zweck ist in Abschnitt 7 (unten) enthalten. Dieser %% Code l"ost das mit V1.0 gelieferte C-Werkzeug wlfilter ab. %% %% %% 5. Zeichendefinition f"ur das Wortformen-Interchange-Format %% %% (1) Orthographie: %% Gro"sbuchstaben: Initialbuchstaben von Substantiven %% " Deutsche Buchstaben "s, "a, "o, "u, "A, "O, "U %% $ Initialmarkierer f"ur Buchstabennamen $A, ... $Z %% _ Unterstrich als Wortseparator in phrasalen Ausdr"ucken %% - Bindestrich als Wortseparator-Option %% %% (2) Spaltenseparator: %% 5 Leerstellen (ASCII 32 32 32 32 32) Dieser Separator gilt auch %% f"ur die Aussprachevarianten (kann also formal als %% 'Header' fuer einzelne Ausspracheformen behandelt werden). %% Er kann durch einen anderen Separator (z.B. Leerstelle %% Sternchen Leerstelle) ersetzt werden mit z.B. %% sed -e "s/ / * /g" < blankfile > starfile %% Bei Bedarf kann das erste Vorkommen eines Separators in %% einer Zeile identifiziert werden; vgl. folgende teilweise %% R"uckwandlung: %% sed -e "s/ * / /1" < starfile > ulmfile %% %% (3) Kanonisch-phonematische Transkription: %% Die TP14-SAMPA-Version wurde "ubernommen mit zwei Kodierungen, die %% durch die lexikographischen Kriterien bedingt sind: %% ? Kodierung von 'Q' (Glottalverschlu"s) zwecks einfacher %% Verarbeitung mit UNIX regul"aren Ausdr"ucken; das Zeichen Q %% ist in dieser Bedeutung f"ur einfache regul"are Ausdr"ucke %% nicht eindeutig, w"ahrend das Zeichen ? im Lexikon sonst %% nicht vorkommt. Hier unterscheiden sich die Kriterien %% f"ur das Lexikon-Interchange-Format und die Corpus- %% Beschreibungsnotation. Die Rekonstitution der TP14- %% Notation ist aber durch einfache Ersetzung gew"ahrleistet, %% z.B. mit: %% sed -e "s/?/Q/g" < thisfile > Qfile %% (4) Wortprosodische Transkription: %% ' morphologisch abgeleitete Prim"arbetonung %% '' morphologisch abgeleitete Sekund"arbetonung %% Diese Kodierung ist durch die lexikographischen Kriterien %% bedingt und soll die Verwechslung mit TEX-Konventionen bei %% der Verarbeitung mit einfachen regul"aren Ausdr"ucken %% vermeiden. Sie wurde mit den f"ur Wortprosodie zust"andigen %% Partnern in TP5 und TP15 abgestimmt. %% Die "Ubersetzung zwischen TP5- und TP14-Notationen ist %% eineindeutig; um die TP14-Notation herzustellen, gen"ugt %% z.B.: %% sed -e "s/''/\"/g" < thisfile > dquofile %% Sekund"are Akzentzeichen allein werden gel"oscht z.B. mit: %% sed -e "s/''//g" < thisfile > nsacfile %% Alle Akzentzeichen werden gel"oscht z.B. mit: %% sed -e "s/'//g" < infile > naccfile %% (5) Separatoren %% . Silbenseparator. "Ubersetzung in Erlanger %% Notation durch %% sed -e "s/\./|/g" < infile > outfile %% + Morphseparator. Morphseparatoren und Silben- %% separatoren sind z.T. unabh"angig voneinander; %% wenn sie zusammenfallen, wird der Silbenseparator %% vor den Morphseparator geschrieben. %% # Wortseparator in Komposita (auch bei unikalen %% Bestandteilen, sowie bei trennbaren Pr"afixen). %% Der Wortseparator gilt gleichzeitig als Silben- %% separator und Morphseparator. %% ## Wortseparator in phrasalen Ausdr"ucken. %% Der phrasale Wortseparator gilt gleichzeitig %% als Silbenseparator und Morphseparator. %% Sollte ein anderer Separator (z.B. ASCII 32) ben"otigt %% werden, mu"s die Ersetzung vor der Bearbeitung der %% einfachen Wortgrenzen erfolgen, z.B. durch: %% sed -e "s/##/ /g" < infile > outfile %% Falls die Separatoren nicht ben"otigt werden, k"onnen sie %% einzeln gel"oscht werden oder auch komplett mit: %% sed -e "s/[\.+#]//g" < infile > outfile %% Die in den TP14-CDROM-Wortlisten enthaltenen Zeichen '+' und '#' %% dienen vorwiegend der Akzentsetzung und damit assoziierten %% Reduktionsph"anomenen und nicht der morphologischen Segmentierung. %% Aufgrund der expliziten Akzentsetzung werden sie im Lexikon- %% format in dieser Interpretation nicht ben"otigt. Auf die Heranziehung %% des zus"atzlichen Kriteriums des Grades der Lexikalisiertheit %% (z.B. fehlender Sekund"arakzent in hochgradig lexikalisierten %% Komposita) wird verzichtet, da die Forderung nach Sekund"arakzent %% bei den Partnern in der Spracherkennung keine hohe Priorit"at hat. %% %% %% 6. Unterschiede in Demonstrator-Wortliste V1.1 gegen"uber V1.0 %% %% (1) Gro"s-Klein-Schreibungs-Doubletten %% Die eingeklammerten Versionen wurden entfernt: %% Dank (dank) Geloescht: vermutl. Translit.-fehler %% (Ganze) ganze Geloescht: Grenzfall. %% (Hallo) hallo Geloescht: vermutl. Translit.-Fehler %% (Ihnen) ihnen Geloescht: systematisch mehrdeutig. %% (Ihrem) ihrem Geloescht: systematisch mehrdeutig. %% Morgen morgen Bleiben: Versch. Wortarten. %% (Sie) sie Geloescht: systematisch mehrdeutig. %% Treffen treffen Bleiben: versch. Wortarten. %% (2) Abweichend von der Duden-Konvention wurde in der phonologischen %% Spalte folgende Ersetzung entsprechend der TP14-SAMPA-Version %% vorgenommen: %% @.r -> 6.r %% Es handelt sich um folgende Eintr"age: %% Konferenz kOn.+f6.r+'Ents %% andere ?'an.d6.r+@ %% anderem ?'an.d6.r+@m %% anderen ?'an.d6.r+@n %% anderes ?'an.d6.r+@s %% fr"uhere fr'y:.+6.r+@ %% fr"uheren fr'y:.+6.r+@n %% fr"uherer fr'y:.+6.r+6 %% insbesondere ?Ins+b@.+z'On.d6.r+@ %% mehrere m'e:.r+6.r+@ %% mehreren m'e:.r+6.r+@n %% mehrerer m'e:r+6.r+6 %% sch"oneres S'2:.n+6.r+@s %% sp"atere Sp'E:.t+6.r+@ %% sp"ateren Sp'E:.t+6.r+@n %% sp"aterer Sp'E:.t+6.r+6 %% unsere ?Un.z+6.r+@ %% unserem ?Un.z+6.r+@m %% unseren ?Un.z+6.r+@n %% unserer ?Un.z+6.r+6 %% unseres ?Un.z+6.r+@s %% wiederum v'i:.d6.r+Um %% Da die Abbildung eineindeutig ist, koennen Partner, die die Schwa- %% Konvention verwenden, unter UNIX eine Rueckwandlung vornehmen, z.B.: %% sed -e "s/6\.r/@\.r/g" < infile > outfile %% (3) Als Kennzeichnung der Header bzw. Kommentarzeilen wurde in %% Anlehnung an eine verbreitete Konvention # durch %% ersetzt, %% um die automatische Bearbeitung des Headers zu erleichtern. %% In den TP14-Corpus-Wortlisten und Label-Dateien wird einfaches % %% als Pr"afixbuchstabe f"ur unsicher transliterierte W"orter verwendet. %% Das Lexikon wird zwar hiervon nicht tangiert; durch die Verdoppelung %% wird eine Verwechslung aber auf jeden Fall ausgeschlossen. %% %% %% 7. UNIX-Shell-Datei f"ur die Konversion in TP14-CDROM-Notation: %% %% Hier wird ein einfaches UNIX-Shell-Script f"ur die Konversion %% in TP14-CDROM-Notation bereitgestellt; der Code kann aus dieser %% Datei automatisch extrahiert wrden. Folgende Zeilen enth"alten %% die ersten Kommentar-Zeilen des Scripts: %% 14 #!/bin/sh %% 14 # tp5-tp14 D.Gibbon, 30.5.94 Makes TP14-like wordlist. %% 14 # Make this file into an executable shell script with: %% 14 # chmod 555 tp5-tp14 %% Der UNIX-Code kann zur Weiterverwendung in UNIX-Shell-Scripts mit %% folgendem UNIX-Befehl extrahiert werden; in ver"anderter Form %% bleibt diese Zeile als Kommentarzeile im Shell-Script, da das %% Suchmuster nat"urlich bei der Anwendung selbst gefunden wird: %% 14 # grep "%% 14 " thisfile | sed -e 's/%% 14 //g' > tp5-tp14 %% 14 # (The regular expressions in the above line are found and %% 14 # altered during the extraction operation. Ignore or remove.) %% 14 if [ $# -ne 2 -o ! -f $1 ] %% 14 then %% 14 echo Usage: tp5-tp14 lexfile romfile %% 14 exit %% 14 fi %% 14 echo "Extracting TP14-CDROM-Notation from TP5 wordlist," %% 14 echo "keeping: - TP5 stress marking criteria" %% 14 echo " - TP5 word separator criteria" %% 14 echo " - TP5 heterophonous homographs plus" %% 14 echo " free lexical (incl. stress) variants" %% 14 echo "forgetting: TP14 morphological diacritics" %% 14 echo " - no-accent-suffix (+)" %% 14 echo " - particle-prefix (v:)" %% 14 echo "changing: ? -> Q" %% 14 echo " '' -> double_quote" %% 14 echo " 1st 5-blank separator -> 3-blanks * blank" %% 14 echo " other 5-blank separators -> _&_" %% 14 echo " Converting ..." %% 14 grep -v "%%" $1 > buffer1 %% 14 sed -e 's/##/ /g' < buffer1 > buffer2 %% 14 sed -e 's/[.+]//g' < buffer2 > buffer1 %% 14 sed -e 's/?/Q/g' < buffer1 > buffer2 %% 14 sed -e "s/''/\"/g" < buffer2 > buffer1 %% 14 sed -e 's/ / * /1' < buffer1 > buffer2 %% 14 sed -e 's/ /_\&_/g' < buffer2 > $2 %% 14 rm -f buffer1 buffer2 %% %% ------------------ START OF WORDLIST ----------------------------