Die auf dem Filter aufbauende Corpuswortliste bildet mit der
Demonstratorwortliste die Grundlage für die Definition der
Testwortliste für den Forschungsprototypen. Die Corpuswortliste
wird nach Abschluß der Beta-Testreihe und der Korrektur der
Originaltransliterationen ausgeliefert.
Eine Anwendung der Parametrisierung ' trlfilter -wig (Version 1.0)' auf die verfügbaren Transliterationen bietet jedoch jetzt schon eine gute Annäherung an die definitive Gesamtliste. Gleichzeitig mit der Beta-Version des Filters wird also eine Probewortliste für die CDROM 1.0.3 bis CDROM 5 mit dieser Parametrisierung des Filters bereitgestellt:
trlfilter -wig <EINGABEVERZEICHNIS> [<AUSGABEVERZEICHNIS>]
Die Transliterationen der einzelnen CDROMs sollten sich in getrennten
Verzeichnissen befinden und getrennt bearbeitet werden. Ein
caller script wurde zur Bearbeitung aller CDROMs erstellt.
Nach der Filterung wurden orthographische Einzel- und Gesamtwortlisten
automatisch erstellt, deren Ergebnisse im folgenden Abschnitt
erläutert werden. Hierzu wurden alle Dateien, einschließlich
kumulative Dateien, erzeugt und einzeln analysiert.
Die Wortlisten, die aus den Ausgaben von trlfilter erstellt wurden,
werden auf dem DFKI-Server in der Datei ubi.cdwortlisten1.0.tar.gz
zur Verfügung gestellt. Weitere Informationen zu den Wortlisten sind in der
dazugehörigen Datei README.ubi.cdwortlisten1.0 enthalten.
Die Vollformenwortschatzgröße für die einzelnen CDROMs schwankt um ca. 2000 Wörter pro CDROM:
Lexical wordlist sizes and growth: 2192 WLOutput/cd1.wl 1952 WLOutput/cd2.wl 1649 WLOutput/cd3.wl 1889 WLOutput/cd4.wl 2101 WLOutput/cd5.wl 2993 WLOutput/cd1-2.wl +801 3421 WLOutput/cd1-3.wl +428 3952 WLOutput/cd1-4.wl +531 4514 WLOutput/cd1-5.wl +562 [Based on wordlist files WLOutput/cdn.wl and WLOutput/cd1-5.size] [Created on Mon Aug 7 14:58:48 MET DST 1995 by steinbre]
Die Ergebnisse für den chronologischen Vollformenwortschatzzuwachs lassen
noch keine Wortschatzsättigungseffekte erkenen.
Der Bezug zwischen den Filterwortlisten, die ausschließlich corpusbasiert sind und keine Ergänzungen enthalten, und den wichtigsten anderen für VERBMOBIL aktuell definierten Wortlisten ist folgendermaßen definiert.
Für die Menge A gilt:
, d.h. die
Gesamtliste ist die Vereinigungsmenge der Corpusgesamtliste und
der Demonstratorwortliste (die Wortschatzergänzungen enthält).
Die Mengen B, C und D sind echte Teilmengen
der Menge A. Insbesondere die Teilmenge C,
die Wortliste für den Forschungsprototypen, muß noch
zwischen Spracherkennern und Linguisten ausgehandelt werden.
Die Menge D ist eine echte Teilmenge der Menge C, d.h. die
Demonstratorwortliste ist in der FP-Wortliste enthalten.
Die Differenzmenge E der Mengen C und D, d.h. die
für den Forschungsprototypen zusätzlich erforderlichen Wörter aus
der Corpuswortliste, hat einen Umfang von ca. 1000 (|E| = 1000).
Die Aufgabe der Wortlistenerstellung besteht primär darin, die aktuelle obere Grenze für die anderen Wortlisten jeweils zu definieren und sekundär darin, die Entwicklung von Constraints zur Einschränkung des maximalen Wortschatzes zur Definition der anderen Wortlisten zu unterstützen.