next up previous contents
Next: References Up: No Title Previous: Inkonsistenzen in CDROM

Probewortschatz aus den CDROMs 1.0.3-5

Die auf dem Filter aufbauende Corpuswortliste bildet mit der Demonstratorwortliste die Grundlage für die Definition der Testwortliste für den Forschungsprototypen. Die Corpuswortliste wird nach Abschluß der Beta-Testreihe und der Korrektur der Originaltransliterationen ausgeliefert.

Eine Anwendung der Parametrisierung ' trlfilter -wig (Version 1.0)' auf die verfügbaren Transliterationen bietet jedoch jetzt schon eine gute Annäherung an die definitive Gesamtliste. Gleichzeitig mit der Beta-Version des Filters wird also eine Probewortliste für die CDROM 1.0.3 bis CDROM 5 mit dieser Parametrisierung des Filters bereitgestellt:

trlfilter -wig <EINGABEVERZEICHNIS> [<AUSGABEVERZEICHNIS>]

Die Transliterationen der einzelnen CDROMs sollten sich in getrennten Verzeichnissen befinden und getrennt bearbeitet werden. Ein caller script wurde zur Bearbeitung aller CDROMs erstellt.

Nach der Filterung wurden orthographische Einzel- und Gesamtwortlisten automatisch erstellt, deren Ergebnisse im folgenden Abschnitt erläutert werden. Hierzu wurden alle Dateien, einschließlich kumulative Dateien, erzeugt und einzeln analysiert.

Die Wortlisten, die aus den Ausgaben von trlfilter erstellt wurden, werden auf dem DFKI-Server in der Datei ubi.cdwortlisten1.0.tar.gz zur Verfügung gestellt. Weitere Informationen zu den Wortlisten sind in der dazugehörigen Datei README.ubi.cdwortlisten1.0 enthalten.

Die Vollformenwortschatzgröße für die einzelnen CDROMs schwankt um ca. 2000 Wörter pro CDROM:

Lexical wordlist sizes and growth:
   2192 WLOutput/cd1.wl
   1952 WLOutput/cd2.wl
   1649 WLOutput/cd3.wl
   1889 WLOutput/cd4.wl
   2101 WLOutput/cd5.wl
   2993 WLOutput/cd1-2.wl +801
   3421 WLOutput/cd1-3.wl +428
   3952 WLOutput/cd1-4.wl +531
   4514 WLOutput/cd1-5.wl +562
[Based on wordlist files WLOutput/cdn.wl and WLOutput/cd1-5.size]
[Created on Mon Aug 7 14:58:48 MET DST 1995 by steinbre]

Die Ergebnisse für den chronologischen Vollformenwortschatzzuwachs lassen noch keine Wortschatzsättigungseffekte erkenen.

Der Bezug zwischen den Filterwortlisten, die ausschließlich corpusbasiert sind und keine Ergänzungen enthalten, und den wichtigsten anderen für VERBMOBIL aktuell definierten Wortlisten ist folgendermaßen definiert.

A
Vollformen-Gesamtliste: Paradigmenergänzung zu allen im aktuellen Corpus vorkommenden flektierten Stämmen, einschließlich aller Wörter in endlichen Wortklassen sowie Ergänzungen kleinerer domänenspezifischer semantischer Klassen (|A| > 15000 z.Zt.)

B
Vollformen-Corpusliste: Die durch den Standard-Filter ermittelten, im aktuellen Corpus vorkommenden flektierten Wörter, die in den Wortlisten ubi.cdwortlisten1.0.tar.gz auf dem DFKI-Server abgelegt sind (|B| > 4500 z.Zt.)

C
Testwortschatz des Forschungsprototypen: sog. FP-Wortliste im engeren Sinn, durch die Komponentenentwickler zu definieren (Spracherkennung, Syntax, Semantik) (|C| < 2500)

D
Testwortschatz des Demonstrators: sog. `Demonstratorwortliste' (|D| < 1300)

Für die Menge A gilt: , d.h. die Gesamtliste ist die Vereinigungsmenge der Corpusgesamtliste und der Demonstratorwortliste (die Wortschatzergänzungen enthält).

Die Mengen B, C und D sind echte Teilmengen der Menge A. Insbesondere die Teilmenge C, die Wortliste für den Forschungsprototypen, muß noch zwischen Spracherkennern und Linguisten ausgehandelt werden.

Die Menge D ist eine echte Teilmenge der Menge C, d.h. die Demonstratorwortliste ist in der FP-Wortliste enthalten.

Die Differenzmenge E der Mengen C und D, d.h. die für den Forschungsprototypen zusätzlich erforderlichen Wörter aus der Corpuswortliste, hat einen Umfang von ca. 1000 (|E| = 1000).

Die Aufgabe der Wortlistenerstellung besteht primär darin, die aktuelle obere Grenze für die anderen Wortlisten jeweils zu definieren und sekundär darin, die Entwicklung von Constraints zur Einschränkung des maximalen Wortschatzes zur Definition der anderen Wortlisten zu unterstützen.



next up previous contents
Next: References Up: No Title Previous: Inkonsistenzen in CDROM



Dafydd Gibbon
Fri Sep 1 19:46:49 MET DST 1995