README.bielefeld.lexdb.v3.0 Dafydd Gibbon, U Bielefeld 12 September 1995 A. LIEFERUNGSARTEN 1. ftp Die LexDB3 ist unter der Bezeichnung `bielefeld.lexdb.v3.0' im Verzeichnis .../vm-lexikon des DFKI-Servers verf"ugbar. 2. WWW Zus"atzlich wird die LexDB mit einer neuen graphischen Zugriffsoberfl"ache im WWW zur Verf"ugung gestellt. Die bisherige Funktionalit"at der mit LexDB2 ausgelieferten Zugriffswerkzeuge ist erweitert worden, u.a. durch eine KWIC-Konkordanz-Funktion und durch eine Funktion zur Suche von phonologisch "ahnlichen W"ortern. Wie bei den anderen VM-Datentypen sind die Lexikondaten ausschlie"slich f"ur den VM-internen Gebrauch bestimmt und deshalb mit Pa"swort gesch"utzt. Die Adresse lautet: http://coral.lili.uni-bielefeld.de/VM-HyprLex/ User: VM-HyprLex Pa"swort: (wie DFKI-Server) Vorteile der WWW-Auslieferungsform sind: - gr"o"stm"ogliche Aktualit"at - gr"o"stm"ogliche Konsistenz unter allen Partnern - Plattformunabh"angiger Zugriff (UNIX, Mac, PC usw.) - Komfortable Menusteuerung Einschr"ankung: Der Server wurde f"ur den Browser `Netscape' entworfen und verwendet Merkmale von HTML3 und Netscape-HTML. Er funktioniert auch mit `Lynx' und `Hot Java' (allerdings nur mit einfachstem vt100- bzw. HTML2-Layout). Der verbreitete Brower `Mosaic' scheint eine nicht korrekte Implementierung von HTML2 zu bieten, weil das `Toleranzprinzip' gegen"uber unbekannten Attributen und Elementen anscheinend nicht konsistent befolgt wird. So funktionieren die interaktiven Menus unter den getesteten `Mosaic'-Versionen leider nicht. Die Bielefelder Lexikon-Gruppe hofft, mit diesen beiden Auslieferungsarten die bisher ge"au"serten Anforderungen der Partner weitgehend erf"ullt zu haben. R"uckmeldungen und weitere Anregungen sowie bug-reports sind sehr willkommen. B. UMFANG 1. Extensionaler Umfang (Wortzahl) 1.1 Alle W"orter der CD-ROMs 1-5 mit Parametrisierung `trlfilter -wig' (gekennzeichnet durch Attribute `BIcd1' und `BIcdall') 1.2 Alle W"orter der Demonstrator-LexDB (gekennzeichnet durch Attribut `Demo') 1.3 Alle zus"atzlichen Einheiten, die mit `trlfilter -wpg' erzeugt werden (gekennzeichnet durch IMS-erzeugte Attribute `IMS-POS' und `IMS-FREQ'; Unterschiede entstehen z.B. durch Interpunktion innerhalb von Buchstabiersequenzen) 1.4 Alle zus"atzlichen Einheiten, die aus der Kieler Wortliste stammen und nicht mit dem VM-Standardfilter erzeugt werden (gekennzeichnet durch Kiel-erzeugte Attribute KIcanon und KIfreq) Erl"auterungen: Die Teilmengen 1.1 und 1.3 unterscheiden sich lediglich durch 20 unterschiedliche Buchstabiergruppen. Die DemoWL stellt ca. 26% der Eintr"age. Die Teilmenge 1.4 unterscheidet sich momentan in ca. 13% von den anderen durch Abtrennung der unsicheren Transliterationen, Neologismen, der durchbrochenen Komposita sowie einiger anderer Komposita. Die Kodierung der IMS-Attribute wurde auf das VM-Format (TechDok 31) durch Ersetzung der ANSI-Sonderzeichen, Spaltenumordnung und Kompression zu Vektorfeldern normiert. Die Kodierung der Kieler Attribute wurde entsprechend TechDok 31 durch Verbindung der Buchstabierkomposita, Ersetzung des Alternationszeichens " & " f"ur Varianten durch ";" sowie Entfernung von Pr"afix- und Suffix-Leerstellen (ASCII 32) normiert. Mit der Ausnahme von Pr"afix- und Suffix-Leerstellen lassen sich alle Normierungen eindeutig zur"uckkodieren. 2. Intensionaler Umfang (Attributzahl) - BIorth VM-Lexikon-Standardorthographie (TechDok 31) - BIorthseg Morphologisch segmentierte Orthographie - BImorpro Erweiterte morphophonologische Transkription - BIorthstem Orthographischer Stamm - BIphonstem Morphophonologischer Stamm - BIflex Flexionskategorie(n) - BIcd1 Frequenzen auf Einzel-CD-ROMs (`trlfilter -wig') - BIcdall Gesamtfrequenz (`trlfilter -wig') - BIpercent Relative H"aufigkeit im Corpus in Prozent (`trlfilter -wig') - BIrank Rang in der H"aufigkeitsliste (`trlfilter -wig') - DemoWL Enthalten in Demonstrator-LexDB-Versionen - BLAUBEU Enthalten in Blaubeurer Dialog-Wortliste - RQH-WL Enthalten in CDROM-Dialogen der Reithinger-Quantz-Herweg-Auswahl - HITLIST Enthalten unter den 1000 h"aufigsten W"ortern (`trlfilter -wig') - IMS-POS Part of Speech Tags (IMS Stuttgart) - IMS-FREQ Part of Speech Frequenzen (IMS Stuttgart) - KIcanon Kanonisch-phonematische Transkription (Kiel) - KIfreq Frequenzen (Kiel) Die gleichen Konventionen gelten wie f"ur die LexDBs 0 (= Demonstrator- Wortliste), 1, 2.0 und 2.1: Die Orthographie stellt noch den (eindeutigen) Suchschl"ussel dar und einzelne Relationen werden zu Feldvektoren komprimiert. Bei Abh"angigkeiten zwischen Attributen haben die Vektoren gleiche L"ange, und die Positionen stimmen miteinander "uberein, so da"s konventionelle Darstellungen der Relationen jederzeit rekonstruierbar sind. Innerhalb von Feldern wird Alternation wie bisher mit ";", Konjunktion mit "_" oder mit "," repr"asentiert (vgl. TechDok 31). Nicht belegte Felder werden mit `@empty@' gekennzeichnet. Entsprechend den bisherigen Zielsetzungen in TP5 und TP14 wird das Lexikon automatisch erzeugt; eventuelle Fehler der Transliterationen schlagen also ins Lexikon durch. In Absprache mit TP 14 werden Korrekturzyklen an den Quellen durchgef"uhrt. Hinweise hierzu werden erbeten. C. ANMERKUNGEN ZUR WWW-VERSION Der WWW-Lexikon-Server `VM-HyprLex' bietet f"ur die LexDB Verson 3.0 zwei Suchraum-Auswahlfunktionen: SEARCH: a. Einzelw"orter ("String"), Wortmengen ("Substring") b. Teildatenbanken: - nach allen oder markierten Attributen - nach aktueller CDROM-Corpus-Wortliste - nach Demonstrator Wortliste - nach Wortliste der Blaubeurer Dialoge - nach Wortliste 6 der von Reithinger/Quantz/Herweg ausgew"ahlten Dialogen (d.h. der Dialoge, die im CDROM-Corpus enthalten sind) - nach Zugeh"origkeit zur aktuellen Hitliste der 1000 h"aufigsten W"orter im CDROM-Corpus - nach Zugeh"origkeit zur Wortliste f"ur den Forschungsprototypen D. AKTUELLE STATISTIK F"UR LEXDB3.0 ======================================================== Report on bielefeld.lexdb.v3.0 Tue Sep 12 01:30:43 MET DST 1995 ======================================================== The first record should contain the version name. The second record should contain attribute names. -------------------------------------------------------- Online record and field checks: Number of data records: 4935 -------------------------------------------------------- Attribute coverage for bielefeld.lexdb.v3.0 BIorth 100% BIorthseg 97% BImorpro 97% BIorthstem 96% BIphonstem 96% BIflex 96% BICD1 91% BICDall 91% BIpercent 91% BIrank 91% FP-WL 100% DemoWL 26% BLAUBEU 10% RQH-WL 11% HITLIST 20% IMS-POS 91% IMS-FREQ 91% KIcanon 88% KIfreq 88% ========================================================