next up previous contents
Next: Parameter nach den Up: No Title Previous: Usage

Defaulttransformation

Werden keine Parameter angegeben, wird eine Defaulttransformation der Transliterationen durchgeführt. Die auf dem DFKI-Server abgelegte Probewortliste ubi.cdwortlisten1.0 wurde nicht mit der Defaulttransformation sondern mit der Parametrisierung trlfilter -wig erstellt.

Anmerkung: Für den geplanten ` trlfilter Version 1.1' kann sich die Spezifikation der Defaulttransformation ändern, wenn dies aufgrund der Testergebnisse der VERBMOBIL-Partner geboten erscheint.

Die Defaulttransformation ist folgendermaßen definiert:

  1. Zeilenumbrüche innerhalb eines Sprecherbeitrags werden entfernt. Es wird also für jeden Turn eine UNIX-Zeile ohne Längenbeschränkung erstellt
  2. Sequenzen von Blanks werden zu einem Blank reduziert
  3. Aus dem Dateinamen und den TurnIDs werden neue TurnIDs erstellt, die den Dateinamen und die jeweilige TurnID kennzeichnen. (Bsp.: FileName G142A.TRL, TurnID BAC000 newTurnID G142A_BAC000 )
  4. Globale Kommentare werden entfernt
  5. Lokale Kommentare werden entfernt
  6. Interpunktionszeichen werden entfernt
  7. Aussprachevarianten werden entfernt
  8. Bildung von Klassen:
    <NIB>:
    nichtartikulatorische Geräusche (z.B. <#Klicken>)
    nonverbale Produktionen (z.B. <Husten>)
    <UNK>:
    Neologismen (z.B. *einteigige)
    techn. Abbrüche (z.B. <;T>ay, <;T>)
    Wortfragmente (z.B. abh=)
  9. Folgende Markierungen werden gelöscht:
    Überlappende Redebeiträge ((@ ), ( @))
    Wiederaufnahmen (+/ /+)
    Abbrüche (/-)
    Gleichzeitigkeit von Schallereignissen (<: :>)
    Technische Abbrüche (<;T>)
    Schwerverständliches oder Unverständliches (<%>, %)
    Verkürzte Schreibweisen für Geräusche (<A>, <P>, <Z>)

  10. Buchstabiersequenzen werden als Einzelkomposita dargestellt, z.B. '$U-$S-$A-Reise' als ein Kompositum statt wie bisher als zwei Simplizia und ein Kompositum `$U $S $A-Reise' (vgl. [2], [1])
  11. Die Markierung unterbrochener Wortformen wird entfernt (_)
  12. Spitze Klammern um Häsitationspartikeln werden entfernt
    (Bsp. <"ahm> "ahm)
  13. Folgende unsystematische Sequenzen in den Transliterationsdateien der ersten drei CDROMs werden ad hoc korrigiert:
    An- und Abreise An-und-Abreise
    Bu"s- und Bettag Bu"s-und-Bettag
    Christi Himmelfahrt Christi-Himmelfahrt
    M"arz- oder Aprilh"alfte M"arz-oder-Aprilh"alfte
    Maria Himmelfahrt Maria-Himmelfahrt
    Mari"a Himmelfahrt Mari"a-Himmelfahrt
    September- und Oktobertermine September-und-Oktobertermine
    en gros en_gros
    f"unfzehn- und sechzehnte f"unfzehn-und-sechzehnte
    heut heute
    sollt sollte
    zweihundertdrei zweihundert drei
    open end open_end
    n047Tag guten Tag
    en bloc en_bloc
    Richhard Richard

Anmerkung zu den Korrekturen: Die oben aufgelisteten Fälle beziehen sich auf CDROM 1.0.3 bis CDROM 3. Ähnlich gelagerte Einzelfälle aus CDROM 4 und CDROM 5 wurden aus Zeitgründen nicht aufgenommen; sie werden in einem gesonderten Abschnitt unten aufgelistet. Die Korrekturen sollten an der Quelle in den Originaltransliterationen berichtigt werden; in späteren Versionen des Filters sollen Einzellösungen vermieden werden.

Anmerkung zu den Komposita: Anhand der Wortliste können die Komposita (auch die ad-hoc-Komposita bzw. die elliptischen Konjunktionskomposita) unabhängig von dieser Darstellung für die Spracherkennung bzw. für die linguistische Analyse bei Bedarf weiter zerlegt werden.



next up previous contents
Next: Parameter nach den Up: No Title Previous: Usage



Dafydd Gibbon
Fri Sep 1 19:46:49 MET DST 1995