next up previous contents
Next: Parameter Up: No Title Previous: Usage

Defaulttransformation

Werden keine Parameter angegeben, wird eine Defaulttransformation der Transliterationen durchgeführt. Die auf dem DFKI-Server abgelegte Probewortliste ubi.cdwortlisten1.0 wurde nicht mit der Defaulttransformation sondern mit der Parametrisierung trlfilter -wig erstellt.
Die Defaulttransformation ist folgendermaßen definiert:

  1. Nicht-deutschsprachige Sprecherbeiträge werden durch die entsprechende Kennzeichnung der jeweiligen Sprache ersetzt. Z.Zt. kommen japanische und englische Sequenzen vor, die Kennzeichnungen sind <JAP> bzw. <ENG>. Die Originalturns werden in eine gesonderte Ausgabedatei mit der Extension .ng geschrieben.
  2. Zeilenumbrüche innerhalb eines Sprecherbeitrags werden entfernt. Es wird also für jeden Turn eine UNIX-Zeile ohne Längenbeschränkung erstellt
  3. Sequenzen von Blanks werden zu einem Blank reduziert
  4. Aus dem Dateinamen und den TurnIDs werden neue TurnIDs erstellt, die den Dateinamen und die jeweilige TurnID kennzeichnen. (Bsp.: FileName G142A.TRL, TurnID BAC000 newTurnID G142A_BAC000 )
  5. Globale Kommentare werden entfernt
  6. Lokale Kommentare werden entfernt
  7. Interpunktionszeichen werden entfernt
  8. Aussprachevarianten werden entfernt
  9. Reduzierte Wortformen werden wiederhergestellt
  10. Ambige reduzierte Wortformen ( 'm und 'n) werden durch den entsprechenden bestimmten Artikel ersetzt
  11. Bildung von Klassen:
    <NIB>:
    nichtartikulatorische Geräusche (z.B. <#Klicken>)
    nonverbale Produktionen (z.B. <Husten>)
    <UNK>:
    Neologismen (z.B. *einteigige)
    techn. Abbrüche (z.B. <;T>ay)
    Wortfragmente (z.B. abh=)
  12. Folgende Markierungen werden gelöscht:
    Überlappende Redebeiträge ((@ ), ( @))
    Wiederaufnahmen (+/ /+)
    Abbrüche (/-)
    Gleichzeitigkeit von Schallereignissen (<: :>)
    Technische Abbrüche (<;T>)
    Schwerverständliches oder Unverständliches (<%>, %)
    Verkürzte Schreibweisen für Geräusche (<A>, <P>, <Z>)

  13. Buchstabiersequenzen werden als Einzelkomposita dargestellt, z.B. '$U-$S-$A-Reise' als ein Kompositum statt wie bisher als zwei Simplizia und ein Kompositum `$U $S $A-Reise' (vgl. [3], [2])
  14. Die Markierung unterbrochener Wortformen wird entfernt (_)
  15. Spitze Klammern um Häsitationspartikeln werden entfernt
    (Bsp. <"ahm> "ahm)
  16. Folgende unsystematische Sequenzen in den Transliterationsdateien der ersten drei CDROMs werden ad hoc korrigiert:
    An- und Abreise An-und-Abreise
    Bu"s- und Bettag Bu"s-und-Bettag
    Christi Himmelfahrt Christi-Himmelfahrt
    M"arz- oder Aprilh"alfte M"arz-oder-Aprilh"alfte
    Maria Himmelfahrt Maria-Himmelfahrt
    Mari"a Himmelfahrt Mari"a-Himmelfahrt
    September- und Oktobertermine September-und-Oktobertermine
    en gros en_gros
    f"unfzehn- und sechzehnte f"unfzehn-und-sechzehnte
    heut heute
    sollt sollte
    zweihundertdrei zweihundert drei
    open end open_end
    n047Tag guten Tag
    en bloc en_bloc
    Richhard Richard

Anmerkung zu den Korrekturen: Die oben aufgelisteten Fälle beziehen sich auf CDROM 1.0.3 bis CDROM 3. Für spätere CDROMs wurden keine Einzellösungen vorgenommen.

Anmerkung zu den Komposita: Anhand der Wortliste können die Komposita (auch die ad-hoc-Komposita bzw. die elliptischen Konjunktionskomposita) unabhängig von dieser Darstellung für die Spracherkennung bzw. für die linguistische Analyse bei Bedarf weiter zerlegt werden.



next up previous contents
Next: Parameter Up: No Title Previous: Usage



Daniela Steinbrecher
Wed Dec 20 14:53:20 MET 1995