1 Motivation

Dokumente stehen häufig zueinander in Beziehung. Um diese Beziehungen explizit und zugänglich zu machen, benötigen Programme Informationen, nach denen Dokumente klassifiziert, gruppiert und sortiert werden können.

Beispiele für Relationen zwischen Dokumenten sind dabei etwa:

Kohärenzrelationen können dabei explizit angegeben werden, etwa durch gerichtete Verbindungen ((Hyper-)Links), die sowohl unidirektional (von einem Dokument auf ein anderes, ohne dass das Zieldokument einen Verweis auf das Ausgangsdokument beinhaltet) als auch bidirektional (d.h. Verweise von Quell- auf Zieldokument und anders herum) ausgeprägt sein können. Zusätzlich können diese Verbindungen auch eine Typisierung erfahren (z.B. ,,relates to``, ,,not related to``, meronymische und taxonymische Relationen, Querverweise). Als Formalismus steht (11) als W3C Standard zur Verfügung.

Ähnlichkeitsrelationen werden durch die Angabe potentieller Gemeinsamkeiten möglich, etwa

Diese Relationen werden insbesondere im Bereich der Archivierung von Korpora benutzt, da sie nicht die direkte Referenz von Dokumenten zueinander angeben. Es handelt sich also um Metadaten über die Dokumente, nicht um Informationen der Dokumente selbst, obwohl Metadaten direkt im Korpus vorhanden sein können.

Sie werden benutzt zum

Für Korpora sind dabei besonders Ähnlichkeitsrelationen von Bedeutung, und dabei die Bereiche der Erfassung und Verwaltung von Metadaten, wozu verschiedene Metadatenstandards und Vorschläge existieren. Ein Vorschlag für die Aufnahme von Metadaten in Korpora wird auf der Grundlage dieser Diskussion gemacht, wobei beachtet wird, wie ein einheitlicher Metadatensatz für linguistische Korpora erstellt werden kann.

Thorsten Trippel 2003-12-08