Was ist ein Thesaurus und wie wird er erstellt?

Download Report

Transcript Was ist ein Thesaurus und wie wird er erstellt?

Was ist ein Thesaurus und
wie wird er erstellt?
Elke Pürzer, 31. Mai 2007
Proseminar „Projektorientiertes wissenschaftliches Arbeiten“
CIS, SS 2007
Etymologie „Thesaurus“
The|sau|rus der; -, Plur. ...ren u. ...ri < über lat. thesaurus aus gr. thēsaurós
„Schatz(kammer)“, eigentl. „Ort zum Einsammeln und Aufbewahren“, zu
tithénai, vgl. These>: 1. Titel wissenschaftlicher Sammelwerke, bes. großer
Wörterbücher der alten Sprachen. 2. alphabetisch u. systematisch geordnete
Sammlung von Wörtern eines bestimmten [Fach]bereichs. 3. (in der Antike)
kleineres Gebäude in einem Heiligtum zur Aufbewahrung von kostbaren
Weihgaben.
Duden, Das große Fremdwörterbuch
Erster Thesaurus
Synonymwörterbuch von P.M. Roget 1852: „Thesaurus of English Words and Phrases“
Gemeinsamkeiten mit heutigem Thesaurus:
• Wie finde ich den richtigen Ausdruck?
• Hierarchische und assoziative Beziehungen
• Synonyme
Thesaurus nach DIN 1463
Ein Thesaurus im Bereich der Information und Dokumentation ist eine
geordnete Zusammenstellung von Begriffen und ihren (vorwiegend
natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum
Indexieren, Speichern und Wiederauffinden dient. Er ist durch folgende
Merkmale gekennzeichnet:
a) Begriffe und Bezeichnungen werden eindeutig aufeinander bezogen
(„terminologische Kontrolle“), indem
– Synonyme möglichst vollständig erfasst werden,
– Homonyme und Polyseme besonders gekennzeichnet werden,
– für jeden Begriff eine Bezeichnung (Vorzugsbenennung,
Begriffsnummer oder Notation) festgelegt wird, die den Begriff eindeutig
vertritt
b) Beziehungen zwischen Begriffen (repräsentiert durch ihre Bezeichnungen)
werden dargestellt.
Thesaurus-Normen
Deutsches Institut für Normung e.V.
DIN 1463 Teil 1: Erstellung und Weiterentwicklung von Thesauri – Einsprachige Thesauri, 1988
DIN 1463 Teil 2: Erstellung und Weiterentwicklung von Thesauri – Mehrsprachige Thesauri, 1993
International Organization for Standardization
ISO 2788: Guidelines for the establishment and development of monolingual thesauri, 1986 (E)
ISO 5964: Guidelines for the establishment and development of multilingual thesauri, 1985 (E)
Thesaurus: The vocabulary of a controlled indexing language, formally organized so that the a
priori relationships between concepts (for example as "broader" and "narrower") are made explicit.
ANSI/NISO Z39.19-2005
American National Standards Institute/ National Information Standards Organization: Guidelines
for the Construction, Format, and Management of Monolingual Controlled Vocabulary
A controlled vocabulary arranged in a known order and structured so that the various relationships
among terms are displayed clearly and identified by standardized relationship indicators.
Relationship indicators should be employed reciprocally.
Begriffsklärung
Begriffe sind gedankliche Abbildungen von Gegenständen. Sachen, Vorgängen, Ideen,
usw. Sie können nicht direkt zwischen Personen ausgetauscht werden, deshalb wird
jedem Begriff eine Benennung zugeordnet. Eine Benennung ist also ein Name, eine
Bezeichnung, eine Kennzeichnung eines Begriffs. In der Dokumentation redet man
einfach von Wörtern (englisch: terms), Thesauruswörtern, Thesauruseingängen oder
Eingängen.
Äquivalenzklasse: Zusammenfassung eng verwandter Begriffe, zwischen denen ein
Ordnungssystem nicht unterscheiden kann. (Beispiel: Araberpferd, Berberpferd,
Brauner, Fohlen, Hengst, Lippizaner, Islandpony, Kaltblut, Ross, Schimmel usw.)
Vorzugsbenennung (Deskriptor): Jede Äquivalenzklasse erhält eine Vorzugsbenennung, die alle in einer Äquivalenzklasse zusammengefassten Begriffe
repräsentiert (Beispiel: Pferd). Sie dienen als Gebrauchsvokabular, das für
Indexierung und Retrieval zugelassen ist.
Nicht-Vorzugsbenennung (Nicht-Deskriptor):
Alle anderen Elemente der Äquivalenzklasse haben den Status von NichtVorzugsbenennungen. Sie sind Bestandteil des Zugangsvokabulars, die selbst
nicht für Indexierung und Recherche verwendet werden, aber auf den
entsprechenden Deskriptor verweisen.
1.1
•
•
•
•
•
•
•
•
•
Systembezug (nach DIN 1463)
Sachgebiet klar abgrenzen (mit Schwerpunkten und Randgebieten)
Stand der dokumentarischen Erarbeitung des Sachgebiets
Umfang des Thesaurus abschätzen: Vokabularumfang, Zahl der
Äquivalenzklassen und Nicht-Deskriptoren (abhängig von der inhaltlichen
Breite des Gebiets und vom Zuwachs an Dokumenteneinheiten)
Spezifität: Welchen Grad an Genauigkeit oder Allgemeinheit sollen die
Begriffe erreichen? (abhängig von der Größe des Gebiets)
Art der Dokumentationseinheiten klären
Anzahl der jährlich zu bearbeitenden Dokumentationseinheiten abschätzen
Art und Anzahl der Suchfragen abschätzen
Sprachstil: mehr wissenschaftlich oder auch für Nicht-Fachleute
Schwerpunkt des Ordnungssystems alphabetisch oder systematisch
1.2
Wörtersammlung und Bezeichnungskontrolle
Geeignete Quellen zur Vokabularsammlung (nach DIN 1463):
•
•
•
•
•
•
•
•
•
•
•
Potentielle Benutzer und Fachleute
Nationale und internationale Fachwörterbücher und Normen
Aktuelle Fachliteratur
Terminologische Abhandlungen oder Bezeichnungslisten
Existierende Thesauri oder klassifikatorische Systeme
Nomenklaturen
Register zu Fachzeitschriften
Sachwortverzeichnisse von Lehrbüchern, Handbüchern und
Standardwerken
Referatedienste
Ergebnisse experimentellen Indexierens von Dokumenten
Freitextsuche, Suchfragen und Bedarfsmeldungen von Benutzern
1.2
Wörtersammlung und Bezeichnungskontrolle
Eignung der Wörter als Deskriptoren prüfen
•
•
•
•
•
Häufigkeit ihres Vorkommens in der Literatur
Häufigkeit ihres Vorkommens in Suchfragen
Verwandtschaft mit bereits akzeptierten Deskriptoren
Übereinstimmung mit aktueller Terminologie
Wirksamkeit bzgl. des Bedeutungsumfangs
Vorgehen
•
•
•
•
Entwurf einer Grobklassifikation, der die Bezeichnungen zugeordnet werden
Erfassung jedes Elements nach einem einheitlichen Schema:
Bezeichnung, Quellen, Zuordnung zur Grobklassifikation, Status (Deskriptor oder
Nicht-Deskriptor), evtl. Definitionen, formale Anpassungen (Vereinheitlichung von
Singular/Plural, Auflösung von Abkürzungen)
Aufnahme von Deskriptoren-Kandidaten, die vorläufig aufgenommen werden und
dann die Kontrollen durchlaufen
Zusätzlich alphabetische Sortierung
1.3
1.3.1
Terminologische Kontrolle
Synonymproblem und -kontrolle
Zwei oder mehr Bezeichnungen repräsentieren die gleiche begriffliche Einheit.
Problem der Synonymie kann dazu führen, dass für die Suchfrage relevante Dokumente nicht
gefunden werden, wenn der Deskriptor z.B. als „Karzinom“ indexiert und unter „Krebs“ gesucht wird.
Vollsynonyme
• Schreibweisenvarianten: Grafik – Graphik
• Kurzform und Vollform: Bus – Omnibus
• Abkürzungen und Volltext: VW – Volkswagen
• Regionale oder zeitliche Sprachunterschiede: Vesperbrot – Jause, Samstag – Sonnabend
• Fremdsprachliche Ausdrücke: Gehweg - Trottoir
• Allgemein- und fachsprachliche Unterschiede: Leberentzündung – Hepatitis
Quasisynonyme
•
•
•
•
•
Begriffe mit feinem Bedeutungsunterschied: Pferd – Gaul, Frau – Weib, Dauer – Zeit
Erscheinungen des gleichen Phänomens: Rauhheit – Glätte
Gegensätze: Spannungsabhängigkeit – Spannungsunabhängigkeit
Gleichsetzung von Ober- und Unterbegriff: Nachschlagewerk – Lexikon
Zuordnung von Namen: Senat von Berlin – Landesregierung
Teilsynonyme
•
•
Begriffe, die im Wesentlichen übereinstimmen, aber nicht ganz identisch sind:
Rad – Fahrrad, Holland – Niederlande
1.3.1
Synonymproblem und -kontrolle
Kontrolle der Synonymie durch:
•
•
•
•
•
•
Zusammenfassung der Benennungen zu Äquivalenzklassen und Wahl einer
Vorzugsbenennung (Deskriptor), alle anderen Bezeichnungen/Synonyme gelten
dann als Nicht-Vorzugsbenennungen (Nicht-Deskriptoren) und verweisen auf die
Vorzugsbenennung.
Äquivalenzverweis von der Nicht-Vorzugsbenennung zur Vorzugsbenennung,
z.B. Araberpferd  Pferd und Pferd  Araberpferd bilden ein Verweispaar
(man kann also nach beiden Begriffen suchen und nicht nur nach dem
Deskriptor)
Alle Benennungen bilden eine eigene Äquivalenzklasse und sind gleichberechtigt
in Indexierung und Retrieval.
Systematisches Anordnen, so dass die sachlich verwandten Begriffe erkennbar
werden
Beschränkung auf fachsprachliche Ausdrücke
Synonymbrücken (implizite Äquivalenzklassen), d.h. ein Verzeichnis, welche
Benennungen synonym sind
1.3.2
Polysemproblem und -kontrolle
Eine natürlichsprachliche Bezeichnung repräsentiert mehr als eine begriffliche Einheit.
Das Problem der Polysemie kann dazu führen, dass zu viele und unrelevante Dokumentationseinheiten
selektiert werden.
Homonyme
• Homophone: Lehre – Leere, Mohr – Moor
• Echte Homographen (ehemals gemeinsame Sprachentwicklung): Tenor – Tenor
• Unechte Homographen (nicht mehr erkennbare gemeinsame Sprachentwicklung):
Stift – Bleistift oder Altersheim
Polyseme (unterscheiden sich weder in Schreib- noch Sprechweise)
•
•
•
•
Allgemeinsprachlich: Tau – Tau
Allgemein- und Fachsprache: „Masse“ allgemeinsprachlich oder in der Physik
Zwischen benachbarten Fachgebieten oder innerhalb von Fachgebieten
Allgemeinwörter (Wörter mit unspezifischer Bedeutung), die in Verbindung mit
anderen Wörtern die unterschiedlichsten Bedeutungen haben können: Anlage –
Erbanlage/ Parkanlage, System – Nervensystem/ Verteidigungssystem
1.3.2
Polysemproblem und -kontrolle
Kontrolle der Polysemie durch:
•
•
•
•
•
•
Thematische Begrenzung der Dokumentation (der Kontext klärt die
Bedeutung)
Systematisches Anordnen, so dass die sachlich verwandten Begriffe
erkennbar werden
Sichtbarmachen der hierarchischen Begriffsstrukturen
Zufügen von spezifizierenden Zusätzen (Qualifikatoren), z.B.
Morphologie (Biologie), Morphologie (Sprachwissenschaft)
Beibehaltung nur eines Bedeutungsteil und Ausschluss der anderen
Ersetzung der verschiedenen Bedeutungsteile durch Synonyme, z.B.
Boxen: Boxsport – Stereoboxen
1.3.3
Zerlegungsproblem und -kontrolle
Zur Vermeidung von überlangen Komposita und adjektivischen Phrasen werden
komplexe Termini nicht in ihrer vollständigen Form in den Thesaurus aufgenommen,
sondern eine festgelegte Kombination von bereits im Thesaurus vorhandenen
Deskriptoren.  Semantische Zerlegung eines Begriffs in Begriffskomponenten (nicht
in Wortteile), so dass die Kombination der zerlegten Bestandteile wieder den Begriff
des zusammengesetzten Wortes ergibt (es soll eine semantische Zerlegung
stattfinden, keine morphologische).
Vorteil: Ohne die Anzahl der Äquivalenzklassen zu erhöhen, wird durch die
Kombination bereits vorhandener Deskriptoren eine Bereicherung des
Zugriffsvokabulars erreicht.
Probleme:
- Entstehung falscher Kombinationen bei der „Rückübersetzung“ der zerlegten Teile
- Kompliziertere Thesaurusstruktur
- Bei jeder Suche von nur einem der Teile werden auch alle anderen indexierten
Dokumente mitgefunden.
1.3.4
Begriffliche Kontrolle
Nach der terminologischen Kontrolle (der Bildung von isolierten Äquivalenzklassen) werden nun bei
der begrifflichen Kontrolle Beziehungen zwischen den Begriffen gebildet, aus denen dann ein
semantisches Netz über den gesamten Thesaurus entsteht. Auf diese Weise sollen alternative und
möglicherweise treffendere Begriffe gefunden werden, die zu besseren Ergebnissen bei Indexierung
und Retrieval führen.
Sichtbarmachen der Bedeutungsverschiebungen für den Benutzer zwischen
•
•
•
impliziter (gelernter, erfahrener) und expliziter (in Lexika, Wörterbüchern
dargestellte) Bedeutung
natürlichsprachlicher und dokumentationssprachlicher Bedeutung
fachsprachlicher und dokumentationssprachlicher Bedeutung
Zur begrifflichen Kontrolle dienen
•
•
•
•
Definitionen (natürlichsprachliche Bedeutungsdarstellung)
Erläuterungen (dokumentationssprachliche Bedeutungsdarstellung, z.B. wenn
Benennungen in verschiedenen Fachbereichen gebräuchlich sind)
Äquivalenzbeziehungen
Assoziative Begriffsbeziehungen
1.3.5
Orientierungsfunktion
Ordnen des Thesaurus nach Bezeichnungen, d.h. alphabetisch oder nach
begrifflichen Einheiten, d.h. systematisch. Beide Formen sind komplementär, d.h. es
sollte trotzdem ein Register in der nicht gewählten Form angelegt werden.
Der systematische Teil muss übersichtlich sein und eignet sich daher nicht für eine
große Anzahl an Begriffen. Thesauren mit mehr als 100 Seiten oder mehr als 1000
Deskriptoren sollten alphabetisch angeordnet sein.
Systematischer Teil eines Thesaurus:
•
•
•
Anordnung der Deskriptoren nach Grobordnung zur schnellen Orientierung oder
nach Feinordnung, die alle Äquivalenzklassen zueinander in Beziehung setzt.
Meist monohierarchische Anordnung dargestellt durch Notation oder
Einrückungen
Innerhalb der Äquivalenzklassen werden die Einträge dann wieder alphabetisch
geordnet
2
Thesaurusstruktur
Thesaurus ohne Vorzugsbenennung
Alle Elemente der Äquivalenzklasse werden gleich behandelt und können für Indexierung
und Retrieval genutzt werden. Die Äquivalenzklasse wird von einer Begriffsnummer
repräsentiert, die das Bindeglied zwischen den verschiedenen Bezeichnungen bildet.
Vorteil:
Nachteil:
- Verwendung aller Bezeichnungen für die Suche,
- schnelle Änderungen möglich
- sprachnormierender Charakter geht verloren
- Fehlinterpretationen passieren leichter
Thesaurus mit Vorzugsbenennung
• Jede Äquivalenzklasse erhält eine Vorzugsbenennung (Deskriptor), die alle in
einer Äquivalenzklasse zusammengefassten Begriffe repräsentiert.
•
Alle anderen Elemente der Äquivalenzklasse haben den Status von NichtVorzugsbenennungen. (Sie sind Bestandteil des Zugangsvokabulars und
verweisen auf den entsprechenden Deskriptor.)
2.1
Deskriptoren
Arten von Deskriptoren
•
•
•
Allgemeinbegriffe für eine Klasse von Gegenständen (materiell oder nichtmateriell)
Individualbegriffe für individuelle Einheiten wie Personen, Institutionen usw. (Namen)
Begriffe von Objektklassen, z.B. Nomenklaturen wie Tiere, Pflanzen, chemische
Verbindungen, Anatomie, Artikelnamen usw. (Quasi-Namen)
Namen und Quasi-Namen sollten im Thesaurus wie Benennungen behandelt werden und bei einer
Grobordnung als eigene Grobgruppen zusammengefasst werden.
Allgemeinwörter
•
•
zu allgemein, um für sich allein stehend konkrete Sachverhalte zu beschreiben, z.B.
Analyse, Planung, System usw.
schwer zu definieren, oft Bezeichnungen großer Fachgebiete wie Biologie, Chemie
usw.
Ohne sie müsste man jedoch zu viele Deskriptoren schaffen, um die verschiedenen Aspekte eines
Deskriptors umfassend darzustellen. Man schafft deshalb eine Grobgruppe „Allgemeinwörter“, in die
alle Wörter eingeordnet werden, die nicht zum Fachvokabular gehören, die man aber für die inhaltliche
Erschließung braucht. Sie werden innerhalb der Gruppe alphabetisch geordnet.
2.1
Deskriptoren
Anforderungen an Deskriptoren
•
•
•
•
•
•
genau und präzise: möglichst genaue Beschreibung der gesamten Äquivalenzklasse
eindeutig: Verwechslungen ausgeschlossen
gebräuchlich: Auszählen der Worthäufigkeiten
prägnant: kurz, leicht verständlich und gut merkbar
angemessene Sprachebene
unkomplizierter Zeichenvorrat
Nicht-Deskriptoren
•
•
Termini, die nicht den Anforderungen an Deskriptoren entsprechen und somit nicht
als Repräsentant einer Äquivalenzklasse verwendet werden, sondern nur als
Zugangsvokabulars, das auf den entsprechenden Deskriptor verweist.
z.B. Synonyme, Quasi-Synonyme, Formvarianten (invertierte Formen), Vollformen,
fremdsprachliche Äquivalente, Polyseme zu großen Allgemeinheitsgrads, komplexe
Benennungen, die semantisch zerlegt wurden
Formale Kriterien sind weniger streng: auch nicht-substantivische, invertierte oder
Plural-Formen sind zugelassen
2.1
Deskriptoren
Formale Kriterien für Deskriptoren (nach DIN 1463)
•
•
•
•
•
•
•
•
Substantivische Form, d.h. nur in Ausnahmefällen Adjektivphrasen, Adjektive (z.B.
sozial, international) und Verben
Nominativ Singular, d.h. Plural nur falls der Singular nicht gebräuchlich oder nicht
vorhanden ist
Natürliche Wortfolge (z.B. alphabetisches Register) oder Aufnahme der invertierten
Form als Synonym (z.B. Register, alphabetisches)
Kurzform falls die Bedeutung allgemein bekannt ist (z.B. Pkw), die Vollform wird als
Nicht-Deskriptor ausgewiesen.
Aufnahme der fremdsprachlichen Benennung falls keine eigensprachlichen
vorhanden
Schreibweise: Groß- und Kleinschreibung, Auflösung von Umlauten in internationalen
Systemen, großzügiges Setzen von Bindestrichen bei mehrgliedrigen Benennungen
Transliteration: im Falle eines anderen Alphabets Anwendung der Transliterationsempfehlungen der International Organization for Standardization (ISO)
Zeichenvorrat: möglichst wenig Satzzeichen, nur runde Klammern und Bindestriche,
Punkte nur für Abkürzungen, keine Kommata, Semikola oder Apostrophe, nur
arabische Ziffern, extra Regeln für die Behandlung von hoch oder tief gesetzten
Zeichen definieren
2.4
Relationen zwischen Deskriptoren
Unerlässliches Kriterium für einen Thesaurus. Darstellung durch folgende Standardkürzeln nach
DIN 1463 und ISO 2788:
Äquivalenzrelationen
BS – Benutze Synonym
BF – Benutzt für
BK – Benutze Kombination
KB – Kombinationsbegriff
Hierarchische Relationen
OB – Oberbegriff
UB – Unterbegriff
OA – Oberbegriff/
Abstraktionsrelation
UA – Unterbegriff/
Abstraktionsrelation
SP – Verbandsbegriff
TP – Teilbegriff
SB – Spitzenbegriff
U/USE – Use synonym
UF – Used for
BT – Broader term
NT – Narrower term
BTG – Broader term (generic)
NTG – Narrower term (generic)
BTP – Broader term (partitive)
NTP – Narrower term (partitive)
TT – Top term
Assoziationsrelationen
VB – Verwandter Begriff
RT – Related term
2.4.1
Äquivalenzrelationen
Darstellung der begrifflichen Relationen innerhalb der Äquivalenzklassen in der Form
von Verweispaaren, d.h. zu jedem Verweis muss es einen Rückverweis geben:
Nicht-Deskriptor
Sonnabend

BS
Deskriptor
Samstag
„Benutze Synonym“ gibt an, zu welcher Äquivalenzklasse die Benennung gehört.
Deskriptor
Samstag

BF
Nicht-Deskriptor
Sonnabend
„Benutzt für“ gibt an, welche Benennungen zu dieser Äquivalenzklasse gehören.
Möglichkeit der Definition eigener Kürzel für weitere Synonym-Kategorien:
• Quasi-Synonyme (weil diese Äquivalenzklassen öfter wieder aufgelöst werden müssen,
wenn Deskriptoren stäker differenziert werden sollen.)
• Rechtschreibsynonyme (Fotografie ─ Photographie)
• Abkürzungen
• Fremdsprachliche Synonyme
• Deskriptoren anderer Dokumentationssprachen
2.4.1
Äquivalenzrelationen
Sonderfall bei Polysemen: Verweis auf mehrere Deskriptoren, die je nach Kontext unterschiedlich
zu benutzen sind.
Morphologie
BS
BS
Morphologie (Biologe)
oder
Morphologie (Sprachwissenschaft)
Bei semantischer Zerlegung: Verweis von einem unzerlegten Nicht-Deskriptor auf mindestens
zwei Deskriptoren.
BK
„Benutze Kombination“
KB
„Kombinationsbegriff“
Luftgekühlter Elektromotor
Luftkühlung
Elektromotor
BK
KB
KB
Luftkühlung + Elektromotor
Luftgekühlter Elektromotor
Luftgekühlter Elektromotor
Ersetzen eines allgemeinen Begriffs durch einen spezifischeren Unterbegriff:
BSU
BFO
„Benutze spezifischen Unterbegriff“
„Benutzt für spezifischen Oberbegriff“
Naturwissenschaft
BSU
Biologie
BFO
Biologie
Chemie
Physik
Naturwissenschaft
2.4.2
Hierarchische Relationen
Generische Relation (Abstraktionsrelation)
In DIN 1436 definiert als eine hierarchische Relation zwischen zwei Begriffen, von denen der
untergeordnete Begriff (Unterbegriff) alle Merkmale des übergeordneten Begriffs
(Oberbegriff) besitzt und zusätzlich mindestens ein weiteres spezifizierendes Merkmal.
Baum
Baumstamm
UB
OB
Baumstamm
Baum
„Unterbegriff“
„Oberbegriff“
Obstbaum
Steinobstbaum
UA
OA
Steinobstbaum
Obstbaum
„Unterbegriff Abstraktionsrelation“
„Oberbegriff Abstraktionsrelation“
Partitive Relation (Bestandsrelation)
In DIN 1436 definiert als eine hierarchische Relation zwischen zwei Begriffen, von denen
der übergeordnete (weitere) Begriff (Verbandsbegriff) einem Ganzen entspricht und der
untergeordnete (engere) Begriff (Teilbegriff) einen der Bestandteile dieses Ganzen
repräsentiert.
Baum
Baumstamm
TP
SP
Baumstamm
Baum
„Teilbegriff“
„Verbandsbegriff“
Die meisten Thesauri fassen beide Relationen einfach in der Beziehungsart OB und UB zusammen.
2.4.3
Assoziative Relationen
Nach DIN 1436: Eine Assoziationsrelation ist eine zwischen Begriffen bzw. ihren
Bezeichnungen als wichtig erscheinende Relation, die weder eindeutig hierarchischer
Natur ist, noch als äquivalent angesehen werden kann.
Unspezifische Zusammenfassung von allem, was irgendwie mit dem Ausgangsbegriff
zu tun hat. Sinn ist die Schaffung von Querbeziehungen zu anderen evtl. geeigneten
Deskriptoren und alternativen Einstiegsmöglichkeiten außerhalb des hierarchischen
Thesaurusgefüges.
Obst
Obstbaum
VB
VB
Gerichtete Beziehungen:
• Genetische Beziehungen (Vater/Sohn)
• Vorgänger-Nachfolger-Beziehungen
• Urheber-Verursacher-Beziehungen
• Materialbeziehungen (Holz/Tisch)
• Kausalbeziehungen (Lehren/Lernen)
• Zeitlicher Zusammenhang
Obstbaum
Obstbaum
„Verwandter Begriff“
Ungerichtete Beziehungen:
• Gegensatz (Härte/Weichheit)
• Gleichordnung (Dieselmotor/Ottomotor)
• Ähnlichkeit (Form: Kugel/Ball, Herkunft:
Rohseide/Kunstseide)
• Gemeinsamkeiten
3
Thesaurus-Hauptteil
3.1 Deskriptorensatz
Zusammenfassung der verschiedenen Relationen und sonstiger Angaben zur Äquivalenzklasse im
Deskriptorensatz. Für jede Benennung ist eine derartige „Wortkarte“ auszufüllen.
Ordnungsmerkmale
•
Zuteilung einer Begriffsnummer zum Deskriptorensatz
•
Einführung einer Notation (Identifikationskennzeichen eines Deskriptors bei größeren Thesauri)
Benennung
•
Deskriptor (BF)
•
Nicht-Deskriptor (BS/BK)
•
Homonym-Zusätze
Übersetzungen
•
z.B. englisch
•
z.B. französisch
•
andere Sprachen
Begriffsbeziehungen
•
Synonyme (BS)
•
Quasi-Synonyme (BS/BK)
•
Vorzugsbenennung bzw. Kombination von Einzeldeskriptoren (BK)
•
Oberbegriffe (OB)
•
Unterbegriffe (UB)
3.1
Deskriptorensatz
Fortsetzung
Begriffsbeziehungen
•
Oberbegriffe (Abstraktionsrelation) (OB)
•
Unterbegriffe (Abstraktionsrelation) (UB)
•
Oberbegriffe (Partitive Relation) (SP)
•
Unterbegriffe (Partitive Relation) (TP)
•
Verwandte Begriffe (assoziative Relation) (VB)
Zusätzliche Informationen
•
Definition mit Quellenangabe
•
Zusätze und Erläuterungen (Scope Notes)
•
Fundstelle der Benennung
•
Häufigkeitsangaben
•
Angaben zur Konkordanz mit anderen Systemen
Bearbeitungsvermerke
•
Bearbeiter
•
Einführungs- oder Änderungsdatum
•
Überarbeitungsvermerke
3.2
Thesaurus-Manual
Nach DIN 1463 sollte die Benutzerversion folgendes enthalten (extra Manuale für
Thesaurus-Bearbeiter und professionelle Benutzer wie z.B. Indexierer):
•
•
•
•
•
•
•
•
•
•
•
Benennung, Erläuterung und Abgrenzung des Sachgebiets
Angaben für welchen Benutzerkreis und Verwendungszweck der Thesaurus erstellt
wurde
Ordnungsprinzip und Regeln nach denen der Thesaurus erstellt wurde
Erläuterung aller auftretenden Wort- und Verweistypen anhand von Beispielen
Angabe der Methoden und Quellen bei der Auswahl und Normierung der Deskriptoren
Aufbau der Notation erläutern, falls vorhanden
Verzeichnis der Abkürzungen
Allgemeine Anleitung für den Gebrauch des Thesaurus (wie man beim Indexieren und
Formulieren der Suchfragen vorgehen muss)
Statistische Angaben über den Thesaurus selbst (Anzahl der Deskriptoren, NichtDeskriptoren und Verweispaare)
Erstellungsdatum des Thesaurus und beabsichtigtes Weiterentwicklungsdatum sowie
Angaben, wer wann welche Revision durchgeführt hat
Angaben zu Bezugsquelle, Copyright und Dateiformat
3.3
Thesaurus-Hauptteil
Teil des Thesaurus, der alle Angaben zu einem Begriffssatz enthält. Es gibt zwei Möglichkeiten die
Deskriptoren zu ordnen. Sinnvoll ist die Vergabe laufender Deskriptorennummern, einer Notation oder
beides.
Alphabetische Anordnung der Deskriptoren
•
•
•
Geeignet für größere Thesauri mit umfangreichen Begriffssätzen
Für Thesauri mit Vorzugsbenennung
Vorteile:
- Neueinfügungen sind leichter zu organisieren
- Alphabetische Suchvorgänge führen schneller zum Ziel
Systematische Anordnung der Deskriptoren
•
•
•
Geeignet für kleinere Thesauri und Thesauri mit weniger Angaben zu den Deskriptoren
Zwei Varianten:
- Grobsystematische Anordnung: Zusammenfassung der Deskriptoren nach
Hauptgruppen und innerhalb der Hauptgruppen alphabetisch
- Feinsystematische Anordnung: klassifikatorische Einordnung jedes Deskriptors
Vorteile:
- Schnellere Übersicht möglich (Visualisierung durch Beziehungsgraphen
wie Liniendiagramme, Gruppendiagramme, Flächendiagramme,
Koordinatendiagramme)
- Systematische Suchprozeduren gehen schneller
3.3
Thesaurus-Hauptteil
Polyhierarchien
Thesauri sind meist polyhierarchisch strukturiert, d.h. ein Begriff kann mehrere
Oberbegriffe bzw. mehrere Unterteilungsgesichtspunkte haben.
•
Systematische Anordnung im Hauptteil wird erschwert, weil
Deskriptorensätze mehrfach erscheinen und viele Verweise nötig sind.
•
Keine expliziten Vorschriften in der DIN-Norm dazu vorhanden.
•
Gute Reihenfolge bei mehreren Über- und Unterordnungen: generisch 
partitiv  verwandt  sonstige
4
Erstellung eines Thesaurus
4.1 Arbeitsablauf
Kürzeste und prägnanteste Darstellung in DIN 1463:
Systemkonzipierungsphase
• Systemkonzept des Thesaurus wird erarbeitet
• Quellen und bereits existierende Dokumentationssprachen müssen betrachtet
werden
• Entwurf der Thesaurus-Konzeption
Sammelphase
• Quellen für die Wörtersammlung bestimmen
• Kriterien für die Auswahl der Wörter festlegen
• Erfassungsschema festlegen
• Alphabetische Sortierung der Wörter
Bewertungsphase
• Vereinigung gleicher Benennungen
• Bildung von Äquivalenzklassen
• Aussonderung fachlich nicht-relevanter Benennungen
Kontrollphase
• Terminologiekontrolle: Ausscheiden zu allgemeiner Benennungen, Entscheidung über
Vorzugsbenennungen, Differenzierung von Polysemen
4
Erstellung eines Thesaurus
4.1 Arbeitsablauf
Fortsetzung:
Strukturierungsphase
• Festlegen der Begriffsbeziehungen
• Semantische Zerlegung und Spezifizierung von Allgemeinwörtern
• Wörter auf Konsistenz und Vollständigkeit prüfen
• Bedeutungsunklarheiten beseitigen
Testphase
• Testversion des Thesaurus erarbeiten
• Erprobung durch Indexierungs- und Retrievaltests
Validierungsphase
• Testergebnisse zusammenstellen und auswerten
• Entscheidungen und Änderungen planen
Praxisphase
• Einsatz des Thesaurus in der Praxis
• Sammlung von Kommentaren
Fortschreibung
• Berücksichtigung der Praxiserfahrungen, der freien Indexierung und der weiteren
Entwicklung des Thesaurus
4.2
Organisation der Thesaurus-Arbeit
Voraussetzungen
•
•
•
•
•
•
•
Fachwissen
Linguistische Kenntnisse
Thesauruswissen und -erfahrung
Wissen über die zu indexierenden Quellen
Wissen über potentielle Nutzer
EDV-Kenntnisse
Kombiniertes Sach- und Sprachwissen bei fremdsprachlichen Arbeiten
Teamarbeit
•
•
•
•
Permanenter Stab für: Erstellung von Richtlinien und Arbeitsunterlagen,
Verwaltungsaufgaben, Kontakte
Externe Experten für die fachlichen Arbeiten: Deskriptorenauswahl, Bildung von
Äquivalenzklassen (Schulung der Experten in thesaurustechnischen Fragen)
Entscheidungsgremium, Redaktionskommission: Entscheidung fachlicher und
methodischer Streitfragen
Gutachter für Spezialprobleme
4.2
Organisation der Thesaurus-Arbeit
Anwendungstests
1.
2.
3.
4.
Auswahl einer ausreichenden Anzahl an Dokumenten, die einen repräsentativen
Querschnitt des Fachgebiets darstellen, indexieren und einspeichern
Echte oder simulierte Suchfragen formulieren und Probespeicher danach durchsuchen.
Man sollte bei einigen Suchfragen wissen, welche Dokumente gefunden werden
müssten.
Einarbeitung der Ergebnisse und Erfahrungen
Queckliste (folgende Fragen sollen geklärt werden):
•
•
•
•
•
•
•
•
Entsprechen Struktur und Umfang des Thesaurus den praktischen Erfordernissen?
Ist die Terminologie angemessen (Fachsprache – Umgangssprache)?
Sind die Deskriptoren zur Indexierung und zum Retrieval geeignet?
Kann ausreichend tief verschlagwortet werden?
Gibt es mehr Einträge zum Kerngebiet des Thesaurus und weniger zu den
Randgebieten?
Ist der Thesaurus erweiterungsfähig?
Sind die dargestellten Begriffsbeziehungen richtig und ausreichend?
Sind die Darstellungsformen benutzerfreundlich?
4.2
Organisation der Thesaurus-Arbeit
Thesaurus-Pflege
•
•
•
•
•
In regelmäßigen Abständen durchführen
Laufende Beobachtung: aktueller Stand der Forschung, fachsprachliche
Entwicklung, Indexierungsverhalten, Benutzerverhalten
Gebrauch eines Kandidatenvokabulars zwischen den Revisionen
Überprüfung des Wortguts:
- Löschung unbenutzter Deskriptoren
- Erweiterung häufig benutzter Deskriptoren
- Ergänzung fehlender Deskriptoren
- Löschung von veraltetem Zugangsvokabular
- Ergänzung fehlender Relationen
- Entfernung von Überhierarchisierungen
Vorteile von Thesaurus-Software:
- Automatische Erzeugung der reziproken Einträge
- Verhinderung von Doubletten
- Verhinderung logischer/struktureller Fehler (Plausibilitätskontrolle)
- Direkte Ausführung einer Korrektur in allen betroffenen Deskriptorensätzen
4.2
Organisation der Thesaurus-Arbeit
Druck und Anzeigepflicht
•
•
DIN 1463 enthält keine Empfehlungen zum Druck von Thesauri.
DIN 1463 sieht vor, die Fertigstellung eines Thesaurus der zuständigen
Sammelstelle und anderen Fachinformationszentren und Informationsdiensten zu
melden sowie für eine möglichst breite Publikation zu sorgen.
Thesaurus-Typen
Vorschlag vom Komitee Terminologie und Sprachfragen der DGD (Deutsche Gesellschaft für
Dokumentation) heute DGI (Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis),
um die Vielfalt zu systematisieren.
•
•
•
•
•
Merkmal Thesaurusform (alphabetisch oder systematisch)
Merkmal Thesaurusinhalt (Fachgebiet, bestimmte Aufgabe, Dachthesaurus,
Hilfsthesaurus)
Merkmal Deskriptoren (Benennungsthesaurus, Nummernthesaurus,
Bildzeichenthesaurus, Mischthesaurus)
Merkmal Relation (einfach strukturierter Thesaurus, komplex strukturierter
Thesaurus)
Merkmal Sprache (mehrsprachige Thesauri)
Literatur
American National Standards Institute/ National Information Standards Organization: Guidelines for
the Construction, Format, and Management of Monolingual Controlled Vocabulary. ANSI/NISO Z39.192005.
Buder, M.; Regfeld, W.; Seeger, T; Strauch, D. (Hrsg.): Ein Handbuch zur Einführung in die fachliche
Dokumentationsarbeit. Begründet von Laisiepen, K.; Lutterbeck, E.; Meyer-Uhlenried, K.-H., 4. völlig
neu gefasste Ausgabe München 1997.
Duden, Das große Fremdwörterbuch: Herkunft und Bedeutung der Fremdwörter, hrsg. vom
Wissenschaftlichen Rat der Dudenredaktion. Mannheim 2000.
Gaus, Wilhelm: Dokumentations- und Ordnungslehre. Theorie und Praxis des Information Retrieval,
4.Aufl. Berlin 2003.
Laisiepen, K.; Lutterbeck, E.; Meyer-Uhlenried, K.-H.: Grundlagen der praktischen Information und
Dokumentation. Eine Einführung. 2. Aufl. München 1980.
Ockenfeld, Marlies: Vom Stichwort zum Thesaurus. Fraunhofer-Institut für Integrierte Publikations- und
Informationssysteme IPSI. Darmstadt 2007.
Wersig, Gernot: Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis.
München 1978.