Grundlagen zu Thesaurus und Textklassifikation

Download Report

Transcript Grundlagen zu Thesaurus und Textklassifikation

Grundlagen zu Thesaurus
Petra Maier
CIS, SS 07
Thesaurus und verwandte
Begriffe
•
•
•
•
•
•
•
„Folksonomy“
Glossar
Kontrolliertes Vokabular
Ontologie
Taxonomie, Klassifikationsschema
Thesaurus
Topic Maps
Folksonomy
• „Gemeinschaftliches Indexieren (englisch collaborative tagging oder
social tagging) ist eine Form der Indexierung (meist als tagging
bezeichnet), bei der Deskriptoren (Schlagwörter, tags) durch eine
größere Gruppe und mit Hilfe verschiedener Arten Sozialer Software
zugeordnet werden. Die Indexierer kommen dabei spontan in offenen
Gemeinschaften zusammen, ohne dass vorher detaillierte
Indexierungsregeln festgelegt worden sind. Indexierte Objekte sind
beispielsweise Lesezeichen (Soziale Lesezeichen), Blogeinträge oder
Fotos. Die durch gemeinschaftliches Indexieren erstellten Sammlungen
von Tags werden auch als Folksonomien (Kofferwort aus engl. folk
und taxonomy) bezeichnet. “ (Wikipedia)
• FlickR
Glossar
• Zusammenstellung der verwendeten
Fachbegriffe
• Definition der Begriffe
• Bezogen auf best. Fachbereich oder
bestimmtes Objekt (z.B. Buch)
Glossar
• Alpha-Version Vorabversion einer Software, die
noch nicht den vollen Funktionsumfang hat. Siehe
auch: Beta-Version
• Alphakanal Nicht sichtbarer Farbkanal in
Rastergrafiken mit 32-Bit, der für Transparenz und
Überlagerungen verwendet wird.
• AltaVista Beliebter Suchservice im Internet, in
englischer Sprache und auch in deutscher Sprache
verfügbar. Siehe auch: AltaVista, Lycos, Yahoo Siehe
auch: Lycos, Yahoo
• AM AM bezeichnet eine öffentliche Nachricht
(allgemeine Mail) in einem Netz. In der Funktechnik
steht AM für Amplituden-Modulation.
Kontrollierte Vokabularien
•
•
•
•
Spezifisches Vokabular eines Fachgebiets
Systematisch erfasst
Nicht notwendig strukturiert
Anwendung: Verschlagwortung,
Klassifikation
• Ziel: Vereinheitlichung der Terminologie
Canadian Immigration and
Citizenship Indexing Terms
Adoption orders
FRA: Ordonnance d'adoption
SN: Use to describe a document issued by a governmental authority that
establishes that an adoption was in accordance with the laws of the country in
which it took place and the laws of the country of residence of the adopting
citizen.
ADR
USE: Alternative dispute resolution mechanism
Adult education
USE: Continuing education
Adult grants
USE: Grants of citizenship
Adults
FRA: Adulte
SN: Up to February 15, 1977 a minor was a person under 21 years of age and
after this date a minor is a person under 18 years of age.
Ontologie
• Erfassung und Strukturierung eines
Fachgebiets
• Erfassung nach Konzepten
• Wissensrepräsentation
• Relationen sind selbst Konzepte
• Logische Folgerungen!
Ontologie
Taxonomie
• Klassifikationssystem
• Normalerweise hierarchisch strukturiert
• Bezeichner (= Deskriptoren) sind nicht notwendig
natürlichsprachliche Wörter/Phrasen
• Keine Repräsentation lexikalischer Relationen
• Inhaltliche, hierarchische Strukturierung eines
Fachgebiets
• Einteilung in Kategorien muss operationalisierbar
sein!
Biologische Taxonomie
Deweys Dezimalklassifikation
• Im Extremfall sind die Knoten einer
Taxonomie numerisch!
• CyberDewey
Thesaurus
• "The vocabulary of a controlled indexing
language, formally organized so that the
a priori relationships between concepts
(for example as "broader" and
"narrower”) are made explicit" (ISO
2788, 1986:2)
Anwendungen
• Verschlagwortung
• Indexierung
• Information Retrieval:
– Query Expansion
– Clustering
– Informations-Extraktion
• Autom. Klassifikation
Topic Maps
• Semantische Netzwerke
• Enthalten die Assoziationen zu den
Instanzen
• Topics – Associations – Occurrences
• ISO Standard, XML Standard
Topic Maps
Wichtige Unterschiede
• Vokabulargetrieben:
– Kontrolliertes
Vokabular
– Glossar
– Thesaurus
• Konzeptgetrieben:
–
–
–
–
Folksonomy
Taxonomie
Ontologie
Topic Map
Semantische Komplexität