Taxonomie en ontsluiting

Download Report

Transcript Taxonomie en ontsluiting

Workshop Taxonomie en ontsluiting
1.
Retrieval en Ordening
2.
Zoeken en Browsen
3.
Alfabetisch en Systematisch
4.
Thesaurus en Classificatie
5.
Aristoteles en Gebruiker
6.
Taxonomie en Autonomy
7.
Breed+plat of Diep+smal

Retrieval
Google
 Copernic DT Search
 ….


Ordening?

Search en Browse

Portals
Documenten

Ontwikkeling

 Onderzoek
 Inhoud en gebruiker
 Functioneel ontwerp
 Bouw
 Toepassing


Alfabetisch
Systematisch






Chronologisch
Evolutionair
Hiërarchisch
(Gebruik)
(Fysieke kenmerken)
…













Vervoer van kalveren
Paardenraces
Dierverzorging
Huisdieren
Paarden
Geiten
Veevervoer
Paardenmelk
Melk
Geitenmelk
Paardentrailers
Paardenvervoer
Koeien
10 min.


Problemen?
Voor- en nadelen

Alfabetisch:
 …
 …

Systematisch:
 …
 …

Andere

Drie veel voorkomende soorten

Enumeratief (opsommend)
 Tuinieren
 Tuingereedschap
 Tuinontwerp

Hiërarchisch
 Tuinieren
 Biologisch tuinieren
 Modern tuinieren

Facetclassificatie
 Personen (tuinders)
 Plaatsen (tuinen, Europa)
 Middelen (bewerking, bestrijding, ..)

Voorbeelden

Nederlandse basisclassificatie
 5 categorieën, 47 rubrieken, 2250 deelrubrieken
Dewey
 SISO


Voor- en nadelen


Wat is logisch?
Wat is een logische klasse?

Regels voor hiërarchische classificaties
 Eenheid van verdelingskarakteristiek
 Coextensie
 Gradatie
 Collocatie

Aristoteles

Eenheid van verdelingskarakteristiek
 1 kenmerk

Auto’s

(naar merk)
 Ferrari’s
 Porsches

(naar kleur)
 Rode auto’s
 Witte auto’s

(naar bouwjaar)
 Klassieke auto’s
 Moderne auto’s

Eenheid van verdelingskarakteristiek
 1 kenmerk

Coextensie
 Alle subklassen vormen de klasse

Sportauto’s

(naar merk)
 Ferrari’s
 Porsches
 Lamborghini’s
 Overige sportauto’s

Eenheid van verdelingskarakteristiek
 1 kenmerk

Coextensie
 Alle subklassen vormen de klasse

Gradatie
 Geleidelijke verdeling

Vervoermiddelen


Ferrari’s
Vervoermiddelen

Auto’s
 Sportauto’s
 Ferrari’s
 Terreinwagens

Eenheid van verdelingskarakteristiek
 1 kenmerk

Coextensie
 Alle subklassen vormen de klasse

Gradatie
 Geleidelijke verdeling

Collocatie
 Verwanten zijn buren

Kaas


Nederlandse kaas
Buitenlandse kaas
 Franse kaas
 Deense kaas
 Griekse kaas
 Engelse kaas
 Italiaanse kaas
 Belgische kaas
 Zwitserse kaas

Classificatie
 Volledig
 Veel niveau’s
 ‘universeel’

Taxonomie




Beperkt
Enkele niveau’s
Gebruik(er) centraal
Voor portal of DMS

Netwerkstructuur


Semantisch netwerk


Aquabrowser
Visual thesaurus
Thesaurus

Voorbeelden

landbouw
 Agrovoc

algemeen
 Unesco thesaurus

medisch
 MeSH
Relaties

Hiërarchisch
 Broader term / narrower term (BT/NT)
 Vogels BT: Dieren

Associatief
 Related term (RT)
 Vogels RT: vogelgriep

Synoniem
 Use
 Aviaire influenza USE vogelgriep
Foute hiërarchische relaties

Objecten - producten
Vogels
NT
Eieren

Objecten - activiteiten
Vogels
NT
Voortplanting

Abstract - concreet
Voortplanting
NT
Eieren

Woordredactie
 Enkelvoudige onderwerpen
 alcoholproblematiek en criminaliteit
 Enkelvoudige termen
 opwarming van de aarde
 Meervoudsvormen
 vervoermiddelen
 ‘normale’ woorden
 Lawaai , geluidshinder
 Verder:
 NVB, treinverkeer / treinen / spoorwegen





Een soort classificatie
In webomgeving
Lijst van categorieën
Passend bij een bedrijf of organisatie
Soms opgebouwd vanuit facetten
 Onderwerpen
 Processen
 Doelgroepen
 ........

Stappen
Doel, doelgroep en context
 Zoek bronnen voor termselectie …
 Verzamel termen
 Maak globale indeling (facetten, klassen) ...
 Bepaal de collocatie (volgorde)

Technologie
Producten
Grondsto
ffen
Process
en
• Operaties
Functies
• Marketing
• Strategie
• Financiën
Markten
Spelers

Bronnen

Bestaande woordsystemen
 Woordenlijsten, thesauri, classificaties

Experts
 Facetten, subklassen

Documenten
 Termenlijst uit DMS, frekwenties

Gebruik
 Search logs

Maak een ‘structuur’

Bedenk (voorlopige) systematische structuur
 Maak een mindmap

Gebruik logica en thesaurusmethoden
 Hiërarchie
 Synoniemen



Voeg termen toe
Werk een eerste schema uit
Test en evalueer met experts

Oefening

Maak een mindmap
 Bedenk facetten
 Gebruik logica en thesaurusmethoden
 Voeg termen toe

Doel en doelgroep
 …
Strongly-structured
Strongly structured
Weakly-structured
Weakly structured
Ontologies
Ontology
Semantic networks
TAO
topic maps
Concept
maps
Thesaurus
Thesauri
(associative)
Relationship Groups
Classification and
Faceted classification
categorization Taxonomies
Mind Maps
Classification
schemes
(hierarchical)
Classification
&
Facet
classification
Taxonomies
Categorization Classification
Categorization schemes
schemes
Subject Headings
Term
Subject headings
Lists
Synonym
Rings
Synonym
rings
Authority
Files
(flat) ListsAuthority Lists
Term
Controlled Vocabulary
Controlled Vocabulary
Natural
language
Natural
language
Slide 44
Full topic maps
Formal,
standardized
language
Controlled
language
…alles duidelijk?

Proces




Analyse van trainingsdocumenten
Matchen van trainingsdocumenten met begrippen /
klassen
Analyse van nieuwe documenten (fingerprint)
Matchen nieuwe documenten met klassen
© Eric Sieverts/UU
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]

Technieken voor analyse van documenten

Statistische “vingerafdruk” van meest karakteristieke
woorden
 relatieve woordfrequentie

Regels voor relevantie
 Woord staat in titel
 Metatag
 Komt voor naast bepaalde woorden
© Eric Sieverts/UU
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]

Taaltechnologie
Analyse van woorden
Morfologisch: bedrijf, bedrijfs
 Samenstellingen: vrachtwagen, wagenpark
 Syntactisch: energiebesparing, besparing van energie
 Semantisch: vogelgriep, bird flu, ziektes

© Eric Sieverts/UU
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
thesaurus
trainingsdocumenten
analyse
module
trainings
module
 Joop van Gent, Irion
“vingerafdrukken”
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
thesaurus
trainingsdocumenten
verrijking
van
thesaurus
analyse
module
trainings
module
 Joop van Gent, Irion
“vingerafdrukken”
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
nieuwe documenten
verrijkte
thesaurus
analyse
module
classificatie
module
“vingerafdrukken”
Eric Sieverts
|
verrijkte
documenten
 Joop van Gent, Irion
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
…alles duidelijk?