Transcript NVB-WB - Onderwerpsontsluiting
Slide 1
Slide 2
thema's
weinig over puur “onderwerpsontsluiting”
• onderwerpsontsluiting
• full-text zoeken
• user / looser generated content
• catalogiseren / titelbeschrijven
en verder:
•
•
•
•
usability / user interfaces
economische aspecten
logistieke aspecten
juridische aspecten
Eric Sieverts
|
[email protected]
|
kikken op clicken ?
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 3
onderwerpsontsluiting
free-text
retrieval
nut van
gecontroleerd
vocabulaire
OK door standaardisatie /
autorisatie, maar toch:
problemen met recall:
• als te weinig trefwoorden
(wat bijna altijd geval zal zijn)
problemen met precisie:
• bij specialistisch onderwerp
Eric Sieverts
|
[email protected]
|
problemen met recall:
• als te weinig digitale tekst
• (en door ontbreken van
standaardisatie als retrieval
software zelf te dom is)
problemen met precisie:
• als te weinig digitale tekst
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 4
onderwerpsontsluiting
free-text
retrieval
nut van
gecontroleerd
vocabulaire
bovendien:
zijn we er eigenlijk al uit hoe
gebruikers er achter moeten
komen op welke woorden
ze dan “moeten” zoeken?
(werkt Pubmed-oplossing
voor ons ook ?)
Eric Sieverts
|
[email protected]
|
en wat is de bottomline
bij het (niet) vinden op
titelwoorden?
• 48 % WEL gevonden !
of
• 52% NIET gevonden !
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 5
onderwerpsontsluiting
weinig
digitale
tekst
veel
digitale
tekst
ook in gevallen waar titel
wel "veelzeggend" is:
• alleen hoofdonderwerp
• globaal ontsloten
alleen hele boek
Eric Sieverts
|
[email protected]
|
indien "table of contents"
of goede "samenvatting":
• alle invalshoeken /
onderdelen
• "diepte-indexering" /
"granulariteit"
fragmenten / hoofdstukken
“i-Tunisering”
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 6
onderwerpsontsluiting
• alleen "gecontroleerd"?
• nut van "user generated" ontsluiting
(tags, kennisrepresentatie-wiki, …)
–
–
–
–
–
–
Eric Sieverts
|
niet-gecontroleerd, maar toch beter?
up-to-date-ness
communities of practice
nut: specifiek ↔ algemeen
hoeveel materiaal krijgt die tags?
toch ook vorm van controle?
>>
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 7
tags gebundeld
op DDC-ranges
Slide 8
retrieval of ontsluiting
• free-text retrieval alleen competitief met
ontsluiting als er voldoende tekst is
• in dat geval retrieval veel beter voor recall
• dan waarschijnlijk ook beter voor precisie,
zeker voor specialistische onderwerpen
• automatische classificatie ook alleen mogelijk
als er voldoende tekst is (EN goede thesaurus!)
• begrip "metadata" oprekken voor TOCs,
samenvattingen, flapteksten, user tags…
• begrip metadata heel wat meer dan “door
mensen toegekende inhoudelijke ontsluiting”
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 9
alleen maar zoeken?
ook verleiden?
ontdekken
zoeken
webservices
met suggesties
zoals Amazon
hoeveel beoordeeld? beoordelen
webservices,
“most popular”
user generated
content, …
“long tail”
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 10
catalogiseren
• hoe belangrijk is "titelbeschrijving" nog?
• alleen nog als hulpmiddel voor vinden (en
beoordelen) ?
– voor parametric search / faceted search ?
• kan het voor gewoon materiaal eenvoudiger ?
• gaat iemand iets met FRBR doen?
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 11
the
experience
iedereen denkt dat Google "de maat
der dingen" is voor onze gebruikers
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 12
Slide 13
the
experience
iedereen denkt dat Google "de maat
der dingen" is voor onze gebruikers
maar let op:
de Google paradox
– met Google "kun je alles vinden"
– maar: als echt "alles" in Google zit,
is het eigenlijk niet meer te vinden
wat bedoelde Erik Oltmans dus met
"zoiets als Google"?
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 14
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 2
thema's
weinig over puur “onderwerpsontsluiting”
• onderwerpsontsluiting
• full-text zoeken
• user / looser generated content
• catalogiseren / titelbeschrijven
en verder:
•
•
•
•
usability / user interfaces
economische aspecten
logistieke aspecten
juridische aspecten
Eric Sieverts
|
[email protected]
|
kikken op clicken ?
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 3
onderwerpsontsluiting
free-text
retrieval
nut van
gecontroleerd
vocabulaire
OK door standaardisatie /
autorisatie, maar toch:
problemen met recall:
• als te weinig trefwoorden
(wat bijna altijd geval zal zijn)
problemen met precisie:
• bij specialistisch onderwerp
Eric Sieverts
|
[email protected]
|
problemen met recall:
• als te weinig digitale tekst
• (en door ontbreken van
standaardisatie als retrieval
software zelf te dom is)
problemen met precisie:
• als te weinig digitale tekst
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 4
onderwerpsontsluiting
free-text
retrieval
nut van
gecontroleerd
vocabulaire
bovendien:
zijn we er eigenlijk al uit hoe
gebruikers er achter moeten
komen op welke woorden
ze dan “moeten” zoeken?
(werkt Pubmed-oplossing
voor ons ook ?)
Eric Sieverts
|
[email protected]
|
en wat is de bottomline
bij het (niet) vinden op
titelwoorden?
• 48 % WEL gevonden !
of
• 52% NIET gevonden !
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 5
onderwerpsontsluiting
weinig
digitale
tekst
veel
digitale
tekst
ook in gevallen waar titel
wel "veelzeggend" is:
• alleen hoofdonderwerp
• globaal ontsloten
alleen hele boek
Eric Sieverts
|
[email protected]
|
indien "table of contents"
of goede "samenvatting":
• alle invalshoeken /
onderdelen
• "diepte-indexering" /
"granulariteit"
fragmenten / hoofdstukken
“i-Tunisering”
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 6
onderwerpsontsluiting
• alleen "gecontroleerd"?
• nut van "user generated" ontsluiting
(tags, kennisrepresentatie-wiki, …)
–
–
–
–
–
–
Eric Sieverts
|
niet-gecontroleerd, maar toch beter?
up-to-date-ness
communities of practice
nut: specifiek ↔ algemeen
hoeveel materiaal krijgt die tags?
toch ook vorm van controle?
>>
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 7
tags gebundeld
op DDC-ranges
Slide 8
retrieval of ontsluiting
• free-text retrieval alleen competitief met
ontsluiting als er voldoende tekst is
• in dat geval retrieval veel beter voor recall
• dan waarschijnlijk ook beter voor precisie,
zeker voor specialistische onderwerpen
• automatische classificatie ook alleen mogelijk
als er voldoende tekst is (EN goede thesaurus!)
• begrip "metadata" oprekken voor TOCs,
samenvattingen, flapteksten, user tags…
• begrip metadata heel wat meer dan “door
mensen toegekende inhoudelijke ontsluiting”
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 9
alleen maar zoeken?
ook verleiden?
ontdekken
zoeken
webservices
met suggesties
zoals Amazon
hoeveel beoordeeld? beoordelen
webservices,
“most popular”
user generated
content, …
“long tail”
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 10
catalogiseren
• hoe belangrijk is "titelbeschrijving" nog?
• alleen nog als hulpmiddel voor vinden (en
beoordelen) ?
– voor parametric search / faceted search ?
• kan het voor gewoon materiaal eenvoudiger ?
• gaat iemand iets met FRBR doen?
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 11
the
experience
iedereen denkt dat Google "de maat
der dingen" is voor onze gebruikers
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 12
Slide 13
the
experience
iedereen denkt dat Google "de maat
der dingen" is voor onze gebruikers
maar let op:
de Google paradox
– met Google "kun je alles vinden"
– maar: als echt "alles" in Google zit,
is het eigenlijk niet meer te vinden
wat bedoelde Erik Oltmans dus met
"zoiets als Google"?
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]
Slide 14
Eric Sieverts
|
[email protected]
|
http://www.library.uu.nl/medew/it/eric
|
[email protected]