Transcript Metapodatki v d
Metapodatki v d-knjižnici
Razlogi za ročno določanje v svetu avtomatskega indeksiranja, Dublin Core.
Pomanjkljivosti avtomatskega indeksiranja
Avtomatsko indeksiranje ne rešuje vseh problemov opisovanja in iskanja dokumentov.
Avtomatsko indeksiranje dokumenta ne prispeva nevsebinskih podatkov o dokumentu, npr o avtorstvu, pripadnosti avtorja, letu izdaje, založniku…
Pomanjkljivosti avtomatskega indeksiranja
Avtomatsko določanje nevsebinskih podatkov o dokumentu je zelo problematično.
Izvedljivo bi bilo le z avtomatskim prepoznavanjem delov dokumenta (podatki o avtorju, datum zadnje spremembe…).
Algoritmi za avtomatsko indeksiranje obdelujejo dokument kot nestrukturirano vrečo besed.
Nevsebinske podatke o dokumentih lahko iskalnik uporabi le, če imajo znano strukturo.
Pomanjkljivosti avtomatskega indeksiranja
Avtomatsko generiran opis vsebine zvišuje priklic in znižuje natančnost iskanja. Ročno generiran opis vsebine in nabor elementov nevsebinskega opisa zvišujeta natančnost in znižujeta priklic.
Pomanjkljivosti avtomatskega indeksiranja
Kombinacija obeh pristopov v isti zbirki e-dokumentov bi bila lahko zelo produktivna: uporabnik bi lahko izkoristil visok priklic ob iskanju po nestrukturiranih, avtomatsko določenih metapodatkih o vsebini, po potrebi izostril poiskano množico z iskanjem po strukturiranih, ročno določenih nevsebinskih metapotatkih.
Osnovni problem - kako priti do strukturiranih, ročno določenih metapotatkov za e-dokumente.
Metapodatki e-dokumenta: ekonomija
V prostoru dokumentov, ki ga pokriva d-knjižnica, je ročno opisovanje vsebine komaj rešljiva naloga. Referenco na isti dokument lahko vsebuje več d-knjižnic.
Zelo nesmiselno bi bilo, če bi ročno opisovanje vsebine istega dokumenta počela vsaka d-knjižnica, ki ga vključuje.
Metapodatki e-dokumenta: ekonomija
Rešitev z vidika d-knjižnice: metapodatki o dokumentu morajo biti del dokumenta; metapodatki morajo biti v računalniško čitljivi obliki, tako d-knjižnica s samim dokumentom pridobi tudi njegove metapodatke.
Metapodatki e-dokumenta: ekonomija
Najenostavneje je, če metapodatke o dokumentu določi avtor dokumenta in/ali programska oprema, s katero je nastal dokument in/ali d-knjižnica, ki je postavila dokument na omrežje.
Metapodatki e-dokumenta: nujne lastnosti
Če hočemo, da metapodatke razume poljubna aplikacija, morajo imeti standardno strukturo in standarden pomen strukturnih delov.
V svetu Interneta ne more nobena avtoriteta predpisati standarda, ki bi se ga vsi držali.
Metapodatki e-dokumenta: nujne lastnosti
Če hočemo, da se neka standardna rešitev prime, mora nastati s širokim konsenzom, biti dovolj enostavna, da ne bo zavirala e publiciranja (MARC je verjetno prezapleten).
Rešitev mora biti dovolj splošna, da je uporabna za vse stroke in uporabniške skupine, uporabna za vse podatkovne tipe.
Dublin Core Metadata Initiative
Dublin, Ohio; 1995 Online Computer Library Center (OCLC) in National Center for Supercomputing Applications (NCSA) sprožita iniciativo za oblikovanje splošno uporabnega nabora metapodatkovnih elementov.
Dublin Core (DC) – okrajšano ime nabora.
Zaenkrat 15 priporočenih metapodatkovnih elementov.
Dublin Core Metadata Initiative
Naslov
: ime, dano viru.
Avtor (ustvarjalec)
: oseba ali organizacija, ki je primarno odgovorna za nastanek intelektualne lastnine vira.
Predmet
: formalni opis vsebine vira (ključne besede, deskriptorji, klasifikatorji…); priporočena je raba kontroliranih slovarjev.
Dublin Core Metadata Initiative
Opis
: prostobesedni opis vsebine vira (povzetek, izvleček, kazalo, besedni opis nebesednih podatkovnih tipov…).
Založnik
: telo, odgovorno za objavo vira v trenutni obliki.
Sodelavec
: oseba ali organizacija, ki ni navedena v elementu
Avtor
ilustrator, prevajalec…).
, pa je prispevala pomemben intelektualni delež (urednik,
Dublin Core Metadata Initiative
Datum
: datum, povezan z dogodki v življenjskem ciklu vira; priporočena je standardna oblika.
Vrsta
: zvrst vira (strokovni članek, roman, pesem …).
Format
: format podatkov v viru, tudi vrsta programske opreme, potrebna za rabo vira; priporoča se standardna oblika, skladna z Internet Media Types (MIME).
Dublin Core Metadata Initiative
Identifikator
DOI… : nedvoumna identifikacija vira; priporočena je standardna oblika, npr URL,
Vir
: povezava z drugim virom, iz katerega je opisovani vir nastal; nepotrebno, če je vir v izvorni obliki.
Jezik
: jezik intelektualne vsebine vira; priporočena je standardna oblika.
Dublin Core Metadata Initiative
Odnos
: identifikacija sekundarnega vira in njegov odnos do opisovanega vira; npr: je_različica_od, temelji_na, je_del…
Obseg
: prostorske ali časovne značilnosti vira, npr. časovno obdobje, za katero veljajo statistični podatki; geografsko področje...
Pravice
: izjava o pravicah za upravljanje; identifikator izjave; storitev, ki zagotavlja pravice…
Dublin Core Metadata Initiative
Element DC ima lahko tudi kvalifikatorje, ki ga natančneje opišejo, npr Avtor:fotograf, Avtor:izvajalec… DC rešuje probleme le na načelni ravni, kot opomnik avtorjem ali administratorjem d-knjižnice. DC in trenutnih 15 elementov je šele na začetku razvoja.
Dodatni elementi in kvalifikatorji DC
abstract: izvleček vsebine vira, accessRights: informacija o dovoljenjih oseb, ki lahko uporabljajo vir, alternative: alternativni naslov vira, audience: “razred” oseb, ki jim je vir namenjen, available: čas ali časovni interval, ko je/bo vir dostopen, bibliographicCitation: bibliografska referenca vira, conformsTo: referenca na standard, ki se ga vir drži, created: datum stvaritve vira, dateAccepted: datum odobritve vira (npr. diplome), dateCopyrighted: datum izdaje izjave o lastništvu pravic, dateSubmitted: datum oddaje (npr. diplome),
Dodatni elementi in kvalifikatorji DC
educationLevel: splošna izjava povezana s kontekstom rabe vira v izobraževanju, extent: velikost ali trajanje vira, hasFormat: referenca na drugo obliko istega vira, hasPart: vir vključuje nek drug vir, referenca nanj, hasVersion: referenca na obstoječo verzijo vira, isFormatOf: vir je varianta drugega vira, referenca nanj, isPartOf: vir je del drugega vira, referenca nanj, isReferencedBy: referenca na vir, ki citira opisani vir, isReplacedBy: referenca na vir, ki zamenjuje opisani vir, isRequiredBy: referenca na vir, ki je potreben za rabo opisanega vira, issued: datum formalne izdaje vira, isVersionOf: vir je verzija nekega drugega vira, referenca nanj,
Dodatni elementi in kvalifikatorji DC
license: pravni dokument, ki omogoča rabo vira, mediator: razred entitet, ki omogočajo rabo vira, medium: nosilec (tudi fizični nosilec) vira, modified: datum spremembe vira, provenance: izjava o morebitnih spremembah lastništva vira, references: vir citira ali se sklicuje na drug vir, referenca nanj, replaces: referenca na vir, ki ga opisani vir nadomešča, requires: referenca na vir, ki ga opisani vir potrebuje za rabo, rightsHolder: nosilec avtorskih pravic, spatial: prostorske lastnosti vira (objekta), tableOfContents: seznam podenot vira, temporal: časovne lastnosti vira, valid: časovni interval veljavnosti vira.
Odnos med elementi DC, kvalifikatorji in standardi za zapisovanje vsebine elementov
Odnos med elementi DC, kvalifikatorji in standardi za zapisovanje vsebine elementov
Soobstoj različnih metapodatkovnih naborov
DC lahko razreši veliko problemov pri uvrščanju e-dokumentov v zbirke d-knjižnice, vendar DC nikoli ne bo edini možni nabor strukturiranih metapodatkov za neki informacijski vir.
Različne strokovne skupnosti imajo metapodatkovne nabore (npr. tezavre), ki so že dolgo v uporabi in se jim zato ne bodo odrekle.
Soobstoj različnih metapodatkovnih naborov
Problem uporabe različnih metapodatkovnih naborov tudi z uvajanjem DC do neke mere še vedno ostaja.
Potrebujemo dogovor, ki bo v istem e-dokumentu omogočil soobstoj in kreativno uporabo metapodatkov, nastalih z avtomatskim indeksiranjem, metapodatkov iz nabora Dublin Core, metapodatkov iz starejših naborov, ki izvirajo iz časov pred d-knjižnico.
Resource Description Framework (RDF)
Različni nabori metapodatkov, uporabljani za opis dokumentov v d-knjižnici, imajo različne strukturne in pomenske lastnosti.
Če hočemo zagotoviti njihovo splošno uporabnost, moramo poenotiti njihove strukture (najbrž nemogoče) ali doseči, da vse aplikacije razumejo njihove strukture.
Tako sožitje različnih naborov metapodatkov poskuša zagotoviti RDF.
Resource Description Framework (RDF)
Resource Description Framework (RDF) Okvir za opisovanje informacijskih virov.
RDF je infrastruktura, ki omogoča zapisovanje poljubnih “izjav” o omrežnih virih na način, ki omogoča njihovo avtomatsko in “človeško” razumevanje.
RDF omogoča tudi izmenjavo in uporabo strukturiranih metapodatkov v omrežnem okolju e-dokumentov.
RDF je kooperativni projekt, ki ga vodi World Wide Web Consortium (W 3 C).
Resource Description Framework (RDF)
RDF uporablja XML (Extensibe Markup Language) kot jezik za zapisovanje “izjav”.
O RDF več pri Računalniškem komuniciranju, pri predavanjih o XML in Semantic Web.
Primer kratkega bibl. zapisa v RDF in XML