Metapodatki v d

Download Report

Transcript Metapodatki v d

Metapodatki v d-knjižnici

Razlogi za ročno določanje v svetu avtomatskega indeksiranja, Dublin Core.

Pomanjkljivosti avtomatskega indeksiranja

 Avtomatsko indeksiranje ne rešuje vseh problemov opisovanja in iskanja dokumentov.

 Avtomatsko indeksiranje dokumenta ne prispeva nevsebinskih podatkov o dokumentu, npr o     avtorstvu, pripadnosti avtorja, letu izdaje, založniku…

Pomanjkljivosti avtomatskega indeksiranja

    Avtomatsko določanje nevsebinskih podatkov o dokumentu je zelo problematično.

Izvedljivo bi bilo le z avtomatskim prepoznavanjem delov dokumenta (podatki o avtorju, datum zadnje spremembe…).

Algoritmi za avtomatsko indeksiranje obdelujejo dokument kot nestrukturirano vrečo besed.

Nevsebinske podatke o dokumentih lahko iskalnik uporabi le, če imajo znano strukturo.

Pomanjkljivosti avtomatskega indeksiranja

  Avtomatsko generiran opis vsebine zvišuje priklic in znižuje natančnost iskanja. Ročno generiran opis vsebine in nabor elementov nevsebinskega opisa zvišujeta natančnost in znižujeta priklic.

Pomanjkljivosti avtomatskega indeksiranja

 Kombinacija obeh pristopov v isti zbirki e-dokumentov bi bila lahko zelo produktivna: uporabnik bi lahko   izkoristil visok priklic ob iskanju po nestrukturiranih, avtomatsko določenih metapodatkih o vsebini, po potrebi izostril poiskano množico z iskanjem po strukturiranih, ročno določenih nevsebinskih metapotatkih.

 Osnovni problem - kako priti do strukturiranih, ročno določenih metapotatkov za e-dokumente.

Metapodatki e-dokumenta: ekonomija

   V prostoru dokumentov, ki ga pokriva d-knjižnica, je ročno opisovanje vsebine komaj rešljiva naloga. Referenco na isti dokument lahko vsebuje več d-knjižnic.

Zelo nesmiselno bi bilo, če bi ročno opisovanje vsebine istega dokumenta počela vsaka d-knjižnica, ki ga vključuje.

Metapodatki e-dokumenta: ekonomija

 Rešitev z vidika d-knjižnice:   metapodatki o dokumentu morajo biti del dokumenta; metapodatki morajo biti v računalniško čitljivi obliki,  tako d-knjižnica s samim dokumentom pridobi tudi njegove metapodatke.

Metapodatki e-dokumenta: ekonomija

 Najenostavneje je, če metapodatke o dokumentu določi  avtor dokumenta in/ali  programska oprema, s katero je nastal dokument in/ali  d-knjižnica, ki je postavila dokument na omrežje.

Metapodatki e-dokumenta: nujne lastnosti

 Če hočemo, da metapodatke razume poljubna aplikacija, morajo imeti  standardno strukturo in  standarden pomen strukturnih delov.

 V svetu Interneta ne more nobena avtoriteta predpisati standarda, ki bi se ga vsi držali.

Metapodatki e-dokumenta: nujne lastnosti

  Če hočemo, da se neka standardna rešitev prime, mora  nastati s širokim konsenzom,  biti dovolj enostavna, da ne bo zavirala e publiciranja (MARC je verjetno prezapleten).

Rešitev mora biti dovolj splošna, da je  uporabna za vse stroke in uporabniške skupine,  uporabna za vse podatkovne tipe.

Dublin Core Metadata Initiative

Dublin, Ohio; 1995  Online Computer Library Center (OCLC) in National Center for Supercomputing Applications (NCSA) sprožita iniciativo za oblikovanje splošno uporabnega nabora metapodatkovnih elementov.

  Dublin Core (DC) – okrajšano ime nabora.

Zaenkrat 15 priporočenih metapodatkovnih elementov.

Dublin Core Metadata Initiative

Naslov

: ime, dano viru.

 

Avtor (ustvarjalec)

: oseba ali organizacija, ki je primarno odgovorna za nastanek intelektualne lastnine vira.

Predmet

: formalni opis vsebine vira (ključne besede, deskriptorji, klasifikatorji…); priporočena je raba kontroliranih slovarjev.

Dublin Core Metadata Initiative

 

Opis

: prostobesedni opis vsebine vira (povzetek, izvleček, kazalo, besedni opis nebesednih podatkovnih tipov…).

Založnik

: telo, odgovorno za objavo vira v trenutni obliki.

Sodelavec

: oseba ali organizacija, ki ni navedena v elementu

Avtor

ilustrator, prevajalec…).

, pa je prispevala pomemben intelektualni delež (urednik,

Dublin Core Metadata Initiative

 

Datum

: datum, povezan z dogodki v življenjskem ciklu vira; priporočena je standardna oblika.

Vrsta

: zvrst vira (strokovni članek, roman, pesem …).

Format

: format podatkov v viru, tudi vrsta programske opreme, potrebna za rabo vira; priporoča se standardna oblika, skladna z Internet Media Types (MIME).

Dublin Core Metadata Initiative

Identifikator

DOI… : nedvoumna identifikacija vira; priporočena je standardna oblika, npr URL, 

Vir

: povezava z drugim virom, iz katerega je opisovani vir nastal; nepotrebno, če je vir v izvorni obliki.

Jezik

: jezik intelektualne vsebine vira; priporočena je standardna oblika.

Dublin Core Metadata Initiative

 

Odnos

: identifikacija sekundarnega vira in njegov odnos do opisovanega vira; npr: je_različica_od, temelji_na, je_del…

Obseg

: prostorske ali časovne značilnosti vira, npr. časovno obdobje, za katero veljajo statistični podatki; geografsko področje... 

Pravice

: izjava o pravicah za upravljanje; identifikator izjave; storitev, ki zagotavlja pravice…

Dublin Core Metadata Initiative

   Element DC ima lahko tudi kvalifikatorje, ki ga natančneje opišejo, npr Avtor:fotograf, Avtor:izvajalec… DC rešuje probleme le na načelni ravni, kot opomnik avtorjem ali administratorjem d-knjižnice. DC in trenutnih 15 elementov je šele na začetku razvoja.

Dodatni elementi in kvalifikatorji DC

           abstract: izvleček vsebine vira, accessRights: informacija o dovoljenjih oseb, ki lahko uporabljajo vir, alternative: alternativni naslov vira, audience: “razred” oseb, ki jim je vir namenjen, available: čas ali časovni interval, ko je/bo vir dostopen, bibliographicCitation: bibliografska referenca vira, conformsTo: referenca na standard, ki se ga vir drži, created: datum stvaritve vira, dateAccepted: datum odobritve vira (npr. diplome), dateCopyrighted: datum izdaje izjave o lastništvu pravic, dateSubmitted: datum oddaje (npr. diplome),

Dodatni elementi in kvalifikatorji DC

            educationLevel: splošna izjava povezana s kontekstom rabe vira v izobraževanju, extent: velikost ali trajanje vira, hasFormat: referenca na drugo obliko istega vira, hasPart: vir vključuje nek drug vir, referenca nanj, hasVersion: referenca na obstoječo verzijo vira, isFormatOf: vir je varianta drugega vira, referenca nanj, isPartOf: vir je del drugega vira, referenca nanj, isReferencedBy: referenca na vir, ki citira opisani vir, isReplacedBy: referenca na vir, ki zamenjuje opisani vir, isRequiredBy: referenca na vir, ki je potreben za rabo opisanega vira, issued: datum formalne izdaje vira, isVersionOf: vir je verzija nekega drugega vira, referenca nanj,

Dodatni elementi in kvalifikatorji DC

             license: pravni dokument, ki omogoča rabo vira, mediator: razred entitet, ki omogočajo rabo vira, medium: nosilec (tudi fizični nosilec) vira, modified: datum spremembe vira, provenance: izjava o morebitnih spremembah lastništva vira, references: vir citira ali se sklicuje na drug vir, referenca nanj, replaces: referenca na vir, ki ga opisani vir nadomešča, requires: referenca na vir, ki ga opisani vir potrebuje za rabo, rightsHolder: nosilec avtorskih pravic, spatial: prostorske lastnosti vira (objekta), tableOfContents: seznam podenot vira, temporal: časovne lastnosti vira, valid: časovni interval veljavnosti vira.

Odnos med elementi DC, kvalifikatorji in standardi za zapisovanje vsebine elementov

Odnos med elementi DC, kvalifikatorji in standardi za zapisovanje vsebine elementov

Soobstoj različnih metapodatkovnih naborov

   DC lahko razreši veliko problemov pri uvrščanju e-dokumentov v zbirke d-knjižnice, vendar DC nikoli ne bo edini možni nabor strukturiranih metapodatkov za neki informacijski vir.

Različne strokovne skupnosti imajo metapodatkovne nabore (npr. tezavre), ki so že dolgo v uporabi in se jim zato ne bodo odrekle.

Soobstoj različnih metapodatkovnih naborov

  Problem uporabe različnih metapodatkovnih naborov tudi z uvajanjem DC do neke mere še vedno ostaja.

Potrebujemo dogovor, ki bo v istem e-dokumentu omogočil soobstoj in kreativno uporabo  metapodatkov, nastalih z avtomatskim indeksiranjem,  metapodatkov iz nabora Dublin Core,  metapodatkov iz starejših naborov, ki izvirajo iz časov pred d-knjižnico.

Resource Description Framework (RDF)

   Različni nabori metapodatkov, uporabljani za opis dokumentov v d-knjižnici, imajo različne strukturne in pomenske lastnosti.

Če hočemo zagotoviti njihovo splošno uporabnost, moramo  poenotiti njihove strukture (najbrž nemogoče) ali  doseči, da vse aplikacije razumejo njihove strukture.

Tako sožitje različnih naborov metapodatkov poskuša zagotoviti RDF.

Resource Description Framework (RDF)

    Resource Description Framework (RDF) Okvir za opisovanje informacijskih virov.

RDF je infrastruktura, ki omogoča zapisovanje poljubnih “izjav” o omrežnih virih na način, ki omogoča njihovo avtomatsko in “človeško” razumevanje.

RDF omogoča tudi izmenjavo in uporabo strukturiranih metapodatkov v omrežnem okolju e-dokumentov.

RDF je kooperativni projekt, ki ga vodi World Wide Web Consortium (W 3 C).

Resource Description Framework (RDF)

  RDF uporablja XML (Extensibe Markup Language) kot jezik za zapisovanje “izjav”.

O RDF več pri Računalniškem komuniciranju, pri predavanjih o XML in Semantic Web.

Primer kratkega bibl. zapisa v RDF in XML

Franc Kumulus Vsakokratna opozicija in njen vpliv na zračne mase Opisuje proizvodnjo plinov in govorjenje v veter v parlamentu.

2008-01-20 ministrstvo za vreme nevihta v kozarcu vode