Uvod v podatkovne zbirke 2

Download Report

Transcript Uvod v podatkovne zbirke 2

Uvod v podatkovne zbirke 2

Tekstovne zbirke, struktura bibliografskih zbirk, tezavri, poizvedovalni jeziki in operatorji, zbirke polnih besedil.

Tekstovne zbirke - uvod

  Velik del informacij, ki jih produciramo, je tekstovne narave.

  tiskane publikacije, e-publikacije, diagnoze, poročila o posegih v medicini,  razlage nebesedilnih informacij...

Tudi za take informacije veljajo vse posledice informacijske eksplozije, zato postanejo obvladljive šele z uporabo informacijskih orodij.

Tekstovne zbirke - uvod

    Najustreznejše informacijsko orodje je seveda podatkovna zbirka.

V podatkovni zbirki so besedila shranjena na urejen način.

Urejenost omogoča iskanje in druge postopke na besedilih.

Vključevanje v podatkovno zbirko lahko nestrukturiranemu besedilu vsili neke vrste strukturiranost,   naprimer polja bibliografskega zapisa ali oznake HTML pri postavitvi na splet.

Zvrsti tekstovnih zbirk

   Bibliografske zbirke.

Zbirke polnih besedil:  nestrukturirana besedila,  hipertekst,  multimedijski dokumenti.

Kratki tekstovni podatki so vključeni tudi v tabele relacijskih zbirk.

Razlike med relacijskimi in bibliografskimi zbirkami Relacijske zbirke:  podatki o pojavih smiselno razvrščeni v ločene tabele,   povezovanje tabel s pomočjo relacij, načeloma  kratki numerični in tekstovni podatki,  stalne dolžine podatkov.

Razlike med relacijskimi in bibliografskimi zbirkami  Bibliografske zbirke:  podatki o pojavih grupirani v zapise    med zapisi ni relacij tekstovni podatki o člankih, knjigah, referatih...

spremenljive dolžine podatkov

Poimenovanje gradnikov bibliografske zbirke

relacijske zbirke

entiteta atribut vrednost atributa

bibliografske zbirke

zapis polje, ponovitev polja vsebina polja, ponovitve polja

Bibliografske zbirke

   Najstarejša in, v znanstveni in strokovni srenji, še vedno najpogostejša oblika tekstovne podatkovne zbirke.

Bibliografski zapis vsebuje osnovne podatke o dokumentu.

Načini uporabe:    informacijska potreba vsebinske narave – t.i. retrospektivne poizvedbe, iskanje po imenih avtorjev ali inštitucij - bibliografije, vrednotenje raziskovalnega dela...

Bibliografske zbirke

  Uporaba bibliografske zbirke je samo korak pri zadovoljitvi informacijske potrebe.

Povezava s knjižnico:   v bibliografski zbirki izvemo za obstoj dokumenta, ki ustreza informacijski potrebi, dokument dobimo v knjižnici, lahko z medknjižnično izposojo.

Bibliografske zbirke

Bibliografska zbirka ni knjižnični katalog:   bistvo knjižničnega kataloga so t.i.

lokacijski podatki

- pozicija in zaloga enot gradiva v knjižnici, knjižnični katalogi vsebujejo podatke o knjigah, zbornikih, revijah, zelo redko podatke o člankih.

 COBISS poskuša igrati obe funkciji – slabe in dobre posledice.

Shematski prikaz strukture bibliografske zbirke

zbirka . . .

zapis zapis zapis . . .

. . .

polje ponovljivo polje polje . . .

. . .

ponovitev polja ponovitev polja ponovitev polja . . .

zapis

Shematski prikaz strukture bibliografske zbirke

Kriteriji oblikovanja strukture bibliografske zbirke  Osnovni kriterij delitve bibliografskega zapisa na polja je   uporaba zbirke ali nek dogovor (standard).

 Podatki, ki jih uporabljamo za iskanje, morajo biti v samostojnih poljih.

 Ponovljiva polja (npr. avtorji) so sestavljena iz manjših, smiselnih enot.

 Delitev zapisa na polja je struktura bibliografske zbirke.

Bibliografske zbirke: opisovanje vsebine dokumentov     Iskanje po tekstovni zbirki je najpogosteje iskanje po vsebini dokumentov.

Vsebino dokumenta je treba opisati v njegovem zapisu v zbirki.

Opis vsebine - ključne besede ali deskriptorji.

Postopek imenujemo indeksiranje.

Bibliografske zbirke: opisovanje vsebine dokumentov    Iskanje in indeksiranje - zrcalna postopka.

Med indeksiranjem dokumenta indekser poskuša uganiti ključne besede ali deskriptorje, ki bi jih iskalec uporabil, če bi hotel poiskati dani dokument.

Indekser in iskalec pri klasičnem indeksiranju in iskanju uporabljata tezaver.

Tezaver

  Tezaver je seznam vsebinskih konceptov in navodil za njihovo uporabo.

Vsebinski koncepti v tezavru so povezani s semantičnimi relacijami, najpogosteje so to hierarhične relacije.

Tezaver

 Kaj je vsebinski koncept?

 najmanjša enota znanja, zapisana z besedami ali besednimi zvezami,   koncept ima samostojen pomen, koncept opisuje nek konkreten objekt ali pojem.

Primer: tezaver MeSH

 Deskriptorji tvorijo umeten informacijski jezik:   za vsak pojem obstaja en sam deskriptor (kontrola sinonimov), vsak deskriptor opisuje en sam pojem (kontrola homonimov).

 Vsebinski koncept v MeSH:   vsebinski koncept vključuje vse sinonime in leksične variante (načine zapisovanja), en sinonim je izbran kot “prednostno ime” koncepta in ga imenujemo

deskriptor

.

Primer: tezaver MeSH

Vsebina je v bibliografskem zapisu opisana z  deskriptorji in kvalifikatorji, npr

myocardial infarction / drug therapy

 

deskriptor kvalifikator

(kvalifikatorji podrobneje omejijo vsebinski obseg deskriptorja), pomožnimi koncepti, pretežno kemijske in farmakološke narave.

Primer: tezaver MeSH

Hierarhije pogosto niso enostavne, ampak se približujejo mrežnim strukturam

Face [A01]

Cheek Chin Eye Forehead Mouth Nose

Respiratory System [A04]

Larynx Lung Nose Nasal Bone Nasal Cavity Nasal Mucosa Nasal Septum

Sense Organs [A09]

Ear Eye Nose Olfactory Mucosa Vomeronasal Organ Taste Buds Deskriptorji so zelo pogosto uvrščeni na različna mesta istega hierarhičnega drevesa – primer deskriptorja

Nose

v hierarhiji

Anatomy

.

Primer: tezaver MeSH

Znanje na nekem strokovnem področju je težko urediti v eno samo hierarhično strukturo.

   Deskriptorji (koncepti) v tezavru MeSH so urejeni v 15 hierarhičnih dreves.

En deskriptor je lahko uvrščen v več ločenih hierarhij, npr.

Creutzfeldt-Jakob syndrome

je lahko

C10 - Nervous System Diseases

ali

F3 - Mental Disorders

MeSH: primer hierarhične pozicije deskriptorja

Norepinephrine

Shematski prikaz poteka poizvedbe

potreba po informacijah

nepoiskani zapisi

iskalna zahteva

zbirka podatkov iskanje

nerelevantni zapisi relevantni zapisi a = nepoiskani, nerelevantni zapisi b = nepoiskani, relevantni zapisi c = poiskani, nerelevantni zapisi d = poiskani, relevantni zapisi a b c d

poiskani zapisi (zadetki)

Merjenje kvalitete iskanja

 Meri:  

Priklic

(odziv, recall) je delež poiskanih relevantnih zapisov med vsemi relevantnimi zapisi v zbirki.

Natančnost

(precision) je delež relevantnih zapisov med vsemi poiskanimi zapisi.

Merjenje kvalitete iskanja

a = nepoiskani, nerelevantni zapisi, b = nepoiskani, relevantni zapisi, c = poiskani, nerelevantni zapisi, d = poiskani, relevantni zapisi.

d prik lic = b + d d natancnost = c + d

Logične trditve

 Iskalna zahteva je

logična trditev

, ki je resnična samo za nekatere zapise v zbirki.  V klasičnem Boolovem modelu iskanja ima trditev lahko samo dve vrednosti:

resnično neresnično

.

in  Iskalni programi zapise v zbirki preverjajo glede na logično trditev v iskalni zahtevi. Zapise, pri katerih se trditev izkaže za resnično, imenujemo zadetki (rezultati iskanja).

Logične trditve

 Iskalne zahteve sestavljamo iz

vsebinskih

in

povezovalnih elementov

.

 Povezovalne elemente imenujemo

operatorji

.

 Poznamo

relacijske

in

logične

(Boolove)

operatorje

.

Logične trditve

 Najenostavnejša iskalna zahteva je en sam vsebinski element, npr.

bibliotekarstvo

 Relacijske operatorje uporabljamo za določanje želenih vrednosti vsebinskih elementov, npr.

Deskriptor = bibliotekarstvo

 ‘=‘ je relacijski operator .

Logične trditve trditvi N in N R in N R in R N ali N N ali R R ali R ne N ne R rezultat N N R N R R R N

Relacijski operatorji

relacijski operator = < > <= >= <>, >< pomen

je enako manjše večje manjše ali enako večje ali enako različno od

SQL

 SQL (Structured Query Language) je najbolj razširjen poizvedovalni jezik za relacijske zbirke.

 Neuradni standard relacijskega poizvedovalnega jezika.

Primer: Poišči vse študente, rojene po letu 1975 .

select ime, priimek, d_rojstva from where order by studenti d_rojstva >= 01-JAN-1976 priimek descending

SQL

 SQL je zelo močan, vendar tudi zapleten iskalni jezik, še posebno za informacijsko neizobražene uporabnike.

 Iskalne zahteve dodatno zaplete povezovanje več tabel.

 Oblikovanje zapletenih iskalnih zahtev olajša t.i.

iskanje s primerom

(query by example - QBE).

Iskanje s primerom

 Uporabnik v shematskem prikazu tabel v zbirki simbolično poveže atribute, ki bi jih sicer uporabil v SQL.  Nastane nova navidezna tabela in v ustrezne celice se vpišejo logični pogoji.

Iskanje s primerom

 Spodnja tabela bi se, kot QBE, napolnila z entitetami, za katere velja, da so študenti, s priimkom abecedno večjim od N, rojeni po letu 1974 in s povprečno oceno, višjo od 7. ime priimek > “N” d_rojstva > 01-JAN-1975 ocena average(ocena) > 7

Uporaba logičnih (Boolovih) operatorjev Operator IN (AND) Zanimajo nas vsi dokumenti o filmski režiji.

film IN režija

Uporaba logičnih (Boolovih) operatorjev Operator ALI (OR) Zanimajo nas vsi dokumenti o filmu ali o režiji.

film ALI režija

Uporaba logičnih (Boolovih) operatorjev Operator NE (NOT) Zanimajo nas vsi dokumenti o filmu razen tistih o filmski režiji .

film NE režija

Uporaba logičnih (Boolovih) operatorjev: vrstni red izvajanja členov poizvedbe.

Iskalna zahteva:

film ALI gledališče NE scenografija film gledališče scenografija

Uporaba logičnih (Boolovih) operatorjev: vrstni red izvajanja členov poizvedbe Iskalna zahteva:

film ALI gledališče NE scenografija film gledališče scenografija

Zbirke polnih dokumentov

    Bibliografski zapis je nadomestek pravega nosilca informacij.

Bibliografski zapis je kazalec na dokument.

Informacijski potrebi lahko zadosti le polni dokument.

V sodobnih tekstovnih zbirkah bibliografske nadomestke zamenjujejo polni dokumenti.

kaj neki je {e napisal Avtor X?

kaj `e pomeni ta beseda...

poglejmo v slovar

Naslov poljubnega strokovnega ~lanka Avtor X, Avtor Y Beseda in beseda in spet beseda, beseda za besedo. Sledi beseda, pa beseda k besedi ob besedi. Besede, besede, besede. Vmes kak{na neznana beseda. Sploh ni videti konca besed.

Oh, besede!

Beseda in beseda in spet beseda, beseda za besedo. Sledi beseda, pa beseda k besedi ob besedi. Besede, besede, besede. Vmes kak{na neznana beseda. Sploh ni videti konca besed.

Oh, besede!

Strokovni dokument ima hipertekstne lastnosti!

jgdsf jhsdg hsgdf jshdgf khgd jgdsf jhsdg hsgdf jshgdf j jdhsgf jh df hjg jshgdf j jdh gf jh df hjg jshgdf j jdhsgf jh df hjg jshgdf j jdhsgf jh df hjg jsh df j jdhsgf jh df hjg jsh df j jdh sgf jh df hjg jshgdf j jdhsgf jh df hjg jshgdf j jdhsgf jh df hjg jshgdf j jd gf jh df hjg jshgdf j jdhsgf jh df hjg jshgdf j jdhsgf jh df hjg jshgdf j jd gf jh df hjg jshgdf j jdhsgf jh df hjg

Literatura:

revije 1993; 1(2):3-4

2. Avtor Z. Naslov drugega citiranega ~lanka.

Naslov revije 1991; 5(6):7-8

Sjostrand et al., 1958 ravnote`je ionov separacija celic sincicij miogeno bitje jedro citoplazma interkalarni diski vreten~arsko srce poglavji 8 in 12 proteoliti~ni encimi pi{~an~je srce ritmi~no bitje transmembranski potenciali mirovni potencial Harary, 1962 akcijski potencial

Strokovni dokument ima multimedijske lastnosti!

Slika 2: Giese AC. Cell Phisiology. Pribl. 30% mo`nih hipertekstnih gesel v dveh odstavkih na strani 611.

Giese AC. Cell Phisiology. Približno 30% možnih hipertekstnih gesel v dveh odstavkih na strani 611.

Hipertekst, multimediji

     Strokovni dokument ni linearno branje.

Nevidna struktura strokovnega dokumenta je semantična mreža.

Tudi dokumenti v zbirki so na nek način povezani s semantično mrežo.

Strokovni dokument ni samo besedilo.

Naravna načina zapisa strokovnih dokumentov sta hipertekst in multimediji.