Transcript Uvod v podatkovne zbirke 2
Uvod v podatkovne zbirke 2
Tekstovne zbirke, struktura bibliografskih zbirk, tezavri, poizvedovalni jeziki in operatorji, zbirke polnih besedil.
Tekstovne zbirke - uvod
Velik del informacij, ki jih produciramo, je tekstovne narave.
tiskane publikacije, e-publikacije, diagnoze, poročila o posegih v medicini, razlage nebesedilnih informacij...
Tudi za take informacije veljajo vse posledice informacijske eksplozije, zato postanejo obvladljive šele z uporabo informacijskih orodij.
Tekstovne zbirke - uvod
Najustreznejše informacijsko orodje je seveda podatkovna zbirka.
V podatkovni zbirki so besedila shranjena na urejen način.
Urejenost omogoča iskanje in druge postopke na besedilih.
Vključevanje v podatkovno zbirko lahko nestrukturiranemu besedilu vsili neke vrste strukturiranost, naprimer polja bibliografskega zapisa ali oznake HTML pri postavitvi na splet.
Zvrsti tekstovnih zbirk
Bibliografske zbirke.
Zbirke polnih besedil: nestrukturirana besedila, hipertekst, multimedijski dokumenti.
Kratki tekstovni podatki so vključeni tudi v tabele relacijskih zbirk.
Razlike med relacijskimi in bibliografskimi zbirkami Relacijske zbirke: podatki o pojavih smiselno razvrščeni v ločene tabele, povezovanje tabel s pomočjo relacij, načeloma kratki numerični in tekstovni podatki, stalne dolžine podatkov.
Razlike med relacijskimi in bibliografskimi zbirkami Bibliografske zbirke: podatki o pojavih grupirani v zapise med zapisi ni relacij tekstovni podatki o člankih, knjigah, referatih...
spremenljive dolžine podatkov
Poimenovanje gradnikov bibliografske zbirke
relacijske zbirke
entiteta atribut vrednost atributa
bibliografske zbirke
zapis polje, ponovitev polja vsebina polja, ponovitve polja
Bibliografske zbirke
Najstarejša in, v znanstveni in strokovni srenji, še vedno najpogostejša oblika tekstovne podatkovne zbirke.
Bibliografski zapis vsebuje osnovne podatke o dokumentu.
Načini uporabe: informacijska potreba vsebinske narave – t.i. retrospektivne poizvedbe, iskanje po imenih avtorjev ali inštitucij - bibliografije, vrednotenje raziskovalnega dela...
Bibliografske zbirke
Uporaba bibliografske zbirke je samo korak pri zadovoljitvi informacijske potrebe.
Povezava s knjižnico: v bibliografski zbirki izvemo za obstoj dokumenta, ki ustreza informacijski potrebi, dokument dobimo v knjižnici, lahko z medknjižnično izposojo.
Bibliografske zbirke
Bibliografska zbirka ni knjižnični katalog: bistvo knjižničnega kataloga so t.i.
lokacijski podatki
- pozicija in zaloga enot gradiva v knjižnici, knjižnični katalogi vsebujejo podatke o knjigah, zbornikih, revijah, zelo redko podatke o člankih.
COBISS poskuša igrati obe funkciji – slabe in dobre posledice.
Shematski prikaz strukture bibliografske zbirke
zbirka . . .
zapis zapis zapis . . .
. . .
polje ponovljivo polje polje . . .
. . .
ponovitev polja ponovitev polja ponovitev polja . . .
zapis
Shematski prikaz strukture bibliografske zbirke
Kriteriji oblikovanja strukture bibliografske zbirke Osnovni kriterij delitve bibliografskega zapisa na polja je uporaba zbirke ali nek dogovor (standard).
Podatki, ki jih uporabljamo za iskanje, morajo biti v samostojnih poljih.
Ponovljiva polja (npr. avtorji) so sestavljena iz manjših, smiselnih enot.
Delitev zapisa na polja je struktura bibliografske zbirke.
Bibliografske zbirke: opisovanje vsebine dokumentov Iskanje po tekstovni zbirki je najpogosteje iskanje po vsebini dokumentov.
Vsebino dokumenta je treba opisati v njegovem zapisu v zbirki.
Opis vsebine - ključne besede ali deskriptorji.
Postopek imenujemo indeksiranje.
Bibliografske zbirke: opisovanje vsebine dokumentov Iskanje in indeksiranje - zrcalna postopka.
Med indeksiranjem dokumenta indekser poskuša uganiti ključne besede ali deskriptorje, ki bi jih iskalec uporabil, če bi hotel poiskati dani dokument.
Indekser in iskalec pri klasičnem indeksiranju in iskanju uporabljata tezaver.
Tezaver
Tezaver je seznam vsebinskih konceptov in navodil za njihovo uporabo.
Vsebinski koncepti v tezavru so povezani s semantičnimi relacijami, najpogosteje so to hierarhične relacije.
Tezaver
Kaj je vsebinski koncept?
najmanjša enota znanja, zapisana z besedami ali besednimi zvezami, koncept ima samostojen pomen, koncept opisuje nek konkreten objekt ali pojem.
Primer: tezaver MeSH
Deskriptorji tvorijo umeten informacijski jezik: za vsak pojem obstaja en sam deskriptor (kontrola sinonimov), vsak deskriptor opisuje en sam pojem (kontrola homonimov).
Vsebinski koncept v MeSH: vsebinski koncept vključuje vse sinonime in leksične variante (načine zapisovanja), en sinonim je izbran kot “prednostno ime” koncepta in ga imenujemo
deskriptor
.
Primer: tezaver MeSH
Vsebina je v bibliografskem zapisu opisana z deskriptorji in kvalifikatorji, npr
myocardial infarction / drug therapy
deskriptor kvalifikator
(kvalifikatorji podrobneje omejijo vsebinski obseg deskriptorja), pomožnimi koncepti, pretežno kemijske in farmakološke narave.
Primer: tezaver MeSH
Hierarhije pogosto niso enostavne, ampak se približujejo mrežnim strukturam
Face [A01]
Cheek Chin Eye Forehead Mouth Nose
Respiratory System [A04]
Larynx Lung Nose Nasal Bone Nasal Cavity Nasal Mucosa Nasal Septum
Sense Organs [A09]
Ear Eye Nose Olfactory Mucosa Vomeronasal Organ Taste Buds Deskriptorji so zelo pogosto uvrščeni na različna mesta istega hierarhičnega drevesa – primer deskriptorja
Nose
v hierarhiji
Anatomy
.
Primer: tezaver MeSH
Znanje na nekem strokovnem področju je težko urediti v eno samo hierarhično strukturo.
Deskriptorji (koncepti) v tezavru MeSH so urejeni v 15 hierarhičnih dreves.
En deskriptor je lahko uvrščen v več ločenih hierarhij, npr.
Creutzfeldt-Jakob syndrome
je lahko
C10 - Nervous System Diseases
ali
F3 - Mental Disorders
MeSH: primer hierarhične pozicije deskriptorja
Norepinephrine
Shematski prikaz poteka poizvedbe
potreba po informacijah
nepoiskani zapisi
iskalna zahteva
zbirka podatkov iskanje
nerelevantni zapisi relevantni zapisi a = nepoiskani, nerelevantni zapisi b = nepoiskani, relevantni zapisi c = poiskani, nerelevantni zapisi d = poiskani, relevantni zapisi a b c d
poiskani zapisi (zadetki)
Merjenje kvalitete iskanja
Meri:
Priklic
(odziv, recall) je delež poiskanih relevantnih zapisov med vsemi relevantnimi zapisi v zbirki.
Natančnost
(precision) je delež relevantnih zapisov med vsemi poiskanimi zapisi.
Merjenje kvalitete iskanja
a = nepoiskani, nerelevantni zapisi, b = nepoiskani, relevantni zapisi, c = poiskani, nerelevantni zapisi, d = poiskani, relevantni zapisi.
d prik lic = b + d d natancnost = c + d
Logične trditve
Iskalna zahteva je
logična trditev
, ki je resnična samo za nekatere zapise v zbirki. V klasičnem Boolovem modelu iskanja ima trditev lahko samo dve vrednosti:
resnično neresnično
.
in Iskalni programi zapise v zbirki preverjajo glede na logično trditev v iskalni zahtevi. Zapise, pri katerih se trditev izkaže za resnično, imenujemo zadetki (rezultati iskanja).
Logične trditve
Iskalne zahteve sestavljamo iz
vsebinskih
in
povezovalnih elementov
.
Povezovalne elemente imenujemo
operatorji
.
Poznamo
relacijske
in
logične
(Boolove)
operatorje
.
Logične trditve
Najenostavnejša iskalna zahteva je en sam vsebinski element, npr.
bibliotekarstvo
Relacijske operatorje uporabljamo za določanje želenih vrednosti vsebinskih elementov, npr.
Deskriptor = bibliotekarstvo
‘=‘ je relacijski operator .
Logične trditve trditvi N in N R in N R in R N ali N N ali R R ali R ne N ne R rezultat N N R N R R R N
Relacijski operatorji
relacijski operator = < > <= >= <>, >< pomen
je enako manjše večje manjše ali enako večje ali enako različno od
SQL
SQL (Structured Query Language) je najbolj razširjen poizvedovalni jezik za relacijske zbirke.
Neuradni standard relacijskega poizvedovalnega jezika.
Primer: Poišči vse študente, rojene po letu 1975 .
select ime, priimek, d_rojstva from where order by studenti d_rojstva >= 01-JAN-1976 priimek descending
SQL
SQL je zelo močan, vendar tudi zapleten iskalni jezik, še posebno za informacijsko neizobražene uporabnike.
Iskalne zahteve dodatno zaplete povezovanje več tabel.
Oblikovanje zapletenih iskalnih zahtev olajša t.i.
iskanje s primerom
(query by example - QBE).
Iskanje s primerom
Uporabnik v shematskem prikazu tabel v zbirki simbolično poveže atribute, ki bi jih sicer uporabil v SQL. Nastane nova navidezna tabela in v ustrezne celice se vpišejo logični pogoji.
Iskanje s primerom
Spodnja tabela bi se, kot QBE, napolnila z entitetami, za katere velja, da so študenti, s priimkom abecedno večjim od N, rojeni po letu 1974 in s povprečno oceno, višjo od 7. ime priimek > “N” d_rojstva > 01-JAN-1975 ocena average(ocena) > 7
Uporaba logičnih (Boolovih) operatorjev Operator IN (AND) Zanimajo nas vsi dokumenti o filmski režiji.
film IN režija
Uporaba logičnih (Boolovih) operatorjev Operator ALI (OR) Zanimajo nas vsi dokumenti o filmu ali o režiji.
film ALI režija
Uporaba logičnih (Boolovih) operatorjev Operator NE (NOT) Zanimajo nas vsi dokumenti o filmu razen tistih o filmski režiji .
film NE režija
Uporaba logičnih (Boolovih) operatorjev: vrstni red izvajanja členov poizvedbe.
Iskalna zahteva:
film ALI gledališče NE scenografija film gledališče scenografija
Uporaba logičnih (Boolovih) operatorjev: vrstni red izvajanja členov poizvedbe Iskalna zahteva:
film ALI gledališče NE scenografija film gledališče scenografija
Zbirke polnih dokumentov
Bibliografski zapis je nadomestek pravega nosilca informacij.
Bibliografski zapis je kazalec na dokument.
Informacijski potrebi lahko zadosti le polni dokument.
V sodobnih tekstovnih zbirkah bibliografske nadomestke zamenjujejo polni dokumenti.
kaj neki je {e napisal Avtor X?
kaj `e pomeni ta beseda...
poglejmo v slovar
Naslov poljubnega strokovnega ~lanka Avtor X, Avtor Y Beseda in beseda in spet beseda, beseda za besedo. Sledi beseda, pa beseda k besedi ob besedi. Besede, besede, besede. Vmes kak{na neznana beseda. Sploh ni videti konca besed.
Oh, besede!
Beseda in beseda in spet beseda, beseda za besedo. Sledi beseda, pa beseda k besedi ob besedi. Besede, besede, besede. Vmes kak{na neznana beseda. Sploh ni videti konca besed.
Oh, besede!
Strokovni dokument ima hipertekstne lastnosti!
jgdsf jhsdg hsgdf jshdgf khgd jgdsf jhsdg hsgdf jshgdf j jdhsgf jh df hjg jshgdf j jdh gf jh df hjg jshgdf j jdhsgf jh df hjg jshgdf j jdhsgf jh df hjg jsh df j jdhsgf jh df hjg jsh df j jdh sgf jh df hjg jshgdf j jdhsgf jh df hjg jshgdf j jdhsgf jh df hjg jshgdf j jd gf jh df hjg jshgdf j jdhsgf jh df hjg jshgdf j jdhsgf jh df hjg jshgdf j jd gf jh df hjg jshgdf j jdhsgf jh df hjg
Literatura:
revije 1993; 1(2):3-4
2. Avtor Z. Naslov drugega citiranega ~lanka.
Naslov revije 1991; 5(6):7-8
Sjostrand et al., 1958 ravnote`je ionov separacija celic sincicij miogeno bitje jedro citoplazma interkalarni diski vreten~arsko srce poglavji 8 in 12 proteoliti~ni encimi pi{~an~je srce ritmi~no bitje transmembranski potenciali mirovni potencial Harary, 1962 akcijski potencial
Strokovni dokument ima multimedijske lastnosti!
Slika 2: Giese AC. Cell Phisiology. Pribl. 30% mo`nih hipertekstnih gesel v dveh odstavkih na strani 611.
Giese AC. Cell Phisiology. Približno 30% možnih hipertekstnih gesel v dveh odstavkih na strani 611.
Hipertekst, multimediji
Strokovni dokument ni linearno branje.
Nevidna struktura strokovnega dokumenta je semantična mreža.
Tudi dokumenti v zbirki so na nek način povezani s semantično mrežo.
Strokovni dokument ni samo besedilo.
Naravna načina zapisa strokovnih dokumentov sta hipertekst in multimediji.