Transcript Slide 1

INMIDE
Informaatioteknologian Keski-Suomen koulutushanke
Jyväskylän yliopisto
Euroopan Yhteisö
ITKD50 Tekstitiedonhaku
Luento III: Tiedonhaku käsite-, ilmaisu- ja
esiintymätasolla.
23.03.2005
Anne Honkaranta
Jy/Digitaalinen media
[email protected]
tel. 3041, C514.3
Länsi-Suomen
lääninhallitus
Yhteystiedot:
Jyväskylän yliopisto
Informaatioteknologian tiedekunta
PL 35, 40014 Jyväskylän yliopisto
Sisältö
•
•
•
•
•
Tiedon tallennuksen ja haun tasoperiaate.
Tiedonhaku käsitetasolla.
Tiedonhaku ilmaisutasolla.
Tiedonhaku esiintymätasolla.
Tenttivinkkejä.
23.3.2005
JY /AHo, ITK D50
2
Tiedontallennuksen ja haun tasoperiaate
Käsitetaso
Dokumenttien ja hakutehtävien
käsiterakenteet
Ilmaisutaso
Dokumenttien ja hakutehtävien
kielelliset ilmaisurakenteet
(asiasanastot, tesaurukset)
Esiintymätaso
Dokumenttien ja hakutehtävien
data, merkkijonot
23.3.2005
JY /AHo, ITK D50
Hakuaiheen käsiteanalyysi
Hakustrategiasta päättäminen
Luonnollisen kielen ongelmat
Käsitteistä hakuavaimiksi
Hakuavainten valinta
Kyselykieli ja käyttöliittymä
Hakutaktikka: haun kaventaminen ja laajentaminen.
Lähde: Järvelin, 1995
3
Tiedonhaku käsitetasolla: käsiteanalyysi
• Tavoitteena on tunnistaa hakuaiheen keskeiset
käsitteet ja käsitteiden suhteet.
• Rinnakkainet suhde => tai konnektiivi.
• Rajaava suhde => ja tai ei konnektiivi.
• Käsiteanalyysin tulos: käsitteellinen
hakusuunnitelma.
• Aspekti on hakuaiheeseen liittyvä näkökulma.
• Hierarkiasuhde -> alakäsite, yläkäsite.
• Esim.
– IT ->digitaalinen media, elektroninen liiketoiminta.
– Dokumenttien hallinta v digitaalisen sisällön hallinta
23.3.2005
JY /AHo, ITK D50
4
Käsitteellisen hakusuunnitelman
tyhjentävyys, tarkkuus ja kattavuus
• Hakusuunnitelman tyhjentävyys ->kuinka moni
hakuaihetta jäsentävistä aspekteista on mukana
hakusuunnitelmassa.
– Liittyy aspektien välisiin rajaaviin suhteisiin.
• Hakusuunnitelman tarkkuus -> kuinka täsmällisillä
käsitteillä hakusuunnitelman eri aspekteja kuvataan.
– Liittyy käsitteiden välisiin hierarkkisiin suhteisiin.
• Hakusuunnitelman kattavuus -> kuinka monella
tiedontarpeeseen sisältyvällä käsitteellä
hakusuunnitelman eri aspekteja hakusuunnitelmassa
kuvataan.
– Liittyy hakuaiheen aspektien rinnakkaisiin suhteisiin.
23.3.2005
JY /AHo, ITK D50
5
Käsitteellisen hakusuunnitelman
tyhjentävyys, tarkkuus ja kattavuus
Hakusuunnitelman
muutos
Vaikutus
saantiin
Vaikutus
tarkkuuteen
Vaikutus
hakutulosten
määrään
Parannetaan
Pienenee /kärsii paranee
tyhjentävyyttä
(haku kapenee)
vähenee
Parannetaan
Pienenee /kärsii Paranee
tarkkuutta
(haku kapenee)
vähenee
Parannetaan
Paranee
kattavuutta
(haku laajenee)
23.3.2005
Pienenee /kärsii kasvaa
JY /AHo, ITK D50
6
Käsiteanalyysi
• Mistä käsitteet?
– Tunnistetaan haun /tietotarpeen kuvauksesta.
– Erityissanaston termeistä (esim. Viira, lupus lupus).
– Aiheen osittaminen (hierarkiasuhteet, käsitteiden
osittaminen).
– Assosiaatioiden ideointi.
• Rajaavien käsitteiden lisääminen tai
poistaminen: halutunkaltaisen hakutuloksen
sääntely (halutaanko muutamia vai satoja
tuloksia?)
23.3.2005
JY /AHo, ITK D50
7
Käsitteellisestä hakusuunnitelmasta
hakustrategiaan
• Hakustrategia: kokonaissuunnitelma tai
lähestymistapa haun suorittamiseen.
• Hakutaktiikka: askel/askeleet, jotka
suoritetaan haun edistämiseksi
(esiintymätasolla).
• Hakustrategiatyypit:
–
–
–
–
–
23.3.2005
Pikahaku.
Lohkohaku.
Helmenkasvatushaku.
Lohkojen peräkkäishaku.
Selailuhaku.
JY /AHo, ITK D50
8
Hakustrategiat
• Pikahaku:
– Yksi hakukomento, muutama hakuavain.
– Tavoite, esim: muutamien relevanttien
dokumenttien läytäminen, aloitus
helmenkasvatushaulle, tai bibliografisen tiedon
tarkastus.
• Lohkohaku.
– Säädellään tarkkuutta ja tuloksen kokoa
vuorovaikutteisesti.
– Eteneminen: tunnista käsitteet, valitse kullekin
käsitteelle hakuavaimet (käsite->lohko), hae
erikseen kuhunkin käsitteeseen liittyvien
tulosdokumenttien joukkoja, yhdistä joukot.
23.3.2005
JY /AHo, ITK D50
9
Hakustragegiat
• Helmenkasvatushaku (analogiahaku).
– Valitaan esimerkkidokumentti(-mentit), joista tutkitaan
mahdolliset hakuavaimet. Haetaan uusia dokumentteja
valittujen avainten yhdistelmillä. Voidaan jatkaa jollain muulla
hakustrategialla (kuten lohkohaku).
– Sopiva, jos on esimerkkidokumentteja jotka kuvaavat
hakutarpeen riittävän laajasti.
• Lohkojen peräkkäishaku.
– Lohkohaun muunnelma: ei muodosteta lohkoa kaikille
käsitteille. Voidaan valita esim. Spesifein lohko ensin tai
pienimmän tuloksen lohko . Lohkoja lisätään tarpeen
mukaan.
• Selailuhaku.
– Aihealueen tai käsitteiden valintaan, lähtökohdaksi muille
hauille.
23.3.2005
JY /AHo, ITK D50
10
Tiedonhaku ilmaisutasolla
• Dokumentti itse on ilmaisutason esitys. Sitä voidaan
täydentää muilla dokumentin sisältöä kuvaavilla
luonnollisen kielen sanoilla, esim. metatietoon
liitettävät asiasanat.
• Käsitteiden ilmaisutavat: luonnollisen kielen sanat tai
esim. Dokumentaatiokielen termit.
• Dokumentaatiokielen keskeinen tehtävä on
standardoida käsitteiden ilmaisut mahdollisimman
yhdenmukaisiksi.
• Jos tiedon tallennus ja haku ei perustu ihmisen
suorittamaan sisällönanalyysiin, voidaan dokumenttien
ja hakutehtävien käsiterakenteet ilmaista luonnollisen
kielen avulla.
23.3.2005
JY /AHo, ITK D50
11
Tiedonhaku ilmaisutasolla
• Kommunikoitavat käsitteet ja niiden suhteet
kuvataan:
–
–
–
–
–
luonnollisen kielen ilmauksilla
sanat
sanaliitot
fraasit
aihepiirin erikoiskielen ilmauksilla.
• Esim. H2SO4 => H2SO4, Hg(OAc)2 =>
Hg(OAc)2
23.3.2005
JY /AHo, ITK D50
12
Luonnollisen kielen ongelmia
•
•
•
•
•
Kieli ei ole yhteistä; alakulttuurit.
Kieli kehittyy; tarkoituksenmukaisuus.
Monitulkintaisuus; “oli vähän hyvää ruokaa”.
Homografia eli merkitys riippuu
asiayhteydestä (esim. sanat ”kuusi”, ”voi”).
Synonymia (~sama käsite, eri termi tai sana)
– Päämerkitys eli denotaatio
– Sivumerkitys eli konnotaatio.
•
•
Kiertoilmaukset eli parafraasit.
Anaforiset ilmaisut (viittaus aiemmin
esiteltyyn asiaan).
23.3.2005
JY /AHo, ITK D50
13
Luonnollisen kielen ongelmia
•
Samaan teemaan voidaan viitata monella eri
tavalla,
–
•
•
esim. ydinvoima Greenpeacen ja Fortumin raporteissa.
Yhdyssanat ja sanaliitot (tiedontarve vs. tiedon
tarve).
Yhdyssanan loppuosa ilmaisee pääluokan ja
alkuosa alaluokan:
–
–
–
–
–
–
–
23.3.2005
substantiivi-substantiivi (informaatioteknologia)
adjektiivi-substantiivi (kallisarvoinen)
erisnimi-substantiivi (Boolen algebra)
substantiivi-partisiippi (tietokonetuettu)
substantiivi-adjektiivi (ihmisläheinen)
adverbi-partisiippi (sisäänotettu)
adjektiivi-adjektiivi (kuuromykkä).
JY /AHo, ITK D50
14
Luonnollisen kielen ongelmia
• Etu- ja loppuliitteet (esi-, jälki-, -inen, -lainen).
• Sanojen taipuminen – yksiköt ja monikot,
sijamuodot.
• Johdokset – uusia sanoja vanhoista; kirja
->kirjonta, kirjasto.
• ”Kirotusvireet”.
23.3.2005
JY /AHo, ITK D50
15
Luonnollisen kielen ongelmia
• Suomenkielen erityisongelmia:
– Taivutusmuotohomografiat (kahdella
perusmuotoisella sanalla on yhteisiä
taivutusmuotoja, esim. Hauissa ->hauki tai haku,
Minä en voi syödä voita).
– Sanojen ja niiden vartaloiden taipuminen.
– Yhdyssanat ja sanaliitot tavallisia.
– Johdoksia käytetään paljon.
23.3.2005
JY /AHo, ITK D50
16
Haku ilmentymätasolla- hakuavainten
löytäminen?
Käsitetaso
Käsitteellinen
hakusuunnitelma
(Haku) käsitteet
Ilmaisutaso
Hakuavaimet
(Erikoiskielten)
Hakutermit
Sanaperusteiset
hakutermit
Ilmaisutason
hakusuunnitelma
(Yleiset)
Koodit ja lyhenteet
Luonnollisen
kielen hakuilmaisut
Koodiperusteiset
hakutermit
Hakusanat
Esiintymätaso
Kysely
Merkkijonot
Merkkijonokaaviot
23.3.2005
Merkkijonovakiot
JY /AHo, ITK D50
17
Haku ilmentymätasolla- hakuavaimet ja
hakutermit
• Hakuavain- yleissana tai tietyn dokumentaatiokielen termi (kun ei
haluta tehdä eroa)
• Hakutermi- dokumentaatiokielen termi.
• Hakuavainten käytön etuja ja haittoja:
+ Joustavia ja tuttuja tiedonhakijoille,
+ usein tarkkoja erityissanastojen osalta.
– Eivät aina täsmällisiä, erityistermejä ei huomioida useinkaan
yleisluontoisissa tekstikannoissa.
• Indeksitermien käytön etuja ja haittoja:
+ Käsitteiden haku yksinkertaista jos löytyy sopiva indeksitermi,
+ voidaan hyödyntää dokumentaatiokielen rakennetta tai tesaurusta.
– Indeksitermit ovat indeksoijan käsitys asiasta, voivat olla
joustamattomia, tai tuntua keinotekoisilta, eivät sisällä uusimpia
termejä.
23.3.2005
JY /AHo, ITK D50
18
Tiedonhaku esiintymätasolla
• Konkreettinen tiedonhaku tapahtuu aina
esiintymätasolla.
• Esiintymätasolla rakennetaan kysely, joka
määrittelee hakujärjestelmälle, miten sen
tulee toimia.
• Esiintymätasolla puhutaan vain
merkkijonoista, koska hakujärjestelmät
käsittelevät vain niitä.
23.3.2005
JY /AHo, ITK D50
19
Tiedonhaku esiintymätasolla
• Käyttöliittymä
– Hakujärjestelmää käytetään kyselykielen (komentokieli, command
language, query language) avulla
– komennot (command)
– komentosanat (command name)
– parametrit eli määritteet (parameter)
• Kohdennuskomennot: valitaan tietokannan sisällön osia
tarkastelun kohteeksi:
–
–
–
–
–
joukko-opin perusoperaatiot
tekstihakuoperaatiot
termioperaatiot
dokumenttien selaus
tekstin selaus
• Käsittelykomennot:
– saanti ja esitys; tulostus ja tulostuksen muotoilu
– päivitys; tietueiden lisäys, poisto ja muutos
23.3.2005
JY /AHo, ITK D50
20
Tiedonhaku esiintymätasolla
• Kyselykielten eroja:
– sallitaanko loogisia operaatioita
perushakukomennossa esim. SELECT a AND b vai
SELECT a ; SELECT b ; COMBINE s1 AND s2,
– sallitaanko loogisia operaatioita hakusanojen ja joukkojen yhdistelmille esim. COMBINE s1 AND
KEUHKOSYÖPÄ,
– mikä on loogisten operaatioiden suoritusjärjestys,
ja
– mitä tulostetaan ja missä muodossa.
23.3.2005
JY /AHo, ITK D50
21
Tiedonhaku esiintymätasolla:
Merkkijonokaaviot ja jokerimerkit
•
•
•
Merkkijonokaavio on malli, joka täsmää useisiin
hakemiston merkkijonoihin, joilla on tietyt yhteiset
osat ja vaihtelua tietyissä osissa.
Vastaa disjunktiolauseketta (“tai”); esim. autom* > automatka  automaatti  automaatio 
automaattinen  ...
Kaavio muodostetaan korvaamalla merkkijonovakion
yksittäisiä merkkejä tai kokonaisia osajonoja
jokerimerkeillä.
•
Merkkijonon katkaisu jokerimerkillä lopusta on
merkkijonokaavion tavallisin käyttötapa.
23.3.2005
JY /AHo, ITK D50
22
Tiedonhaku esiintymätasolla:
Merkkijonokaaviot ja jokerimerkit
• # - korvaa yhden aakkosnumeerisen merkin
a-ö, 0-9, ei esim. välilyöntiä. Voidaan toistaa.
• ? – korvaa aakkosnumeerisen merkkijonon,
muttei välilylöntiä.
• ?n (esim. ?5) - merkinnällä voi määritellä,
montako merkkiä korvataan.
23.3.2005
JY /AHo, ITK D50
23
Tiedonhaku esiintymätasolla:
Läheisyysoperaatiot ja sanaliitot
• Jos hakujärjestelmä sallii fraasi-indeksoinnin
dokumenttien tallennuksessa, voidaan
sanaliittoja (kuten “digitaalinen media”)
käyttää hakulausekkeissa.
• Sanaindeksoinnin takia pilkkoutuneet sanaliitot
voidaan koota uudelleen hakuvaiheessa
läheisyysoperaation (adjacency operation,
proximity operation) avulla.
• Pelkkiä indeksitermejä käytettäessä
läeisyysoperaattoreilla ei ole merkitystä, ellei
myös sanaliittoja ole indeksoitu.
23.3.2005
JY /AHo, ITK D50
24
Tiedonhaku esiintymätasolla:
Läheisyysoperaatiot ja sanaliitot
•
Sanaliittojen täsmäytys:
–
–
–
–
23.3.2005
1. Hakuavaimet täsmäytetään esitysjärjestyksessään
suoraan peräkkäin, esim. “FIND digital media”.
2.T äsmäytys esitysjärjestyksessä, mutta hakuavainten
keskinäinen etäisyys voi vaihdella; tällöin operaattorina !n ,
jossa n on välissä olevien sanojen sallittu määrä. Pelkkä !
edellyttää sanojen peräkkäisyyttä.
3. Täsmäytys missä tahansa järjestyksessä, keskinäinen
etäisyys voi vaihdella. Tällöin operaattorina %n, jossa n on
hakuavainten välissä olevien sanojen sallittu määrä. Pelkkä
% edellyttää peräkkäisyyttä.
Mitä ”FIND Digital ! Media” hakee? Entä ”FIND Digital %6
Media”? Entä ”FIND Dig? !2 Medi##”?
JY /AHo, ITK D50
25
Tenttivinkkejä
• Soveltava. Kaikki materiaali saa olla mukana.
• Keskeiset käsitteet:
– saanti, tarkkuus, relevanssi, hakuavain, hakutermi,
dokumentaatiokieli, käänteistiedosto, sanakirjatiedosto,
boolen logiikka..
• Tiedonhakujärjestelmän yleisrakenne.
• Saannin ja tarkkuuden suhde, miten niitä voi
säädellä hakutaktiikoilla?
• Hakustrategia vs. hakutaktiikka?
• Luonnollinen kieli tiedonhaussa?
• Indeksointi, metatietomääritykset, ja hakuavaimet:
yhtäläisyyksiä, eroja, etuja, haittoja?
• Boolen logiikka, Vennin diagrammit, totuustaulut, ja
käänteistiedoston käyttö tiedonhaussa.
23.3.2005
JY /AHo, ITK D50
26
Harjoitus
• Määrittele esim. Gradu- tai kandityötäsi varten haku.
• Tee hakusi aspekteihin liittyvä käsiteanalyysi. Kuvaile
käsitteiden valintaa ja ideointia.
• Kerro, mitä hakustrategiaa käyttäisit tai kuinka
yhdistelisit hakustrategioita?
• Mitä hakuavaimia käyttäisit? Kuinka hakuavaimet
valitaan? Kuinka hakuavaimia voi yhdistellä, ja mitkä
niistä olisivat eniten kokonaistulosta rajaavia? Miten
hakutuloksen saantia, tarkkuutta ja määrää voisi
säätää hakuavaimia ja haun konjuktiiveja
muuttelemalla?
23.3.2005
JY /AHo, ITK D50
27