Transcript “Eesti märksõnastiku” loomislugu
Slide 1
“Eesti märksõnastiku” loomislugu
Sirje Nilbe
Oskuskeelepäev 12. nov. 2009
[email protected]
Slide 2
Kava
•
•
•
•
•
•
•
Märksõnastik raamatukogus
Kaks universaalset märksõnastikku
Märksõnastike liitmise põhjused ja eeldused
Teostatavusuuring
Põhiprojekt
Uue märksõnastiku iseloomustus
Kokkuvõte
Sirje Nilbe
2
Slide 3
Märksõnastik (tesaurus) raamatukogus
Loomulikust keelest valitud sõnade / sõnaühendite loetelu teavikute
sisu kirjeldamiseks ja infootsinguks.
– enamik märksõnu kuulub eri valdkondade oskussõnavara hulka
– sünonüümia ja homonüümia kontrolli all: üks mõiste – üks märksõna
– tesauruse tüüpi märksõnastikus on märksõnade vahele loodud
hierarhia- ja assotsiatsiooniseosed
– sünonüümid seotud samasusseosega (ekvivalentsiseosega)
– universaalse märksõnastiku sõnavara kasulik jagada tinglikult
ainevaldkondadeks
Sirje Nilbe
3
Slide 4
Märksõnaartikli näide
selgrootud
Asendab:
Invertebrata
Laiemad:
loomad
Kitsamad:
Seotud:
Valdkond:
ainuraksed
ainuõõssed
kammloomad
-------alamad selgroogsed
selgroogsed
27 Zooloogia
Sirje Nilbe
4
Slide 5
Kaks universaalset märksõnastikku
INGRIDi tesaurus
– kasutaja ja haldaja TÜ raamatukogu
– 23 000 terminit (2008)
– koostatud aastast 1994
– pole avaldatud teistele raamatukogudele märksõnastamiseks
EÜM (Eesti üldine märksõnastik)
– haldaja rahvusraamatukogu
– kasutajad enamik Eesti raamatukogusid
– 36 500 terminit (2008)
– avaldatud trükisena 1999, veebis 2006
Sirje Nilbe
5
Slide 6
Märksõnastike liitmise põhjused ja eeldused
– ühine raamatukogusüsteem INNOPAC/Millennium kahe
andmebaasiga (ESTER Tallinn, ESTER Tartu)
– Tartu ESTERis kasutusel mõlemad märksõnastikud
– häiritud infootsing, märksõnastamine, normikontroll
– topelttöö märksõnastike hooldamisel
–
–
–
–
märksõnastike tüpoloogiline ja strukturaalne sarnasus
märksõnastike toimetajate pikaajaline hea koostöö
tesauruse haldustarkvara loomise kogemustega programmeerija
ELNET Konsortsiumi liikmete huvitatus ja valmisolek kanda projekti
kulud
Sirje Nilbe
6
Slide 7
Teostatavusuuring
– viidi läbi 2007. a. sügisel
– eesmärgid:
– teha kindlaks andmestruktuuride ühilduvus
– teha kindlaks terminite ja seoste kattuvus
– teha kindlaks andmete programmilisel liitmisel tekkivate loogikavigade
ligikaudne hulk
– katseks liideti programmiliselt kõige olulisemad andmeelemendid
(märksõnad, äraviiteterminid, seosed terminite vahel)
– terminid algustähtedega A, K, T
– valdkonna Informaatika [ja automaatjuhtimine - EÜM] terminid
Sirje Nilbe
7
Slide 8
Andmete liitmise katse tulemused
– üllatuslikult kattus ainult 32% (A, K, T) ja 17% (Informaatika)
termineid
– erinev kogude koostis?
– Informaatika valdkonna erinev ulatus
– erinev tava nimede formuleerimisel jms
– seostest kattus ainult 30% (A, K, T) ja 15% (Informaatika)
– mentaalsete mõistestruktuuride erinevus?
– 2% seostest olid konfliktsed (termin oli seotud teise terminiga kahel
eri viisil)
Sirje Nilbe
8
Slide 9
Teostatavusuuringu järeldused
– andmete liitmine on võimalik
– liitmisele peab eelnema valdkondade loetelu ühtlustamine ja suure
osa terminite käsitsi ümbervaldkonnastamine
– liidetud andmekogumis on ligikaudu 3500 loogikaviga
– andmete liitmisele järgnev toimetamine seisneb loogikavigade
parandamises ja sünonüümsete terminite käsitsi liitmises
– toimetamiseks kulub ligikaudu 2400 töötundi, lisaks aeg
programmeerimiseks ja andmetöötluseks
Sirje Nilbe
9
Slide 10
Põhiprojekt
– plaanitud aeg 12 kuud
– tegelikult kulus 16,5 kuud: jaanuar 2008 – mai 2009
– plaanitust rohkem võttis aega
– märksõnastike ja dokumentatsiooni ettevalmistamine
– andmete liitmine
– uue märksõnastiku veebikujunduse realiseerimine
– plaanipäraselt kulges
– toimetamistarkvara loomine
– toimetamine
Sirje Nilbe
10
Slide 11
Programmeerimine ja andmetöötlus
– üks IT-spetsialist tegeles andmete liitmise, kodeerimise ja
analüüsiga
– teine IT-spetsialist tegeles toimetamistarkvara ning uue
märksõnastiku veebiväljundiga
–
–
–
–
toimetamistarkvara loomine: märts – mai 2008
EÜMi ja INGRIDi külmutamine: 8. sept. 2008
andmete liitmine ja laadimine toimetamiseks: sept. – dets. 2008
uue märksõnastiku veebiväljund: märts – mai 2009
Sirje Nilbe
11
Slide 12
Liidetud märksõnastiku toimetamine
–
–
–
–
8 inimest, kellest 7 oli varem tegelnud märksõnastiku koostamisega
3 kuud (jaan. – märts 2009)
lisatöö lisatasu eest
esimene toimetamisvoor valdkonniti, seejärel ülevaatamine
tähestikuliselt
– abiks toimetamisjuhend ja meiliarutelu, kuid palju iseseisvat
otsustamist
– tarkvaraline abi:
–
–
–
–
andmete värvikoodid
kirjete liitmise funktsioon
lingid lähtemärksõnastikesse, kataloogidesse, Google’isse
jpm
Sirje Nilbe
12
Slide 13
Sirje Nilbe
13
Slide 14
Eesti märksõnastik (EMS)
–
–
–
–
–
haldavad ühiselt rahvusraamatukogu, TÜ raamatukogu ja ELNET
veebis http://ems.elnet.ee
sisaldab üle 47 000 termini
48 ainevaldkonda
EMSi märksõnu kasutatakse
– e-kataloogides ESTER Tallinn ja ESTER Tartu
– Eesti artiklite andmebaasis ISE
– rahvaraamatukogude koondkataloogis URRAM
– paljudes teistes raamatukogukataloogides ja andmebaasides
Sirje Nilbe
14
Slide 15
Sirje Nilbe
15
Slide 16
Asjaosalised
Sirje Nilbe (RR), Tiiu Tarkpea (TÜR) – juhtimine
Ehtel Taevere, Jüri Tarkpea – tarkvara
Urve Erm, Ellen Kiloman, Karin Kangur (RR) – toimetamine
Helgi Laanes, Elo Tõnisoo, Ivika Pall (TÜR) – toimetamine
Andrus Igalaan (RR) – kujundus
Kill Kask (ELNET) – server
Riin Olonen (ELNET) – dokumentatsioon, koordineerimine
Sirje Nilbe
16
Slide 17
EMSi toimetajad 27. oktoobril 2008 Tartus
Sirje Nilbe
17
Slide 18
Kokkuvõte
Miks me seda tegime?
Tänapäeva e-infokeskkonnas on otstarbekas kasutada ühiseid
universaalseid polüfunktsionaalseid ja paindlikke indekseerimiskeeli
– et soodustada süsteemide koostalitlusvõimet
– et mitte killustada vaimset ja rahalist ressurssi
Miks me just nii tegime?
Olemasolevate märksõnastike poolautomaatne liitmine on
– kiireim viis ühise märksõnastiku loomiseks
– parim võimalik viis säilitada vastavust normandmete ja senise
märksõnastuse vahel andmebaasides
Tänan kuulamast!
Sirje Nilbe
18
“Eesti märksõnastiku” loomislugu
Sirje Nilbe
Oskuskeelepäev 12. nov. 2009
[email protected]
Slide 2
Kava
•
•
•
•
•
•
•
Märksõnastik raamatukogus
Kaks universaalset märksõnastikku
Märksõnastike liitmise põhjused ja eeldused
Teostatavusuuring
Põhiprojekt
Uue märksõnastiku iseloomustus
Kokkuvõte
Sirje Nilbe
2
Slide 3
Märksõnastik (tesaurus) raamatukogus
Loomulikust keelest valitud sõnade / sõnaühendite loetelu teavikute
sisu kirjeldamiseks ja infootsinguks.
– enamik märksõnu kuulub eri valdkondade oskussõnavara hulka
– sünonüümia ja homonüümia kontrolli all: üks mõiste – üks märksõna
– tesauruse tüüpi märksõnastikus on märksõnade vahele loodud
hierarhia- ja assotsiatsiooniseosed
– sünonüümid seotud samasusseosega (ekvivalentsiseosega)
– universaalse märksõnastiku sõnavara kasulik jagada tinglikult
ainevaldkondadeks
Sirje Nilbe
3
Slide 4
Märksõnaartikli näide
selgrootud
Asendab:
Invertebrata
Laiemad:
loomad
Kitsamad:
Seotud:
Valdkond:
ainuraksed
ainuõõssed
kammloomad
-------alamad selgroogsed
selgroogsed
27 Zooloogia
Sirje Nilbe
4
Slide 5
Kaks universaalset märksõnastikku
INGRIDi tesaurus
– kasutaja ja haldaja TÜ raamatukogu
– 23 000 terminit (2008)
– koostatud aastast 1994
– pole avaldatud teistele raamatukogudele märksõnastamiseks
EÜM (Eesti üldine märksõnastik)
– haldaja rahvusraamatukogu
– kasutajad enamik Eesti raamatukogusid
– 36 500 terminit (2008)
– avaldatud trükisena 1999, veebis 2006
Sirje Nilbe
5
Slide 6
Märksõnastike liitmise põhjused ja eeldused
– ühine raamatukogusüsteem INNOPAC/Millennium kahe
andmebaasiga (ESTER Tallinn, ESTER Tartu)
– Tartu ESTERis kasutusel mõlemad märksõnastikud
– häiritud infootsing, märksõnastamine, normikontroll
– topelttöö märksõnastike hooldamisel
–
–
–
–
märksõnastike tüpoloogiline ja strukturaalne sarnasus
märksõnastike toimetajate pikaajaline hea koostöö
tesauruse haldustarkvara loomise kogemustega programmeerija
ELNET Konsortsiumi liikmete huvitatus ja valmisolek kanda projekti
kulud
Sirje Nilbe
6
Slide 7
Teostatavusuuring
– viidi läbi 2007. a. sügisel
– eesmärgid:
– teha kindlaks andmestruktuuride ühilduvus
– teha kindlaks terminite ja seoste kattuvus
– teha kindlaks andmete programmilisel liitmisel tekkivate loogikavigade
ligikaudne hulk
– katseks liideti programmiliselt kõige olulisemad andmeelemendid
(märksõnad, äraviiteterminid, seosed terminite vahel)
– terminid algustähtedega A, K, T
– valdkonna Informaatika [ja automaatjuhtimine - EÜM] terminid
Sirje Nilbe
7
Slide 8
Andmete liitmise katse tulemused
– üllatuslikult kattus ainult 32% (A, K, T) ja 17% (Informaatika)
termineid
– erinev kogude koostis?
– Informaatika valdkonna erinev ulatus
– erinev tava nimede formuleerimisel jms
– seostest kattus ainult 30% (A, K, T) ja 15% (Informaatika)
– mentaalsete mõistestruktuuride erinevus?
– 2% seostest olid konfliktsed (termin oli seotud teise terminiga kahel
eri viisil)
Sirje Nilbe
8
Slide 9
Teostatavusuuringu järeldused
– andmete liitmine on võimalik
– liitmisele peab eelnema valdkondade loetelu ühtlustamine ja suure
osa terminite käsitsi ümbervaldkonnastamine
– liidetud andmekogumis on ligikaudu 3500 loogikaviga
– andmete liitmisele järgnev toimetamine seisneb loogikavigade
parandamises ja sünonüümsete terminite käsitsi liitmises
– toimetamiseks kulub ligikaudu 2400 töötundi, lisaks aeg
programmeerimiseks ja andmetöötluseks
Sirje Nilbe
9
Slide 10
Põhiprojekt
– plaanitud aeg 12 kuud
– tegelikult kulus 16,5 kuud: jaanuar 2008 – mai 2009
– plaanitust rohkem võttis aega
– märksõnastike ja dokumentatsiooni ettevalmistamine
– andmete liitmine
– uue märksõnastiku veebikujunduse realiseerimine
– plaanipäraselt kulges
– toimetamistarkvara loomine
– toimetamine
Sirje Nilbe
10
Slide 11
Programmeerimine ja andmetöötlus
– üks IT-spetsialist tegeles andmete liitmise, kodeerimise ja
analüüsiga
– teine IT-spetsialist tegeles toimetamistarkvara ning uue
märksõnastiku veebiväljundiga
–
–
–
–
toimetamistarkvara loomine: märts – mai 2008
EÜMi ja INGRIDi külmutamine: 8. sept. 2008
andmete liitmine ja laadimine toimetamiseks: sept. – dets. 2008
uue märksõnastiku veebiväljund: märts – mai 2009
Sirje Nilbe
11
Slide 12
Liidetud märksõnastiku toimetamine
–
–
–
–
8 inimest, kellest 7 oli varem tegelnud märksõnastiku koostamisega
3 kuud (jaan. – märts 2009)
lisatöö lisatasu eest
esimene toimetamisvoor valdkonniti, seejärel ülevaatamine
tähestikuliselt
– abiks toimetamisjuhend ja meiliarutelu, kuid palju iseseisvat
otsustamist
– tarkvaraline abi:
–
–
–
–
andmete värvikoodid
kirjete liitmise funktsioon
lingid lähtemärksõnastikesse, kataloogidesse, Google’isse
jpm
Sirje Nilbe
12
Slide 13
Sirje Nilbe
13
Slide 14
Eesti märksõnastik (EMS)
–
–
–
–
–
haldavad ühiselt rahvusraamatukogu, TÜ raamatukogu ja ELNET
veebis http://ems.elnet.ee
sisaldab üle 47 000 termini
48 ainevaldkonda
EMSi märksõnu kasutatakse
– e-kataloogides ESTER Tallinn ja ESTER Tartu
– Eesti artiklite andmebaasis ISE
– rahvaraamatukogude koondkataloogis URRAM
– paljudes teistes raamatukogukataloogides ja andmebaasides
Sirje Nilbe
14
Slide 15
Sirje Nilbe
15
Slide 16
Asjaosalised
Sirje Nilbe (RR), Tiiu Tarkpea (TÜR) – juhtimine
Ehtel Taevere, Jüri Tarkpea – tarkvara
Urve Erm, Ellen Kiloman, Karin Kangur (RR) – toimetamine
Helgi Laanes, Elo Tõnisoo, Ivika Pall (TÜR) – toimetamine
Andrus Igalaan (RR) – kujundus
Kill Kask (ELNET) – server
Riin Olonen (ELNET) – dokumentatsioon, koordineerimine
Sirje Nilbe
16
Slide 17
EMSi toimetajad 27. oktoobril 2008 Tartus
Sirje Nilbe
17
Slide 18
Kokkuvõte
Miks me seda tegime?
Tänapäeva e-infokeskkonnas on otstarbekas kasutada ühiseid
universaalseid polüfunktsionaalseid ja paindlikke indekseerimiskeeli
– et soodustada süsteemide koostalitlusvõimet
– et mitte killustada vaimset ja rahalist ressurssi
Miks me just nii tegime?
Olemasolevate märksõnastike poolautomaatne liitmine on
– kiireim viis ühise märksõnastiku loomiseks
– parim võimalik viis säilitada vastavust normandmete ja senise
märksõnastuse vahel andmebaasides
Tänan kuulamast!
Sirje Nilbe
18