“Eesti märksõnastiku” loomislugu

Download Report

Transcript “Eesti märksõnastiku” loomislugu

Slide 1

“Eesti märksõnastiku” loomislugu
Sirje Nilbe

Oskuskeelepäev 12. nov. 2009
[email protected]


Slide 2

Kava
Märksõnastik raamatukogus
Kaks universaalset märksõnastikku
Märksõnastike liitmise põhjused ja eeldused
Teostatavusuuring
Põhiprojekt
Uue märksõnastiku iseloomustus
Kokkuvõte

Sirje Nilbe

2


Slide 3

Märksõnastik (tesaurus) raamatukogus
Loomulikust keelest valitud sõnade / sõnaühendite loetelu teavikute
sisu kirjeldamiseks ja infootsinguks.
– enamik märksõnu kuulub eri valdkondade oskussõnavara hulka
– sünonüümia ja homonüümia kontrolli all: üks mõiste – üks märksõna
– tesauruse tüüpi märksõnastikus on märksõnade vahele loodud
hierarhia- ja assotsiatsiooniseosed
– sünonüümid seotud samasusseosega (ekvivalentsiseosega)
– universaalse märksõnastiku sõnavara kasulik jagada tinglikult
ainevaldkondadeks

Sirje Nilbe

3


Slide 4

Märksõnaartikli näide
selgrootud
Asendab:
Invertebrata
Laiemad:
loomad
Kitsamad:

Seotud:
Valdkond:

ainuraksed
ainuõõssed
kammloomad
-------alamad selgroogsed
selgroogsed
27 Zooloogia

Sirje Nilbe

4


Slide 5

Kaks universaalset märksõnastikku
INGRIDi tesaurus
– kasutaja ja haldaja TÜ raamatukogu
– 23 000 terminit (2008)
– koostatud aastast 1994
– pole avaldatud teistele raamatukogudele märksõnastamiseks
EÜM (Eesti üldine märksõnastik)
– haldaja rahvusraamatukogu
– kasutajad enamik Eesti raamatukogusid
– 36 500 terminit (2008)
– avaldatud trükisena 1999, veebis 2006

Sirje Nilbe

5


Slide 6

Märksõnastike liitmise põhjused ja eeldused
– ühine raamatukogusüsteem INNOPAC/Millennium kahe
andmebaasiga (ESTER Tallinn, ESTER Tartu)
– Tartu ESTERis kasutusel mõlemad märksõnastikud
– häiritud infootsing, märksõnastamine, normikontroll
– topelttöö märksõnastike hooldamisel

märksõnastike tüpoloogiline ja strukturaalne sarnasus
märksõnastike toimetajate pikaajaline hea koostöö
tesauruse haldustarkvara loomise kogemustega programmeerija
ELNET Konsortsiumi liikmete huvitatus ja valmisolek kanda projekti
kulud

Sirje Nilbe

6


Slide 7

Teostatavusuuring
– viidi läbi 2007. a. sügisel
– eesmärgid:
– teha kindlaks andmestruktuuride ühilduvus
– teha kindlaks terminite ja seoste kattuvus
– teha kindlaks andmete programmilisel liitmisel tekkivate loogikavigade
ligikaudne hulk

– katseks liideti programmiliselt kõige olulisemad andmeelemendid
(märksõnad, äraviiteterminid, seosed terminite vahel)
– terminid algustähtedega A, K, T
– valdkonna Informaatika [ja automaatjuhtimine - EÜM] terminid

Sirje Nilbe

7


Slide 8

Andmete liitmise katse tulemused
– üllatuslikult kattus ainult 32% (A, K, T) ja 17% (Informaatika)
termineid
– erinev kogude koostis?
– Informaatika valdkonna erinev ulatus
– erinev tava nimede formuleerimisel jms

– seostest kattus ainult 30% (A, K, T) ja 15% (Informaatika)
– mentaalsete mõistestruktuuride erinevus?

– 2% seostest olid konfliktsed (termin oli seotud teise terminiga kahel
eri viisil)

Sirje Nilbe

8


Slide 9

Teostatavusuuringu järeldused
– andmete liitmine on võimalik
– liitmisele peab eelnema valdkondade loetelu ühtlustamine ja suure
osa terminite käsitsi ümbervaldkonnastamine
– liidetud andmekogumis on ligikaudu 3500 loogikaviga
– andmete liitmisele järgnev toimetamine seisneb loogikavigade
parandamises ja sünonüümsete terminite käsitsi liitmises
– toimetamiseks kulub ligikaudu 2400 töötundi, lisaks aeg
programmeerimiseks ja andmetöötluseks

Sirje Nilbe

9


Slide 10

Põhiprojekt
– plaanitud aeg 12 kuud
– tegelikult kulus 16,5 kuud: jaanuar 2008 – mai 2009
– plaanitust rohkem võttis aega
– märksõnastike ja dokumentatsiooni ettevalmistamine
– andmete liitmine
– uue märksõnastiku veebikujunduse realiseerimine

– plaanipäraselt kulges
– toimetamistarkvara loomine
– toimetamine

Sirje Nilbe

10


Slide 11

Programmeerimine ja andmetöötlus
– üks IT-spetsialist tegeles andmete liitmise, kodeerimise ja
analüüsiga
– teine IT-spetsialist tegeles toimetamistarkvara ning uue
märksõnastiku veebiväljundiga

toimetamistarkvara loomine: märts – mai 2008
EÜMi ja INGRIDi külmutamine: 8. sept. 2008
andmete liitmine ja laadimine toimetamiseks: sept. – dets. 2008
uue märksõnastiku veebiväljund: märts – mai 2009

Sirje Nilbe

11


Slide 12

Liidetud märksõnastiku toimetamine

8 inimest, kellest 7 oli varem tegelnud märksõnastiku koostamisega
3 kuud (jaan. – märts 2009)
lisatöö lisatasu eest
esimene toimetamisvoor valdkonniti, seejärel ülevaatamine
tähestikuliselt
– abiks toimetamisjuhend ja meiliarutelu, kuid palju iseseisvat
otsustamist
– tarkvaraline abi:

andmete värvikoodid
kirjete liitmise funktsioon
lingid lähtemärksõnastikesse, kataloogidesse, Google’isse
jpm

Sirje Nilbe

12


Slide 13

Sirje Nilbe

13


Slide 14

Eesti märksõnastik (EMS)


haldavad ühiselt rahvusraamatukogu, TÜ raamatukogu ja ELNET
veebis http://ems.elnet.ee
sisaldab üle 47 000 termini
48 ainevaldkonda
EMSi märksõnu kasutatakse
– e-kataloogides ESTER Tallinn ja ESTER Tartu
– Eesti artiklite andmebaasis ISE
– rahvaraamatukogude koondkataloogis URRAM
– paljudes teistes raamatukogukataloogides ja andmebaasides

Sirje Nilbe

14


Slide 15

Sirje Nilbe

15


Slide 16

Asjaosalised
Sirje Nilbe (RR), Tiiu Tarkpea (TÜR) – juhtimine
Ehtel Taevere, Jüri Tarkpea – tarkvara
Urve Erm, Ellen Kiloman, Karin Kangur (RR) – toimetamine
Helgi Laanes, Elo Tõnisoo, Ivika Pall (TÜR) – toimetamine
Andrus Igalaan (RR) – kujundus
Kill Kask (ELNET) – server
Riin Olonen (ELNET) – dokumentatsioon, koordineerimine

Sirje Nilbe

16


Slide 17

EMSi toimetajad 27. oktoobril 2008 Tartus

Sirje Nilbe

17


Slide 18

Kokkuvõte
Miks me seda tegime?
Tänapäeva e-infokeskkonnas on otstarbekas kasutada ühiseid
universaalseid polüfunktsionaalseid ja paindlikke indekseerimiskeeli
– et soodustada süsteemide koostalitlusvõimet
– et mitte killustada vaimset ja rahalist ressurssi

Miks me just nii tegime?
Olemasolevate märksõnastike poolautomaatne liitmine on
– kiireim viis ühise märksõnastiku loomiseks
– parim võimalik viis säilitada vastavust normandmete ja senise
märksõnastuse vahel andmebaasides
Tänan kuulamast!
Sirje Nilbe

18