KRISTEL UIBOAED ÜHENDVERBID EESTI MURRETE KORPUSES Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek EESTI MURRETE KORPUS   Elektrooniline leksikaalne andmebaas Murdekorpuse koostamise eesmärgid:  murdetekstid elekrooniliselt kättesaadavaks teha,  võimaldada.

Download Report

Transcript KRISTEL UIBOAED ÜHENDVERBID EESTI MURRETE KORPUSES Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek EESTI MURRETE KORPUS   Elektrooniline leksikaalne andmebaas Murdekorpuse koostamise eesmärgid:  murdetekstid elekrooniliselt kättesaadavaks teha,  võimaldada.

Slide 1

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 2

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 3

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 4

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 5

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 6

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 7

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 8

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 9

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 10

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 11

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 12

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 13

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 14

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 15

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 16

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 17

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 18

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 19

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 20

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised


Slide 21

KRISTEL UIBOAED

ÜHENDVERBID EESTI MURRETE
KORPUSES

Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek

EESTI MURRETE KORPUS



Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
 murdetekstid

elekrooniliselt kättesaadavaks teha,
 võimaldada murrete kontrastiivset uurimist


Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta

MURDEKORPUSE XML-s FAIL

rehe+tuasrehe+tubaslk=“S">sg in
oliolemaps ind
ipf sg 3

ahiahisg
n


MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)


MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

LAUSESTAMINE (1)




Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript

LAUSESTAMINE (2)


Lausestamise reeglid
 Lausepiirid
 erinevate

seati

kõnevoorude,
 pikkade pauside,
 küsi- ja sidesõnade ning
 finiitverbide järgi.

NÄIDE (1)


1.
2.

ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii

NÄIDE (2)
mullminasg ad

ol'iolemaps ind ipf sg 3
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1
naenenainesg n
jaja

`ol'linolemaps ind ipf sg 1
kolm+gümmend+seitsekolm+kümmend+seitsesg
n

`aastadaastasg p
vanavanasg n
kuikui
naenenainesg n
`võt'sinvõtmaps ind ipf sg 1

LAUSESTAMISMEETODI
TULEMUSLIKKUS




Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%

LAUSESTAMISMEETODI PUUDUSED (1)


1.
2.

poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.

LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.

4.
5.

nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh

ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST








Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%

VÕRDLUSMATERJAL




Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas

SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES





2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles

ÜHENDVERBID MURRETES (1)






Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised

ÜHENDVERBID MURRETES (2)




Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?

TÄHENDUSERINEVUSED




Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)

ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID


15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels

KOKKUVÕTE (1)





Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega

KOKKUVÕTE (2)




Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised