KRISTEL UIBOAED ÜHENDVERBID EESTI MURRETE KORPUSES Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek EESTI MURRETE KORPUS Elektrooniline leksikaalne andmebaas Murdekorpuse koostamise eesmärgid: murdetekstid elekrooniliselt kättesaadavaks teha, võimaldada.
Download ReportTranscript KRISTEL UIBOAED ÜHENDVERBID EESTI MURRETE KORPUSES Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek EESTI MURRETE KORPUS Elektrooniline leksikaalne andmebaas Murdekorpuse koostamise eesmärgid: murdetekstid elekrooniliselt kättesaadavaks teha, võimaldada.
Slide 1
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 2
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 3
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 4
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 5
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 6
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 7
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 8
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 9
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 10
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 11
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 12
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 13
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 14
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 15
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 16
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 17
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 18
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 19
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 20
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 21
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
rehe+tuas rehe+tuba slk=“S">sg in
oli olema ps ind
ipf sg 3
ahi ahi sg
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
mull mina sg ad
ol'i olema ps ind ipf sg 3
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
naene naine sg n
ja ja
`ol'lin olema ps ind ipf sg 1
kolm+gümmend+seitse kolm+kümmend+seitse sg
n
`aastad aasta sg p
vana vana sg n
kui kui
naene naine sg n
`võt'sin võtma ps ind ipf sg 1
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 2
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 3
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 4
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 5
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 6
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 7
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 8
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 9
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 10
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 11
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 12
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 13
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 14
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 15
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 16
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 17
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 18
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 19
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 20
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised
Slide 21
KRISTEL UIBOAED
ÜHENDVERBID EESTI MURRETE
KORPUSES
Juhendajad PhD Liina Lindström ja PhD Kadri
Muischnek
EESTI MURRETE KORPUS
Elektrooniline leksikaalne andmebaas
Murdekorpuse koostamise eesmärgid:
murdetekstid
elekrooniliselt kättesaadavaks teha,
võimaldada murrete kontrastiivset uurimist
Murdekorpus sisaldab: murdelindistusi, foneetilises
ja lihtsustatud transkriptsioonis murdetekste,
morfoloogiliselt märgendatud tekste, andmeid
keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL
ipf sg 3
n
MILLEKS ON LAUSESTAMIST VAJA? (1)
noohh (.) ega (.) eks ta ikke võtt kua
puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole
pääva läks ära (...) vaest ol'i (.) viel kalevi
ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.)
tema `akkas neid `kiar+buid `kiskuma nagu (...)
villane `ikke (.) kisub `kokku (...) jahh (.) aga siss
(...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja
labast ja kõikke olen (.) paelu teind (...) neid
`kangaid (...)
MILLEKS ON LAUSESTAMIST VAJA? (2)
1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.)
2) kui ol'i pikk ka~ngas
3) `ikke puole pääva läks ära (...)
4) vaest ol'i (.) viel kalevi ka~ngas
5) sie `kangeste (.) ol'i paha (...) `kiarida (.)
6) tema `akkas neid `kiar+buid `kiskuma
7) nagu (...) villane `ikke (.) kisub `kokku (...)
8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast
ja=ja labast
9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1)
Materjaliks murdekorpuse morfoloogiliselt
märgendatud XML-failid
Vahend: UNIX-i shelli skript
LAUSESTAMINE (2)
Lausestamise reeglid
Lausepiirid
erinevate
seati
kõnevoorude,
pikkade pauside,
küsi- ja sidesõnade ning
finiitverbide järgi.
NÄIDE (1)
1.
2.
ta Palalt ärä läks läks As'sikvere `küllä `Puuspa
`Jakpille sii
ta Palalt ärä läks
läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2)
n
LAUSESTAMISMEETODI
TULEMUSLIKKUS
Ühendverbide leidmiseks sobib hästi
Saagis (õigesti moodustatud ja tegelikult
olemasolnud osalausete suhe) 87,7% ja täpsus
(õigete osalausete ning programmi poolt tekitatud
osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1)
1.
2.
poes'id läksid `alla `jõele `suplema ja kalale
poes'id läksid `alla `jõele `suplema ja
kalale.
LAUSESTAMISMEETODI PUUDUSED (2)
1.
2.
3.
4.
5.
nüd üks rän- *rändav *tiislar ol- oli se
*üöldi viel *ilma *tiislarist see
ehittas *selle *värgi nii *muidugi puust
sa esi teit tõise üttelnu sõss
kannatta esi kahh
ÜHENDVERBIDE LEIDMINE
MURDEKORPUSEST
Aluseks eelnevalt osalausestatud tekst
Kaheliikmelised kombinatsioonid kõigi sõnadega
osalause sees
Eraldatakse adverbi ja verbi ning afiksaaladverbi
ja verbi ühendid
Stopp-sõnade loend
Saagis (kui suur osa olemasolevatest
ühendverbidest õnnestus leida) 98% ja täpsus (kui
suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL
Ühendverbid kirjakeele 300 000sõnalisest
korpusest
Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA
KIRJAKEELES
2876 erinevat ühendverbi
1065 murrete ühendverbi puudusid kirjakeele
püsiühendite andmebaasis (690 esines
murdematerjalis üks kord)
15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1)
Ettearvatavad sarnasused (Tartu, Setu, Võru murre)
Sagedasim ühine Setu ja Võru murdes (ära minema)
Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja
Võru murre
Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2)
Kõige erinevam Alutaguse murre (peale hakkama,
ette panema, kokku saama, vastu võtma, üles saama)
Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED
Murrete ühendverbidel vähem abstraktsemaid
tähendusi
Samal ühendverbil eri murretes erinev tähendus
(vastu võtma)
ÜHENDVERBE MOODUSTAVAD
AFIKSAALADVERBID
15 sagedasemat ühendverbi moodustavat
afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1)
Materjal on piisav ühendverbide leidmiseks
Põhjalikumate järelduste tegemiseks oleks siiski vaja
korpuse mahtu suurendada
Murde esindatus korpuses ei ole alati üks-üheses
vastavuses leitud ühendverbide hulga ja tulemuse
mitmekülgsusega
KOKKUVÕTE (2)
Murretest leitud ühendverbide koosseisu mõjutab
murdetekstide temaatika
Osa murdeid ühendverbide sageduste põhjal
analüütilisemad kui teised