Eslon - Emakeele Selts

Download Report

Transcript Eslon - Emakeele Selts

Slide 1

Õppijakeele korpused ja
keeleõpe
Pille Eslon
Tallinna ülikool
[email protected]


Slide 2

Mis on õppijakeel?
Õppijakeel (learner language) – P.S.Corder
Seoses teise keele / võõrkeele omandamisega (second / foreign
language aquisition)
Kesksel kohal keelevea mõiste (error)
Tugineb veaanalüüsile (error analysis)

Vahekeel (interlanguage) – L.Selinker
Biheivioristlik keelekäsitlus ja interferentsiteooria
Kesksel kohal lähtekeele negatiivne / positiivne ülekanne
(transfer)
Tugineb lähte- ja sihtkeele kontrastiivanalüüsile (contrastive
analysis)

Keelevariant, mida õppijad sihtkeeles loovad


Slide 3

Mis on õppijakeelekorpus?
Õppijakeelekorpus (learner corpus, learner
corpora) – vahekeele korpus (interlanguage
corpora) – teie keele korpus (L2 corpora)
elektrooniline keeleressurss
teise keele / võõrkeeleõppija loodud autentsete kirjalike
tekstide või suulise kõnekeele näidete elektrooniline
kogu, milles keelevead on klassifitseeritud ja
märgendatud
korpuse töötlemisel saab kasutada standardtarkvara,
kombineerida ja täiendada olemasolevaid
keeletehnoloogilisi rakendusi


Slide 4

Õppijakeelekorpusi maailmas: inglise sihtkeelega
ÕK (English LC)
1980ndad - European Science Foundation Second Language
Data Bank
Cambridge Learner Corpus
Longman Learners’ Corpus
Interntional Corpus of Learners’ English (ICLE) http://cecl.fltr.ucl.ac.be/; http://cecl.fltr.ucl.ac.be/CeclProjects/Icle/icle.htm
Antwerp Corpus of Institutional Discourse
Corpus of English by Japanese Learners’

jt


Slide 5

MITTE-INGLISE SIHTKEELEGA ÕK
(non-English LC)
Skandinaavias: 1970ndad Rootsi sihtkeelega SSM korpus
(Svenska som Målspråk)
ASU (Andraspråkets StrukturUtveckling korpus)
SVANTE korpus
CrossCheck (Svensk grammatikkontroll för
andraspråksskribenter)
ASK (Language learner corpus of Norwegian as a second
language)
Prantsuse keel: FRIDA ja FreeText jt


Slide 6

Õppijakeelekorpuste kasutamisest
Uurimistöö eesmärgil, et viia vastavusse õppija
vajadused ja keeleõpe
nt Louvaini Ülikooli ICLE
Uppsala Ülikooli USE

Kommertseesmärgid
Cambridge Learner Corpus
Longman Learners´ Corpus

Uurimistöö + kommerts
FRIDA ja FreeText – arvutipõhine keeleõpe:
õppijakorpus (computer assisted language learning)


Slide 7

Eesti võimalusetest
Tallinna Ülikooli Eesti vahekeele korpus
Loodud uurimistöö ja eesti keele kui teise keele /
võõrkeele õppe eesmärkidel; perspektiivis rakendada
õppijakorpusena
On vene emakeelega õppijate eesti sihtkeele kirjalike
tekstide kogu, mida kavas täiendada suulise kõne
näidetega (ideaal 50% : 50% pole reaalne, nt British
National Corpus 10% suulise keelekasutuse materjale
ja 90% kirjalikke tekste, kuna neid raske ühtse
standardi alla viia ja oamvahel siduda – S.Granger)
Sisaldab metainfot õppija- ja tekstide kohta


Slide 8

Info teksti koostaja kohta (sugu, vanus, emakeel,
kodune keel, päritolupiirkond Eestis või mjal
maailmas, sotsiaalne taust, keeletase); koostaja
isikuandmeid pole võimalik tuvastada; olemas
koostaja nõusolek teksti kasutamiseks korpuses
Andmed teksti kohta (maht sõnades ja lausetes,
teksti liik, teksti koostamise laad)
Info teksti sisestaja ja märgendajate kohta:
avalikustatud sisestaja nimi, märgendajate nimed
avalikkuse eest varjul


Slide 9

Tekstide maht: 50 – 1000 sõnet
Kontrollkorpus, millel katsetatkse erinevaid
programme – 500000 sõnet
Vene lähtekeelega õpilaste eesti sihtkeele näidete
hulk – 1, 5 miljonit sõnet + allkorpused soome,
rootsi, inglise ja saksa lähtekeelega
õppijatekstidest; eesmärk – eesti õppijakeele
lingvistiliste universaalide väljatoomine


Slide 10

Kasutajaliides teeb korpuse Internetis vabalt
kättesaadavaks, teavet ei tohi kasutada
kommertseesmärkidel
Töötab konkordantsileidja, sõna- ja vormisageduse
statistika, märgendatud vigu saab näha vealiigiti ning
kitsamas kontekstis, vajadusel – terviktekstis
Dokumentide ja andmete esitamiseks on kasutatud XMLformaadi XHTML-versiooni, märgendite hierarhias on
tarvitusel XPATH-keel
Korpuses loodud võimalus individuaalseks uurimistööks


Slide 11

Veamärgendus
Alus: mitmemõõteline lingvistiline
veataksonoomia (Eslon 2006b: 14–17;
Eslon & Metslang 2007: 106–112)
Eristatakse veaklasse (1 – 18), vealiike
(leksikaalsed, leksikaagrammatilised,
morfonoloogilised, morfoloogilised,
morfosüntaktilised, süntaktilised,
kommunikatiivsed, sõnatuletuslikud + Proovi
kätt!), alamliike, nende alamliike jne


Slide 12

Veaklassid
Semantika
tekst
1
lause
4
sõnaüh. 7
sõna
10
morfeem 13
grafeem 16

Grammatika
2
5
8
11
14
17

Pragmaatika
3
6
9
12
15
18


Slide 13

Veaklasside näited
1 – grafeem + semantika (need inimesed on *laiad / laisad,
grafeem s eristab sõnu)
2 – grafeem + grammatika (maja tagasi on *õue / õu, grafeem
e eristab käändevorme)
3 – grafeem + pragmaatika (*K-Järvelt / Kohtla-Järvelt,
väljendustava vastu eksimine)
4 – morfeem + semantika (*nad andsid mulle tarku selles
õppeaines / tarkust selles õppeaines, morfeemi ärajätt on
sõnu eristav tunnus)
5 – morfeem + grammatika (Sa *oskasid palju huvitavaid
faktid ajaloost / sa tead palju huvitavaid fakte ajaloost,
mineviku ajavormi kasutamine ei sobi kokku edastatava
informatsiooni sisuga) jne


Slide 14

Vealiikide, alamliikide ja nende
jaotumise näide
Morfonoloogilised
• Astmevaheldus





seoses sõnatuletusega
seoses vormimoodustusega
tüvevaheldus ja supletiivsed tüved
deminutiivsete liidete kasutamine


Slide 15

Märgendatud teksti näide
Minu unistuste auto (1) >>.<<
Minu unistuste auto peab olema (2) >>moodsus<<,
(3) >>kiirus<< , ilus… Sellepärast mulle ei meeldi
(4) >>vanad autod ja liiga (5) >>väiked<<<< .
Tahan, et minu auto oleks (6) >>mugavus<< ja (7)
>>pehmed istmed<< . (8) >>Auto peab olema
taskukohane<< , et ma saaksin (9) >>osta<< . Ei
taha, et oleks raske (10) >>juhimine<< (11)
>>,<< suur kütusekulu.


Slide 16

Märgendatud vigade alamliigid
Tekstis märgendatud vealiigid:
(1) Interpunktuatsioonivead
(2) Vale sõnaliigi kasutamine
(3) Vale sõnaliigi kasutamine
(4) Sõnajärg ja lause teatestruktuur
(5) Omadussõna käändevormide moodustamine ja kasutamine
(6) Vale sõnaliigi kasutamine
(7) Verbirektsioon
(8) Semantiline seos sõnade vahel
(9) Tegevuse transitiivsus / intransitiivsus
(10) Vale sõnaliigi kasutamine
(11) Sidendite kasutamine olenevalt seose semantikast


Slide 17

Metainfo
Informant

Tekst

Sugu: naine
Vanus: kuni 40a
Elukoht: Ida-Virumaa
Sots.: teenistuja
Emakeel: vene
Kodus: vene
Haridus: kesk
Tase: A
Abivahendid: ei

Tüüp: vastkys
Sõnu: 47
Lauseid: 5
Vigu kokku: 11
Erinevaid: 8


Slide 18

Sõna- ja vormisagedus
Sagedus
13939
13295
5553
5091
5087
4073
3882
3835
3556
2991
2478
2340
2337
2230

Eesti õppijakeel
Ja
On
Et
Ei
Ma
Oli
Eesti
See
Kui
Ka
Oma
Aga
Ta
Väga

Eesti kirjakeel
Ja
On
Ei
Et
Ta
Oli
Kui
Ka
See
Oma
Aga
Ma
Ning
Mis

Sagedus
27214
19184
13810
12314
10170
8861
8599
6191
6114
5329
5274
4454
4409
4391 jne


Slide 19

Sõnavormide tähestikuline järjekord:
sõna aasta vormid ja tuletised
aasta 269, aastaaeg 4, aastaajast 1, aastaarv 1, aastaarve 3, *aastaas 1,
aastad 28, *aastade 1, aastaga 8, aastaid 15, aastail 5, *aastak 1,
aastaks 19, *aastakssee 1, aastakäikude 1, aastakümned 1,
aastakümneid 5, aastakümnetel 3, aastal 486, aastale 3, aastalt 25,
aastana 1, aastane 56, aastani 19, aastapäeva 1, aastapäeval 1,
aastapäevale 4, aastas 44, aastasadade 1, aastasajaks 2, aastased 2,
aastaseks 2, aastaselt 1, aastasena 3, aastast 51, aastastele 4, aastat
327, aastate 36, aastatega 2, aastatel 71, aastateni 2, aastatesse 2,
aastatest 1, *aastatkõrgkoolide 1, *aastattel 1, *aastatuh 3,
aastatuhande 6, aastatuhandeid 3, aastatuhandel 3, aastatuhandete 2,
aastatuhat 3, aastavahetus 2, aastavahetuseks 1, aastavahetusel 1,
aastavahetuseprogrammid 1, *aasttuh 3, *aastunud 1, *aatat 1


Slide 20

Vigase vormi aastade kasutamisest
Eesti vahekeele korpuses: 1 kord
TÜKK: 90ndate ajakirjanduskeel - puudub
EKI: puudub
GOOGLE: 208 dokumendist 58 esindatud:
Tudengijazz 2007

Eelnevate aastade festivalidel on olnud esinejaid ... Soomest, Rootsist,
Norrast, Saksamaalt, Prantsusmaalt, USA’st, Lätist, Leedust,
Venemaalt, ...
www.tudengijazz.ee/ - 9k - Puhverdatud - Sarnased lehed
Software Engineering Center ::
Hädaolukorra tekkimisel, mis võib esineda kord paljude aastade
jooksul, võivad taolised abivahendid olla kas kadunud või kaotanud
oma töövõime. ...
www.sec.ee/solutions2.php?id=90&id1=32&id2=0&id3=1&lg=eesti 21k - Puhverdatud - Sarnased lehed


Slide 21

Korpuste kasutamisest keeleõppes
Autentse keeleainese allikast automatiseeritud
interaktiivse õpikeskkonnani
Õppijakeelekorpused
Keeleõppe tekstide korpused
Õppijakorpused
Kirjakeelekorpused
• Paralleel- ja tõlkekorpused

Veebikeskkond


Slide 22

Kirjakeelekorpused
Keelekasutuse korpuspõhine lingvistiline analüüs
– oluline teave sõnastike ja õppematerjalide
koostamiseks, ainekava korrigeerimiseks ja
sisuliseks täiendamiseks autentse materjaliga (nt
Kasik 2004, Kerge 2003, Kilgi2006, Metslang
2005)
Korpuspõhine keeleõpe: ühe- ja mitmekeelsed
sõnastikud, sagedussõnastikud, kollokatsioonide
nimistud, tasemeõppe modelleerimine jne


Slide 23

Paralleel- ja tõlkekorpused
Materjali kontrastiiv- ja tõlkeanalüüs
Eesmärk:
leida tõlkimise ja õppijakeele universaale, tüüpilisi leksikaalseid ja
süntaktilisi vastavusi / mittevastavusi (nt A.Mauranen
“Käännösuomi ja kääntämisen uiversaalit. Tutkimus
korpusainestolla”)
välja töötada optimaalne tõlkijakoolituse ja keeleõppe mudel,
veenduda sõnastike ja õppematerjalide sobivuses tõlkija ja
keeleõppija vajadustega (nt Jyväskylä paralleelkorpus, mida tehti
koostöös Oslo inglise-norra korpusega – K.Sajavaara ja
S.Johansson)
uurida strateegiaid, mida inimene tekstiloomes ja tõlkimisel
kasutab


Slide 24

Väljund
Korpuslingvistiline tõlkeuurimus annab meetodi, mille
abil pääseda tõlke olemuseni
Süstemaatilise tõlkeanalüüsi rakendamine annab keelte
kõrvutamiseks sobiva meetodi, mis aitab viia kontrastiivse
keeleuurimise kvalitatiivselt uuele tasandile (Jantunen &
Eskola 2002: 202; Eslon 2006a: 17, 19-20)
Saab jälgida kirjakeele arengusuundi
Eelduseks normatiivsuse küsimuse lahendamine
Väljundiks keele- ja kultuuriinterferentsi, valede ja ebatäpsete
tõlkevastete, kalkeerimise jms vähendamine; tõlkestrateegia valiku
suunamine (Михайлов 2003: 31; McEnery & Wilson 2001: 72)


Slide 25

Veebikeele uurimine
Berghi näide: sõnaotsing Taliban
Coubildi 56 miljoni sõne seast leidis ta 40 konteksti,
BNC 100 miljonist – mitte ühtegi ja Google´is –
1 890 000 näidet (Bergh 2005: 26–27)
Veebikeele uurimise eelis: representatiivsema tulemuse
saamine - selguvad antud hetkel keelele omased,
tüüpilised, kesksed nähtused ja protsessid. Sellest ei saa
oma töös mööda minna ka keelekorraldajad
Veebikeele uuringute läbiviimise probleem seisneb aga
piisavalt kasutajasõbraliku vabavara olemasolus


Slide 26

Korpuste töötlemisest
Standardiseeritud programmide ja statistiliste meetodite
kasutamine korpuspõhises uurimistöös
Oxford Concordance Program, Word Cruncher, WordSmith Tools,
MonoConc, Text Encoding Initiative jt

Eesmärk: leida keeles olevaid loomulikke liigitusi, mis
kajastuvad lingvistiliste andmete arvutipõhises ja
statistilises analüüsis; mitte tegeleda grammatiliste
abstraktsioonidega (Abney 1995)
Õpikute sisu ja keele analüüs võrdluses kirjakeele korpuse
andmetega (Asser et al 2004); väjund – eesti kirjakeele
sagedussõnastik (Kaalep & Muischnek 2002)


Slide 27

Keeletehnoloogiline arendustöö
Riiklik programm “Eesti keele keeletehnoloogiline
tugi (2006 – 2010)”
Üks kavandatavatest rakendustest – süntaksianalüüsil
põhineva tarkvara, sh automaatse grammatikakorrektori
väljatöötamine
• Keeleressursside mahu suurendamine ja uute loomine
(mitmekeelne paralleelkorpus, “vigade korpus”)
• Olemas 50000 sõnest koosnev “vigade korpus” – suurendada
200000ni – teha Internetis kättesaadavaks
• Grammatikakorrektor, mis suudab leida rektsiooni ja
ühildumisvigu

Eesmärk: analüüsida ebastandardseid tekste


Slide 28

Interaktiivsed õppematerjalid ja
õppekeskkonnad
Virtual Language Centre või Eesti e-ülikoolid ja
e-kutsekoolid
e-õppe keskkonnad (nt WebCT, Moodle, IVA) ja
programmid e-kursuste loomiseks (nt Hot
Potatoes, Flickr jt)
Näide: K.Uibu e-kursus “Akadeemilise teksti
loomine” (pälvis konkursil “Aasta e-kursus 2006”
eripreemia kodutööde mitmekesisuse ja disaini
eest)


Slide 29

Järg
Efant ja Kaunis külaline
Eesti keel ja meel (Pangloss 2007)
Laserplaadit “25 X EESTI”
CD-ROM “Talk Now!”, tehtud Antwerpeni
ülikooli mitmekeelse SMALLINC-projekti raames
(Rammo & Tael 2004: 156).
Eesti keele algõpet saab teostada ka
arvutiprogrammiga Oneness on-line language
training courses


Slide 30

Viidatud kirjandus
Abney, Steven 1996. Statistical Methods and Linguistics. – The Balancing Act: combining
symbolic and statistical approaches to language / Ed. by Judith L. Klavans & Philip
Resnik. Cambridge: MIT Press, http://www.vinartus.net/spa/95c.pdf, 8.07.2007.
Asser, Hiie & Kaalep, Heiki-Jaan & Linnas, Siret & Mikk, Jaan & Muischnek, Kadri &
Songe, Merje & Uibo, Heli 2004. Õpikute keerukuse analüüs arvutitel. – Toimiv keel II.
Töid rakenduslingvistika alalt / Toim. M.-M.Sepper, J.Lepasaar. TPÜ eesti filoloogia
osakonna toimetised 3. Tallinn: TPÜ Kirjastus, 72 – 84.
Bergh, Gunnar 2005. Min(d)ing English language data on the Web: What can Google tell
us? – ICAME Journal. Computers in English Linguistics 29, 25 – 46,
http://icame.uib.no/ij29-page25-46.pdf, 14.07.2007.
Eslon, Pille & Metslang, Helena 2007. Õppijakeel ja eesti vahekeele korpus. – Eesti
Rakenduslingvistika Ühingu Aastaraamat (III), 99 – 116.
Eslon, Pille 2006a. Analoogiast keelte kõrvutamisel. – Keel ja Kirjandus 1, 15 – 24.
Eslon, Pille 2006b. Eesti vahekeele korpusest korrelatsioonigrammatikani. – Eesti
Rakenduslingvistika Ühingu aastaraamat 2 / Toim. H.Metslang, M.Langemets. Tallinn:
EKS. Lk. 11 – 24.


Slide 31

Granger, Sylviane 1998. The computer learner corpus: A versatile new source of
data for SLA research. – Learner English on computer / Ed. by S.Granger.
London: Longman, 3 – 18.
Granger, Sylviane 2003. Error-tagged learner corpora and CALL: a promising
synergy. – CALICO Journal 20(3), 465 – 480,
http://selene.lib.jyu.fi:8080/julpu/9513915425.pdf, 19.09.2007.
Granger, Sylviane 2004. Computer Learner Corpus Research: Current Status and
Future Prospects. – Applied Corpus Linguistics. A Multidimensional
Perspective / Ed. by U.Connor & T.A.Upton. Amsterdam / New York:
Rodopi, 123 – 145.
Jantunen, Jarmo Harri & Eskola, Sari 2002. Käänössuomi kielivarianttina:
syntaktisia ja leksikaalisia erityispiirteitä. – Virittäjä 2, 184 – 207.
Kaalep, Heiki-Jaan & Muischnek, Kadri 2002. Eesti kirjakeele sagedussõnastik.
Tartu: TÜ Kirjastus.
Mauranen, Anna & Kujamäki, Pekka (Eds) 2004. Translation Universals: Do
They Exist? Amsterdam: Benjamins.


Slide 32

Jätk
McEnery, Tony & Wilson, Andrew 2001. Corpus linguistics / 2nd Ed. Edinburgh:
Edinburgh University Press.
Михайлов, Михаил 2003. Параллельные корпуса художественных текстов:
пинципы составления и возможности применения в лингвистических
переводческих
исслкдованиях
(на
примере
русско-финского
параллельного корпуса художественных текстов). – Acta Universitatis
Tamperensis 956. Tamepere University Press, http://acta.uta.fi/pdf/951-445754-4.pdf, 9.09.2007.
Pravec, Norma A. 2002. Survey of learner Corpora. – ICAME Journal № 26, pp.
81 – 114, http://icame.uib.no/ij26/pravec.pdf, 11.09.2007.
Rammo, Sirje & Tael, Maarika 2004. Eesti keele õppematerjalid CD-ROMil. –
Emakeel ja teised keeled IV. (Tartu ülikooli eesti keele (võõrkeelena)
õppetooli toimetised 3. Tartu: TÜ Kirjastus, 156 – 163.