Korpukset ja kieli Ctl310corp Kevät 2004 Antti Arppe Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa.

Download Report

Transcript Korpukset ja kieli Ctl310corp Kevät 2004 Antti Arppe Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa.

Korpukset ja kieli
Ctl310corp
Kevät 2004
Antti Arppe
Kun intuitio ja introspektio eivät riitä
– riittävätkö korpuksetkaan?
Miten korpuksia voi/pitäisi käyttää
kielen kuvauksessa ja tutkimuksessa
Aloitusluento 12.3.2002 klo 12-15
• Hallinnolliset kuviot
– kurssin tavoitteet
– kurssin rakenne ja suoritus
– kurssin ohjelma ja aikataulu
• Mitä ovat korpukset
• Mitä on korpuslingvistiika
2
Kurssin motivaatio ja tavoitteet
• Kurssin tavoitteena on kokemusperäisesti
tarkastella, miten korpuksia voidaan käyttää
kielen tutkimuksessa.
• Minkälaisia tutkimuskysymyksiä kannattaa
esittää korpuksille
• miten korpuksia kannattaa tutkia, ja
• mitä tulosten pohjalta voidaan sanoa
kielestä.
3
Kurssin rakenne ja suoritus
• Kuusi luentoa
• Tentti (1 ov)
• Harjoitustyö (1 ov)
4
Suoritus I: luennot
•
•
•
•
•
pe 12.3., 19.3., 26.3., 2.4.,16.4. ja 23.4.
kello 12-15 (tauko keskellä)
Siltavuorenpenger 20, ls 334D
“teoria”- ja vierailuluentoja
luentomateriaalit löytyvät verkosta kurssin
verkkosivuilta
– http://www.ling.helsinki.fi/kit/2004k/ctl310corp
5
Suoritus II: tentti
• Laajuus 1 opintoviikko
• pe 30.4. klo 12-14 luentosalissa ls 334D ja
tiedekuntatenttipäivänä ke 19.5. (ilm. ma
10.5.)
• Kurssikirja: Biber, Douglas; Conrad, Susan;
Reppen, Randi (1998). Corpus linguistics:
Investigating Language Structure and Use
• Ylimääräinen kurssikirja: Sinclair, John
(1991). Corpus, concordance, collocation 6
Suoritus III: harjoitustyö
• laajuus 1 opintoviikko
• pienimuotoinen korpustutkimus kiinnittäen
huomiota aineiston ja menetelmien vaihtoehtoihin
ja valintojen perusteluihin
tai
• olemassaolevan (julkaistun) korpuspohjaisen
tutkimuksen kriittinen analyysi ja arvio kuten yllä
• palautus pe 30.4.2004
• tarkempi ohjeistus kolmannella luentokerralla (pe
26.3.)
7
Luentojen rakenne ja aikataulu I
Pe 12.3.
• Johdanto ja kurssin suoritus
• Mikä on korpus, minkälaisia korpuksia on?
• Minkälaista on korpuslähtöinen kielentutkimus –
käytäntö ja teoria ?
Pe 19.3.
– Korpuksen valitseminen ja koostaminen
– korpuksen suhde hypoteesiin – mikä on edustava
korpus?
Pe 26.3.
• Korpuksen esiprosessointi
• annotoinnin filtteröinti
• lingvistiset analyysityökalut – hyödyt ja haitat
8
Luennot II
• Pe 2.4. (12-14)
Korpusten tilastollinen käsittely
tilastolliset menetelmät ja kieli
• Pe 16.4.
Puhekieliset korpukset (FT Martti Vainio) – Mitä uutta
puheeseen perustuvat korpukset tuovat
korpuslingvistiikkaan?
• Pe 23.4.
Korpusten tulkinta - "korpukset ja kieli”
entäs sitten?
9
Kuinka moni teistä on tehnyt
korpuspohjaista kielentutkimusta
tai tutustunut siihen?
Hypoteesi – aineisto – menetelmä –
tulkinta?
Mikä on korpus?
•
•
•
•
•
yksittäinen tekstifragmentti
yksittäinen sanomalehtiartikkeli?
kaunokirjallinen kirja?
yksi sanomalehti kokonaisuudessaan?
Assyrian valtionartiston savitaulut
kokonaisuudessaan?
• yksittäisen tv-ohjelman transkriptio?
• muita...?
11
Mikä on korpus?
• corpus, plural corpora A collection of linguistic data,
either compiled as written texts or as a transcription of
recorded speech. The main purpose of a corpus is to verify
a hypothesis about language - for example, to determine
how the usage of a particular sound, word, or syntactic
construction varies. Corpus linguistics deals with the
principles and practice of using corpora in language study.
A computer corpus is a large body of machine-readable
texts.
(cf. Crystal, David. 1992. An Encyclopedic Dictionary of
Language and Languages. Oxford, 85)
12
Korpus...
• CORPUS (13c: from Latin corpus body. The
plural is usually corpora) (1) A collection of texts,
especially if complete and self-contained: the
corpus of Anglo-Saxon verse. (2) Plural also
corpuses. In linguistics and lexicography, a body
of texts, utterances or other specimens considered
more or less representative of a language, and
usually stored as an electronic database. ...
13
Korpus...
• Currently, computer corpora may store many
millions of running words, whose features can be
analysed by means of tagging (the addition of
identifying and classifying tags to words and other
formations) and the use of concordancing
programs. Corpus linguistics studies data in any
such corpus.
(cf. McArthur, Tom "Corpus" , in: McArthur, Tom
(ed.) 1992. The Oxford Companion to the English
Language. Oxford, 2
14
Korpuksen määritelmiä – gurut
• A collection of linguistic data, either written texts or a
transcription of recorded speech, which can be used as
a starting-point of linguistic description or as a means
of verifying hypotheses about a language
 David Crystal, A Dictionary of Linguistics and Phonetics,
Blackwell, 3rd Edition, 1991.
• A collection of naturally occurring language text,
chosen to characterize a state or variety of a language.
 John Sinclair, Corpus, Concordance, Collocation, OUP, 1991
15
Korpuksen määritelmä - kriteerit
• http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corp
us2/2fra1.htm
Korpus ei ole mikä tahansa tekstinpätkä, vaan:
• tutkimuksen ja sen hypoteesin kannalta edustava
otos/kokoelma
• kooltaan rajattu ja sisällöltään määritetty
• elektronisessa muodossa
siitä on saatavissa enemmän tietoa frekvensseista,
rakennehahmoista ja esiintymisassosiaatioista tietokoneen
avulla kuin käsin
uusien analyysien kustannukset ovat verrattaen pienet
verrattuna käsin laskemiseen
• yleisesti saatavilla ( tutkimustulokset ovat
vertailtavissa)
16
Korpuksen käsitteen
monimuotoisuus
•
•
•
määrätietoisesti etukäteen asetettujen
periaatteiden ja kriteerien mukaan kesätty
kokoelma kieliaineistoja (= yo. määritelmä)
kokoelma, johon on kerätty mahdollisimman
paljon kaikkea kieliaineistoa mitä on vaan on
kätevästi ja saatavilla
oma tutkimusaineisto
17
Miksi korpuksia käytetään?
• kun introspektio ei riitä
– introspektiivisiä havaintoja ei voida ulkoisesti
observoida
– introspektiivinen data on useimmiten
keinotekoista
– ihmisillä on vain epämääräinen mielikuva
lingvistisen ilmiön yleisyydestä
18
Miksi korpuksia?
• korpusaineistojen hyödyt
– korpukset ovat avoimempia tulosten objektiiviselle
verifikaatiolle
– korpukset edustavat miten ihmiset todellisissa
käyttötilanteissa tuottavat kieltä, ei jonkun
kielioppikuvauksen sisältämää idealisaatiota (esim.
ovatko moninkertaiset upotukset mahdollisia vai eivät)
– kvantitatiivinen tieto kertoo mikä on yleistä ja mikä on
harvinaisempaa paremmin kuin introspektio
– tietokoneet ja elektroniset aineistot mahdollistavat
aineistojen tehokkaan tarkastelun
19
Minkälaisia korpuksia on?
• Kansainväliset klassikot
http://www.uni-koeln.de/philfak/englisch/bald/corpora.htm
– Brown (kirjoitettua amerikan-englantia 60luvulta  balansoitu: 500 tekstinfragmenttia à
2000 sanaa)
– Lancaster-Oslo/Bergen (LOB) (Brownia
vastaava korpus brittienglantia 70-luvulta)
– Lond-Lund (puhuttua englantia)
20
Korpuksia...
• Uudempia englanninkielisiä
– Bank of English (320 Mw  450 Mw [monitorikorpus])
http://titania.cobuild.collins.co.uk/boe_info.html
– British National Corpus (100 Mw)
– International Corpus of English (1 Mw kustakin englannin
kansallisesta variantista)
http://www.ucl.ac.uk/english-usage/ice/index.htm
– Child Language Date Exchange System (CHILDES)
http://atila-www.uia.ac.be/childes/ (eri-ikäisten lasten
puhetta eri kielillä, mm. englanti ja saksa)
• Korpuksia ympäri maailman
http://www.ruf.rice.edu/~barlow/corpus.html
21
Korpuksia...
• Tunnetuimmat kotimaiset
– Suomen kielipankki (~170 Mw suomea ja ~30 Mw
(suomenruotsia)
http://www.csc.fi/kielipankki/
– KOTUS:en korpukset (historiallista kirjasuomea)
http://www.kotus.fi/aineistot/
– Oulun korpus (500 kw mm. puhuttua suomea; koostettu
1967)
– Savonlinnan käännöskorpus
22
Korpusten luokitteluntapainen
• kielen meediumi: puhekorpukset (esim. LondonLund corpus) vs. kirjalliset korpukset (esim.
Lancaster Oslo/Bergen corpus(LOB) vs. yhdistetyt
(British National Corpus (BNC) tai Bank of
English)
• synkroninen variaatio (kansalliskielen
[standardin] sisäinen): britti-englannin korpukset
(esim. Lancaster Oslo/Bergen corpus) vs.
amerikan-englannin korpukset (e.g. Brown
corpus) vs. joku kansainvälisen englannin korpus
23
Luokittelu...
• historiallinen variaatio: diakroniset korpukset
(Helsinki corpus, cf. ICAME:n kotisivu) vs.
synkroniset korpukset (Brown, LOB, BNC) vs.
vain yhden segmentin kielen historiaa kattavat
korpukset (Old/Middle English, Shakespearen
tekstit)
• maantieteellinen variaatio/murrevariaatio:
murreotoskorpus (e.g. Scots) vs. yhdistetyt (BNC
puheosuus sisältää otoksia puhujista kaikkialta
Britanniasta)
24
Luokittelu...
• ikä: aikuisten englannin korpus vs lasten
englannin korpus (CHILDES:n englanninkieliset
osiot)
• tekstityyppi/rekisteri: kaunokirjalliset vs.
tekniset vs. ei-fiktiiviset (esim. sanomalehtiteksit)
vs. sekoitetut korpukset jotka kattavat kaikki
tekstityypit
• aivoimuus: suljetut, muuntamattomat korpukset
(esim. LOB, Brown) vs. monitorikorpukset (Bank
of English)
25
Luokittelu...
• saatavuus: kaupalliset vs. ei-kaupalliset
tutkimuskorpukset, suoraan saatavilla olevat
(online) korpukset vs. korpukset ftppalvelimilla vs. korpukset levykkeillä
• yksikielisyys vs. monikielisyys (kohdistetut
käännöskorpukset); alkuperäiset
(supisuomi) vs. käännetyt (käännössuomi)
26
Minkälaista korpuspohjainen
kielentutkimus on?
• Korpuspohjaisen lingvistiikan esihistoriaa
– http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corp
us1/1fra1.htm
 Ilman tietokoneita aineiston monipuolinen analyysi on
vaikeaa
• Korpuspohjaisen lingvistiikan varsinainen
käynnistyminen
– http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corp
us1/1fra1.htm
 Korpukset elektronisessa muodossa, tietokoneet
tarkastelun apuna
27
Korpuspohjainen kielentutkimus
tänään?
• Puheentutkimus
• Leksikografia
• Kielioppi/syntaksi
• Semantiikka
• Pragmatiikka
• Sosiolingvistiikka
• Stilistiikka
• Kielenopetus
• Historiallinen
kielitiede
• Murretutkimus
• Psykolingvistiikka
• Kulttuurintutkimus
• Sosiopsykologia
28
Korpuslingvistiikka tänään
• Corpus Linguistics 2003 –konferenssi
(Lancaster 28-31.3.2003)
http://www.comp.lancs.ac.uk/ucrel/cl2003/p
rogramme.html#papers
29
Korpukset ja kieli
Ctl310corp
Kevät 2003
Antti Arppe
Luento 19.3.
Metodologinen yleiskatsaus –
empiirisen tutkimuksen rakenne
Hypoteesin muodostaminen
Aineiston valitseminen ja
koostaminen
Korpuspohjainen
kielentutkimuksen tyypit?
• kvalitatiivinen - laadullinen
– analyysin rikkaus
– tarkkuus ja
– perusteellisuus
• kvantitatiivinen - määrällinen
– tilastollisesti luotettavat ja
– yleistettävät tulokset
31
Kvalitatiivinen – kvantitatiivinen
• Kvalitatiivinen
– tavoitteena täydellinen, yksityiskohtainen
kuvaus
– ilmiöiden frekvenssien merkitys on vähäisempi,
yksittäiset tapauksetkin saavat huomiota
– kielen monitulkintaisuus sallitaan
tulokset eivät välttämättä ole varmuudella
yleistettävissä kieleen kokonaisuudessaan
32
Kvalitatiivinen – kvantitatiivinen
• kvantitatiivinen
– piirteitä luokitellaan, niiden lukumääriä lasketaan ja
vertaillaan
– piirteiden yhteisesiintymistä voidaan tehdä
monimutkaisia tilastollisia malleja
– eri korpuksia voidaan vertailla keskenään
– yleisten, tyypillisten ilmiöiden erottaminen
(mahdollisesti) satunnaisista esiintymistä
– luokitukset tyypillisesti kategorisia
– edellyttää minimiesiintymisiä, jotta yleistyksiä voidaan
tehdä – harvinaiset ilmiöt jäävät paitsioon 
kategorioita saatetaan tästä johtuen niputtaa yhteen 33
Kvantitatiivinen – kvalitatiivinen
• monimetodisuus, eri tutkimusmenetelmiä ja
–aineistoja yhdistyvä tutkimus yleistymyssä
ihmistieteissä
• kvalitatiivinen tutkimus voi edeltää
kvantitatiivista
 intuitiivinen yleiskuva tutkittavasta ilmiöstä ja
aineistosta
 kategoriat on ensiksi identifioitava
34
Tutkimuksen tyypit
• eksploratiivinen – tutkiva, tutkimushypoteeseja
hypoteeseja muodostava, korpus referenssinä 
kuinkas sitä kieltä oikein käytetään
• deskriptiivinen – kuvaava  systemaattisempi ja
kokonaisvaltaisempi
• konstruktiivinen – teorioita muodostava 
tavoitteena enemmän kuin jonkun yksittäisen
lingvistisen olion kuvaus
• testaava – teorioiden validiteetin tarkastelua
35
Tutkimuksen tyypit –
henkilökohtaisia esimerkkejä
• eksploratiivinen: onko synonyymien
käyttökonteksteissa eroja?
• deskriptiivinen: minkälaista on jonkun
synonyymiryhmän käyttö; miten käyttökontekstit
eroavat toisistaan?
• konstruktiivinen: mistä synonyymien
käyttökontekstien erilaisuudet johtuvat?
• testaava: päteekö yllä esitetty teoria
käyttökontekstien erilaisuudesta myös muiden
synonyymiperheiden kohdalla?
36
Mallitutkimuksen rakenne
1)
2)
3)
4)
5)
6)
[Teoreettinen tausta: aikaisempi tutkimus]
hypoteesi
aineisto eli korpus
menetelmä
tulkinta
[Kytkentä teoreettiseen taustaan: miten
tulokset vaikuttavat teoriaan]
37
Hypoteesi
• mikä on riittävän hyvä/perusteltu hypoteesi?
– perustuu aikaisempaan tutkimukseen tai
teorianmuodostukseen?
– perustuu tutkijan tai tutkijayhteisön omaan intuitioon?
• tutkijan kannalta tärkeää on ankkuroida hypoteesi
ajankohtaiseen tutkimukseen
– teoria X väittää jotain Y kaikista kielistä: pitääkö Y
paikkansa kielessä Z
– teoria X on yksi kielen rakenteen kuvauksen yleisistä
malleista: miten teoriaa X voisi soveltaa kielessä Y
38
Aineisto
• hypoteesin perusteella
 minkälainen aineisto on (riittävän) edustava
hypoteesin kannalta
 edustavuus/kattavuus voiko mikään aineisto
koskaan olla täysin representatiivinen kielen
kannalta?
• kielen monimuotoisuuden huomiointi: kieli ei ole
homogeenista  yhdestä aineistosta ei voi
välttämättä päätellä kaikesta kielenkäytöstä
39
Menetelmä
• esiprosessointi: ylimääräisen annotoinnin
poistaminen
• lingvistinen (automaattinen) analyysi
 virheiden huomioiminen ja vaikutus
 automaattisen analyysin täydentäminen käsin
 lingvistisen analysaattorin implisiittisesti sisältämä
malli kielestä  miten analysaattori vaikuttaa ja
ennakoi tuloksia
• tilastolliset mallit
Miten hyvin/huonosti niiden (matemaattiset) ennakkooletukset vastaavat kielen olemusta
40
Tulkinta
• miten tulokset vastaavat hypoteeseja
• miten paljon voidaan sanoa kielestä
ylipäänsä
 mistä tulokset itse asiassa kertovat
• kuinka merkitseviä tulokset ovat?
 keskeistä on aina kuitenkin lingvistin
tulkinta: mitä lingvisti nostaa esille tai
näkee merkittävänä – kielitieteen kannalta
41
Tutkimuksen suunnittelun tärkeys
• ekstralingvististen muuttujien huomioiminen
korpusta valittaessa ja koostettaessa (tekstityypit ja
niiden väliset erot, murteet, idiolektit)
• aineistoon ja annotointiin perehtyminen: kuinka
täydellisesti/perusteellisesti/oikein aineisto on
esikäsitelty
• työkalujen vaikutuksen arvioiminen: kuinka
hyvin/huonosti automaattiset analyysityökalut
toimivat
• esitutkimuksen tärkeys  ei soitellen sotaan vaan
perusteellisesti kokeillen ennen lopullisen
42
tutkimusasetelman lukkoonlyömistä
Esimerkkejä hypoteeseista: Int’l
Journal of Corpus Linguistics
Hypoteesin muodostaminen
käytännössä – oman tutkimuksen
teoreettista taustaa
• erityisesti englannin osalta on osoitettu, että synonyymien valintaan
vaikuttavat rekisteri, tavoiteltu tyyli ja käyttötilanne, esim. dollar vs.
buck (Zgusta 1971, Biber 1998)
• myöhemmin on englannin osalta osoitettu myös että leksikaalinen ja
syntaktinen konteksti vaikuttaa myös synonyymin valintaan, esim.
begin vs. start (Biber 1998):
 SUBJ start (intransitiivinen käyttö)
 SUBJ begin OBJ
 SUBJ begin TO-V
• lisäksi on argumentoitu, että lekseemin kullakin taivutusmuodolla voi
periaatteessa olla itsenäiset käyttöyhteydet, esim. kollokaatioiden
suhteen (Sinclair 1991)
44
Alkuperäinen tavoite
• jos kerran sanan ulkoinen konteksti, olkoon se
leksikaalinen tai syntaktinen rakenne, vaikuttavat
synonyymin valintaan (englannin tyyppisessä
morfologisesti köyhässä kielessä), niin eikö
suomessa (morfologisesti rikkaassa) olisi
vastaavaa havaittavissa taivutusmuotojen ja
piirteiden osalta
• Hypoteesi: onko synonyymeiksi tulkittavien
sanojen taivutusprofiileissa empiirisesti
havaittavia eroja?
45
Hypoteesin konkretisoiminen:
mitä on synonymia?
• synonymian määritelmä ja käsittely näyttää
seuraavan siitä miten merkitys ymmärretään
– merkitys kompositionaalisten, kategoristen
piirteiden joukkona  synonymia
tietyntyyppisenä erona ko. piirteissä
– merkityksen syntyminen käyttöyhteyden kautta
(Firth)  synonymia korvattavuutena tai
vaihdettavuutena samanlaisissa konteksteissa
(Miller 1990)
46
Synomia – absoluuttinen
synonymia – lähisynonymia
• absoluuttinen synonymia edellyttäisi
vaihdettavuutta kaikissa mahdollisissa
kontekteissa, mutta tämä on oletetusti käytännössä
erittäin harvinaista
– käytännössä joutuu tutkimaan lähisynonymiaa (l.
plesionymiaa)
– synonymia on kuitenkin jollakin naivilla tasolla
todellista, sillä tavalliset kielenkäyttäjät mieltävät
synonyymien olemassaolon ja kokevat että sanoja
voidaan usein vaihtaa toisiin ilman että lauseen
merkitys ja konnotataatiot oleellisesti muuttuvat
47
Tutkimuksen rajaaminen:
tutkittavien synonyymien valinta
• ei ole mielekästä ryhtyä tutkimaan kaikkia
potentiaalisia synonyymejä: yksikin pari voi riittää
• tavoitteena oli valita verbipari joka olisi a priori
niin samankaltainen sekä syntaktisen että
semanttisen valenssin suhteen kuin mahdollista
• kaikkien verbien suhteelliset frekvenssit laskettiin
korpuksesta ja nämä yhdistettiin elektronisen
synonyymisanakirjan sisältöön
• kullekin synonyymiryhmälle laskettiin
suhteellisten frekvenssien geometrinen keskiarvo
r1 x ... rn , jonka mukaan synonyymiryhmät
48
rankattiin
Tutkimuksen rajaaminen:
synonyymilistan Top 1000
• 1000 kollektiivisesti yleisintä
synonyymiryhmää
49
Tutkimuksen rajaaminen
• rankatut synonyymiryhmät arvioitiin subjektiivisesti
• mikäli jossakin synonyymiryhmässä ei ensi näkemältä
tuntunut olevan ilmiselviä eroja merkityskentän tai
syntaktisen käytön suhteen, potentiaalisia kandidaatteja
arvioitiin Perussanakirjan sanaselitysten ja
esimerkkilauseiden perusteella (Haarala 1997) ja
lisäksi Pajunen (1982)
• mitä enemmän sanojen sanaselitykset ja esimerkit
olivat samansuuntaisia, sitä parempi
• polyseemisiä kandidaatteja hyljeksittiin
50
Lopullinen rajaus ja hypoteesi
• kognitiviiset verbit pohtia and miettiä
• myös ajatella, tuumia ja harkita voisivat
tulla kyseeseen
• Hypoteesi: verbien pohtia ja miettiä
morfologiset kontekstit eli
taivutusmuotoprofiilit eroavat joiltakin
osin tilastollisesti toisistaan
51
Aineiston valinta – edustavuus
• kun ilmiötä ei voida tai haluta tutkia
(kvantitatiivisessa tutkimuksessa)
kokonaisuudessaan, ihmistieteissä
turvaudutaan tyypillisesti satunnaisotantaan
 Satunnaisotanta edellyttää, että
lähtökohtapopulaatio on mahdollisimman
selkeästi määritelty ja rajattu
 miten otannan populaatio määritellään
kielitieteessä?
52
Edustavuus – populaatio
• miten hyvin populaatio on määriteltävissä?
 Tutkimushypoteesi määrää
• kattava bibliografinen indeksi: kaikki Suomessa
julkaistu kaunokirjallisuus vuosina 1990-2000
• sanomalehtiteksti Suomessa vuonna
1994/vuosina 1990-2000
• Keskisuomalainen vuonna 1994
• Ylioppilasaineet vuonna 2000
53
Edustavuus - populaatio
• mikä voisi olla (suomen) kielen populaatio?
 mitä ”koko” kieleen kuuluu?
• kirjoitettu kieli:
–
–
–
–
–
–
–
sanomalehdet
kaunokirjalliset kirjat: alkuperäiset vs. käännöstekstit
juridiset tekstit
tekniskaupalliset tekstit
kirjeet
sähköiset uutisryhmät
chattipalstat, IRC
54
(Suomen) kielen populaatio?
• puhuttu kieli:
– uutislähetykset
– esitelmät kirjoitetun tekstin pohjalta
– ihmisten väliset nauhoitetut spontaanit
keskustelut
– jne...
55
”Koko” kielen populaation
problematiikkaa?
• mikä tulisi olla ”kielen” eri osa-alueiden
keskinäiset kokosuhteet ”koko” kieltä edustavassa
populaatiossa?
 onko ylipäänsä väitettävissä, että kielestä (esimerkiksi)
50% on kirjoitettua ja 50% puhuttua
 onko ylipäänsä mielekästä yrittää muodostaa otosta
”koko” kielestä
 onko ylipäänsä mielekästä edes yrittää tutkia kieltä
”kokonaisuudessaan”
 häviävätkö kielen eri osa-alueiden erot kun ne
niputetaan yhteen?  olisiko mielekäämpää yrittää
tarkastella kielen eri osa-alueiden välisiä
56
samankaltaisuuksia ja eroja? (Biber)
Lingvistisen populaation
problematiikkaa
• kuinka homogeenisia yksittäiset osa-alueet ovat? esim.
sanomalehtiteksti sisältää laajan kirjon eri
tekstityyppejä ja yhdistää kirjoitettua ja puhuttaa kieltä
(sitaatit)
• Esimerkkejä sanomalehtitekstistä (HS 13.3.2003)
•
•
•
•
poliittinen artikkeli
urheiluartikkeli
mielipidekirjoitus
tiedeartikkeli
 Yksittäisenkin kielen osa-alueen sisällä tulee pohtia,
mitkä tekijät mahdollisesti aiheuttaisivat variaatiota
(esim. toimittajien idiolektit)
57
Satunnaisotannan periaatteita
korpustutkimuksessa (Biber)
• lähtökohtana määritellä tutkittavan populaation
hierarkinen stratifioituminen
 jaottelun eri tekstityyppeihin tulisi perustua
hypoteesistä lähtevään tutkimusasetelmaan ja sen
teoreettisiin taustaolettamuksiin
 käytännössä tekstityyppijaottelussa joutuu
turvautumaan käytettävissä olevien korpusten
jaotteluihin ja niiden sisältämään ekstralingvistiseen
tietoon (Kielipankin aineistot)
• stratifioitunut otanta on vähintään yhtä edustava kuin
puhdas satunnaisotanta, sillä se varmistaa kunkin
tekstityypin mukanaolon
58
Oman tutkimuksen otanta
• sanomalehtiteksti on hyvä lähtökohta, sillä se pitää
sisällään useita eri tekstityyppejä
• Keskisuomalaisen aineisto (1994, 2 Mw) sisälsi
tarvittavaa ekstralingvististä tietoa sekä
tekstityypeistä että artikkelien kirjoittajista
tekstityypin tai idiolektin mahdollinen vaikutus
tuloksiin  esiintyykö variaatiota?
• Koko sanomalehtikorpus (16 Mw
Keskisuomalaisen lisäksi mm. Hesarin) oli
kooltaan 8-kertainen, jolloin harvinaisemmat
ilmiöt olivat havaittavissa ( tilastollinen
merkitsevyys)
59
Korpukset ja kieli
Ctl310corp
Kevät 2003
Antti Arppe
Luento 26.3.
Annotointi
Aineiston esikäsittely
Automaattiset analyysityökalut
Annotointi
• korpukset voivat olla:
– raakoja = tekstejä sellaisenaan
– annotoituja eli tekstin alunperin kuulumattomalla,
pääosin lingvistisellä informaatiolla varustettuja
• annotaatio voi koostua yksittäisistä tageista (esim. Brown
collects_VVZ) tai tagirymistä (esim. ENGTWOL collects V
IND PRES SG3)
 Vaikuttaa tagien määrään ja käsittelyn
• sanakohtainen tai virkekohtainen (KOTUS) annotaatio
– lingvistisen annotaation lisäksi korpukset sisältävät
nykyisin myös lähde- ja rakenteellista tietoa (esim.
SGML/TEI/XML-taggauksen muodossa)
61
TEI/SGML-formatoitua ja
annotoitua korpusta
(Keskisuomalainen 1994/CSC)
<group id="KS-1994-01-02">
<!-Nimi: apua!
Aihe:
Teki: KSML
Osasto: viv
Luontipvm: 931229
Ilm.pvm: 940102
-->
<text lang="FI">
<body>
<div type="article">
<head type="half-title">Kansanedustaja ja taiteilija joululomalla Bosniassa
</head>
<head type="title">Tähtäimessä punainen risti </head>
<p>
Kun monet espanjalaisparlamentaarikot selailivat joulun alla matkaoppaita lehtereillä, <num>29</num>&ndash;vuotias kansaned
ustaja Tomas Burgos lastaili kiireisenä kahdeksaa pakettiautoa ja kahta rekkaa. Matkakohteeksi oli valittu talvinen Bosnia.
</p>
62
Lingvistisesti annotoitua korpusta
(FDG/Conexor)
0
1
2
3
Kun kun pm:>4 &CS CS
monet moni attr:>3 &A> PRON PL NOM
espanjalaisparlamentaarikot espanjalais#parlamentaarikko
subj:>4 &NH N PL NOM
4
selailivat selailla
&+MV V ACT IND PAST PL3
5
joulun joulu loc:>4 &NH N SG GEN
6
7
8
10
12
13
14
15
16
17
18
19
20
21
22
24
25
26
27
28
30
alla alla pm:>5 &PM PSP
matkaoppaita matka#opas
&NH N PL PTV
lehtereillä lehteri
&NH N PL ADE
,
,
29 29
&NH NUM CARD
vuotias vuotias attr:>13
&A> A SG NOM
kansanedustaja kansan#edustaja attr:>15
&NH N SG NOM
Tomas Tomas attr:>15
&A> N SG NOM
Burgos burgos subj:>16
&NH N SG NOM
lastaili
lastailla
&+MV V ACT IND PAST SG3
kiireisenä
kiireinen
copr:>16
&NH A SG ESS
kahdeksaa
kahdeksan
qn:>19 &QN> NUM CARD SG PTV
pakettiautoa paketti#auto
&NH N SG PTV
ja
ja
cc:>19 &CC CC
kahta kaksi qn:>22 &QN> NUM CARD SG PTV
rekkaa rekka cc:>19 &NH N SG PTV
.
.
Matkakohteeksi matka#kohde
&NH N SG TRA
oli olla main:>23
&+MV V ACT IND PAST SG3
valittu valita attr:>28
&-MV V PASS PCP2 SG NOM
talvinen
talvinen
attr:>28
&A> A SG NOM
Bosnia Bosnia
&NH N SG NOM
.
.
<s> <s> >29
63
Hyvän annotoinnin periaatteet
(Leech)
• 1. Annotoinnin tulisi olla
erotettavissa/irrotettavissa/siivottavissa
alkuperäisestä/varsinaisesta korpuksesta
– Claire_NP1 collects_VVZ shoes_NN2”
 "Claire collects shoes”
• 2. Annotoinnit tulisi olla sellaisinaan irrotettavissa
korpuksesta esim. eri tilastollisia tarkasteluja
varten
– Claire_NP1 collects_VVZ shoes_NN2”
 NP1 VVZ NN2
64
Annotoinnista...
• 3. Annotoinnin periaatteiden pitäisi olla (helposti)
korpuksen käyttäjän saatavilla
– annotoinnissa käytettävien tagien merkitykset pitäisi
olla saatavilla samoin kuin esimerkit niin yleisistä
tapauksista kuin rajanpetotilanteista
– tämä ei valitettavasti aina pidä riittävän pitkälle
paikkaansa esim. akateemisesti kehitettyjen
analyysityökalujen kohdalla
• 4. Annotoinnin tekijän, mahdollisen muuttajan ja
annotointiajankohdan pitäisi olla selkeästi
merkittynä
– aikaisemmat annotoinnit pitäisi
muutos/korjaustapauksissa olla jätetty jäljelle, mikäli
halutaan palata korpuksen aikaisempaan versioon
65
Annotoinnista ...
• 5. Korpuksen käyttäjälle tulisi tehdä selväksi, että
annotointi ole virheetön eikä lopullinen – lisäksi tulisi
korostaa, että annotointi on aina jonkun teoreettisen
näkökannan mukainen tulkinta eikä ainoa mahdollinen
vaihtoehto
• 6. Annotoinnin periaatteidein tulisi laajalti
hyväksyttyjä ja teorianeutraaleja
– tämä ei ole mitenkään helppo periaate, sillä korpusten
moninaiset käyttötarkoituksen voivat olla ristiriidassa tämän
kanssa
• 7. Yksikään annotointiperiaatetta ei saisi esittää a
priori standardina – standardit syntyvät käytännön
hyväksynnän ja konsensuksen kautta
66
Miksi alkuperäinen annotointi
kannattaa säästää (tekijätiedot
eräässä sanomalehtikorpuksessa)
</div>
</body>
</text>
<!-Huomautus 1:
Huomautus 2:
Nimi: vappuset
Aihe:
Teki: ANITA
Osasto: KLT
Luontipvm: 940321
Ilm.pvm: 940322
-->
<text>
<body>
<div type="article">
<head type="title">J&ndash;kyläläinen Piiat&ndash;yhtye voitti Imatralla </head>
<byline>
Keskisuomalainen
</byline>
67
Tekijätietojen sekavuus ...
+
+
+
+
+
-
8 ANITA
= NO_BYLINE
#,3994,4173,5637,6520,6827,6897,6912,6954
6 ANITA
= Anita Kärki #,4304,4397,4964,5154,5458,7469
5 ANITA
= ANITA KÄRKI #,1332,4261,6395,6880,7999
2 ANITA
= Anita Kärki = ANITA KÄRKI #,4969,5162
2 ANITA
= Anita Kärki = Ari Haapa-aho #,5700,7676
2 ANITA
= Anita Kärki = Jorma Pärssinen #,6010,7146
2 ANITA
= ANITA KÄRKI = Jorma Pärssinen #,7368,7559
2 ANITA
= Keskisuomalainen #,5629,6968
1 ANITA
= Anita Kärki = Anita Kärki = Risto Aalto #,7228
1 ANITA
= Anita Kärki = Matti Salmi #,7298
1 ANITA
= Anita Kärki = Mauri Ratilainen #,8165
1 ANITA
= Anita Kärki = Risto Aalto #,5791
1 ANITA
= ANITA KÄRKI = Risto Aalto #,6392
1 ANITA
= GOA, ANJUNA-BEACH ANITA KÄRKI KUVAT
#,6743
68
Annotoinnin lajit
• sanaluokka-annotointi – Part-of-speech (POS) taggaus
• lemmatisointi – perusmuotoon palautus ja morfologinen
analyysi, disambiguoituna tai ilman (XXXTWOL)
• syntaktinen parsaus: osittainen (lauseke)analyysi
(XXXCG/Lingsoft, XXXLITE/Connexor) – pinta-analyysi
– lausekerakenneanalyysi – funktionaalinen
dependenssianalyysi (FDG Machinese/Connexor)
• semanttinen analyysis (WordNet)
• diskurssi/tekstilingvistiset analyysit
• foneettinen transkribointi
• prosodinen transkribointi
• ongelma-kohtainen annotoiminen
69
Sanaluokka-annotointi – Part-ofspeech (POS) taggaus
Spoken English Corpus (C7 tagset)
Perdita&NN1-NP0; ,&PUN; covering&VVG; the&AT0;
bottom&NN1; of&PRF; the&AT0; lorries&NN2;
with&PRP; straw&NN1; to&TO0; protect&VVI;
the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN;
suddenly&AV0; heard&VVD-VVN; Alejandro&NN1NP0; shouting&VVG; that&CJT; she&PNP; better&AV0;
dig&VVB; out&AVP; a&AT0; pair&NN0; of&PRF;
clean&AJ0; breeches&NN2; and&CJC; polish&VVB;
her&DPS; boots&NN2; ,&PUN; as*CJS; she&PNP;
'd&VM0; be&VBI; playing&VVG; in&PRP; the&AT0;
match&NN1; that&DT0; afternoon&NN1; .&PUN;
70
POS-tagit (C7)
AJ0: general adjective
AT0: article, neutral for number
AV0: general adverb
AVP: prepositional adverb
CJC: co-ordinating conjunction
CJS: subordinating conjunction
CJT: that conjunction
DPS: possessive determiner
DT0: singular determiner
NN0: common noun, neutral for
number
NN1: singular common noun
NN2: plural common noun
NP0: proper noun
POS: genitive marker
PNP: pronoun
PRF: of
PRP: prepostition
PUN: punctuation
TO0: infintive to
VBI: be
VM0: modal auxiliary
VVB: base form of lexical Verb
VVD: past tense form of
lexical verb
VVG: -ing form of lexical verb
VVI: infinitive form of lexical verb
VVN: past participle form of
71
lexical verb
Lemmatisointi – perusmuotoon
palautus ja morfologinen analyysi,
(ENGTWOL)
"<Perdita>"
"<,>"
"<covering>"
"cover" <N:/> <SVO> <SV> <P/for> <P/with> <PCP1:/ing> <INF:/> PCP1
"<the>"
"the" <Def> DET CENTRAL ART SG/PL @DN>
"<bottom>” (monitulkintainen eli ambiguöösi sana)
"bottom" <Count> N NOM SG
"bottom" <Rare> <PCP1:/ing> <INF:/> V PRES -SG3 VFIN @+FMAINV
"bottom" <Rare> <PCP1:/ing> <INF:/> V INF
"bottom" <Rare> <PCP1:/ing> <INF:/> V IMP VFIN @+FMAINV
"bottom" <Rare> <PCP1:/ing> <INF:/> V SUBJUNCTIVE VFIN @+FMAINV
"<of>"
"of" PREP
"<the>"
"the" <Def> DET CENTRAL ART SG/PL @DN>
72
"<lorries>"
"lorry" <Count> N NOM PL
Syntaktinen parsaus: osittainen
(lauseke)analyysi (ENLITE) – pintaanalyysi – lausekerakenneanalyysi
Perdita perdita
, ,
covering
the
bottom bottom
of
the
lorries
with
straw
to
protect protect
the
ponies' pony
feet
,
,
suddenly
heard
Alejandro
shouting
that
she
better
&NH N SG
cover
&VA ING
the
&>N DET
&NH N SG [disambiguoitu sana]
of
&N< PREP
the
&>N DET
lorry
&NH N PL
with
straw
to
&VA V INF
the
&N< PREP &AH PREP
&NH N SG
&AUX INFMARK>
&>N DET
&>N N PL
foot
suddenly
heard
alejandro
shouting
that
she
well
&NH N PL
&>A ADV &AH ADV
&>N EN
&>N N SG
&NH N SG
&NH ING
&VA ING
&CS CS
&NH <Rel> PRON
&NH PRON SG3
&AH ADV CMP
&>N A CMP
&NH A CMP
&VA V PAST
73
Semanttis/funktionaalinen analyysi
0
1
2
3
4
San
Cristobalin
kaupungin
vallanneet
Sa
Cristobal
kaupunki
vallata attr:>5
5
intiaanit
6
pohtivat
intiaani
subj:>6_AGE:>6 &NH N PL NOM
SEM_HUMAN_INDIVIDUAL PHR_COMMON
pohtia
main:>0 &+MV V ACT IND PAST PL3
SEM_THINK
7
sunnuntai
-
sunnuntai
-
attr:>9
9
iltana
ilta
_TMP:>6 &NH N SG ESS
&NH N SG GEN &A> N SG GEN
attr:>3
&A> N SG GEN
obj:>4
&NH N SG GEN
&-MV V ACT PCP2 PL NOM
&A> N SG NOM
SEM_TIME
10 seuraavaa
A SG PTV
11 siirtoaan
seurata attr:>11
siirto _
&-MV V ACT PCP1 SG PTV &A>
PAT:>6 &NH N SG PTV
SEM_ACTIVITY
12 kaupungintalon
13 käytävillä
.
.
kaupungin#talo
attr:>13 &A> N SG GEN
käytävä
_LOC:>6 &NH N PL ADE
SEM_LOCATION
74
Automaattisten
analyysityökalujen käytöstä
• analysaattorit perustuvat aina johonkin malliin,
joka perustuu johonkin kielitieteelliseen teoriaan
 teoria vaikuttaa analysaattorin yksittäisiin tuloksiin:
• Esim. Conexorin FDG perustuu Tésnieren
dependenssikielioppiin 1950-luvulta
 analysaattori saattaa toimia systemaattisesti oikein
omien periaatteidensa mukaan, muttei samalla sopia
haluttuun tutkimustarkoitukseen:
• Esim. dependenssikieliopissa yhdessä lauseessa voi olla kunkin
funktion edustajia ainoastaan yksi, esim. lauseella ei voi olla
kahta tempusfunktiota
• * Harjoittelen aamulla-TMP ja illalla-? (periaatteessa ko. lause
nähdään kahden lauseen yhdistelmänä, jossa funktiot erotettu)
 Harjoittelen aamulla-TMP + Harjoittelen illalla-TMP
75
Yksi vai useampi
temporaalifunktio? (1/2)
0
1
2
3
4
6
7
8
9
10
11
12
14
YK YK subj:>2 &NH N
arvioi arvioida
main:>0 &+MV V ACT IND PRES SG3 &+MV V ACT
IND PAST SG3
syyskuussa
syyskuu tmp:>2 &NH N SG INE
Bosnia Bosnia attr:>6 &A> N SG NOM
Hertsegovinan Hertsegovina attr:>7 &A> N SG GEN
ruuan ruoka
&NH N SG GEN
tarpeeksi
tarpeeksi
&ADV ADV
32 32
qn:>10 &QN> NUM CARD
miljardia
miljardi
qn:>11 &QN> NUM CARD SG PTV
tonnia tonni qua:>2 &NH N SG PTV
kuukaudessa kuukausi
.
.
<s> <s> >13
loc:>2
&NH N SG INE
76
Yksi vai useampi
temporaalifunktio? (2/2)
0
1
2
3
4
5
6
7
8
9
10
11
12
14
Edellä edellä phr:>2 &ADV ADV
mainitun
mainita attr:>3 &-MV V PASS PCP2 SG GEN
rajan raja obj:>4 &NH N SG GEN
alittamisesta alittaa
&-MV V ACT INF4 ELA
annetaan
antaa main:>0 &+MV V PASS IND PRES
ensin ensin
&ADV ADV
neuvontaa
neuvonta
obj:>5 &NH N SG PTV
ja
ja
&CC CC
myöhemmin
myöhemmin
tmp:>10 &ADV ADV
opetetaan
opettaa
&+MV V PASS IND PRES
liikennekulttuuria liikenne#kulttuuri obj:>12 &NH N SG PTV
sakottamalla sakottaa
man:>10 &-MV V ACT INF3 SG ADE
.
.
<s>
<s>
>13
77
Automaattiset analyysityökalut...
• Analysaattorit tekevät aina välttämättä jonkin
verran virheitä tai eivät pysty antamaan yhtä
ainoaa oikeaa vastausta (täydellistä
disambiguaatiota)
 On tutkittu, etteivät edes ihmiset (maallikot saati
asiantuntijat) pysty aina pääsemään
yhteisymmärrykseen oikeasta analyysistä (esim.
Churchin tutkimukset)  kielessä on siis aina
implisiittisesti hiukan monitulkintaisuutta, mitä voidaan
pitää automaattisten työkalujen oikeellisuuden
teoreettisena ylärajana (97-98%)
78
Preesens vai imperfekti?
EU-ministeri
pohtivat
eu-#ministeri &NH N SG NOM
pohtia &+MV V ACT IND PRES PL3 &+MV V ACT IND PAST PL3
Euroopan eurooppa
&A> N SG GEN
kilpailukykyä
kilpailu#kyky &NH N SG PTV
EU:n
eu
&A> N SG GEN
teollisuusministerit
teollisuus#ministeri &NH N PL NOM
etsivät etsivä &NH N PL NOM
viikonvaihteessa viikon#vaihde &NH N SG INE
Bilbaossa bilbao &NH N SG INE
Espanjassa espanja &NH N SG INE
keinoja keino &NH N PL PTV
lisätä lisätä &-MV V ACT INF1
Euroopan eurooppa
&A> N SG GEN
kykyä
kyky &NH N SG PTV
kilpailla kilpailla
&-MV V ACT INF1
maailmanlaajuisesti
maailman#laajuisesti &ADV ADV
. .
PUNCT
79
Preesens vai imperfekti? ...
...
Kilpailukyky
kilpailu#kyky &NH N SG NOM
todettiin
todeta &+MV V PASS IND PAST
olennaiseksi
olennainen &A> A SG TRA
tekijäksi tekijä &NH N SG TRA
pyrittäessä
pyrkiä &-MV V PASS INF2 INE
Eli siis tarvittiin melkoisesti lausekontekstia, että voitiin
manuaalisti päätellä imperfekti oikeaksi analyysiksi – muita
vinkkejä: ajan ilmaukset – joskus tarvitsisi tietää artikkelin
esiintymisajankohdan ajallisen tapahtumaympäristön  miten
käsitelty tapahtuma sijoittuu artikkelin julkaisuajankohtaan?
80
Automaattiset analyysityökalut ...
• analysaattoreita kehitetään ja testataan (erit.
kaupalliset) tyypillisisti suurilla yleiskielisillä
aineistoilla, jolloin ne luonnollisesti toimivat
parhaiten ko. tekstityyppien analyysissä
• analysaattorit eivät ole koskaan täysin valmiita,
erityisesti leksikko ei ole koskaan täysin kattava
 Jotkut työkalut käyttävät heuristiikkoja (esim. sanojen
päätteitä) tuntemattomien sanojen joidenkin piirteiden
arvaukseen, mikä voi olla virheiden lähde
 kehityksen alkuvaiheessa kuvaukset saattavat olla
kielen jonkin osa-alueen kohdalla epätäydellisiä, jolloin
työkalu tekee kyseisen lingvistisen ilmiön kohdalla
81
systemaattisesti aina saman virheen
Tuuma vai tuumia?
0
1
2
3
4
5
6
7
8
9
Tänä tämä attr:>2 &A> PRON SG ESS
vuonna vuosi tmp:>6 &NH N SG ESS
valtio valtio cc:>5 &NH N SG NOM
ja ja cc:>5 &CC CC
kaupunki
kaupunki
subj:>6 &NH N SG NOM
leikkasivat leikata main:>0 &+MV V ACT IND PAST PL3
orkesterin orkesteri
attr:>8 &A> N SG GEN
budjettia
budjetti
obj:>6 &NH N SG PTV
yksissä yksi
&NH NUM CARD PL INE &NH PRON PL
INE
10 tuumin tuumia
&+MV V ACT IND PRES SG1 &+MV V
ACT IND PAST SG1
82
.
.
Tuuma vai tuumia?
0
1
2
3
4
5
6
7
Kaikki kaikki
&NH PRON NOM &A> PRON NOM
kolme kolme
&NH NUM CARD SG NOM
ovat olla main:>0 &+MV V ACT IND PRES PL3
esitutkinnassa esi#tutkinta loc:>5 &NH N SG INE
kiistäneet kiistää comp:>3 &-MV V ACT PCP2 PL
toimineensa toimia obj:>5 &-MV V ACT PCP2
yksissä yksi
&NH NUM CARD PL INE &NH PRON PL
INE
8
tuumin tuumia
&+MV V ACT IND PRES SG1 &+MV V
ACT IND PAST SG1
.
.
10 <s> <s> >9
83
Automaattiset analyysityökalut
• analyysin teoreettisen oikeellisuuden ja
yksiselitteisyyden aste riippuu tavoiteltavan
tehtävän monimutkaisuudesta
• morfologinen analyysi  morfologinen disambiguointi
 osittaisanalyysi  syntaktinen analyysi 
semanttinen analyysi
• analysaattorin hyödyntämisessä on valittava joko
tulosten manuaalinen läpikäynti tai
virheellisyyksien hyväksyminen  analyysin
laadun tarkastelu tutkittavan ilmiön kohdalla
tilastollisen otoksen perusteella
84
Tilastoa automaattisen analyysin
oikeellisuudesta/ yksitulkintaisuudesta
(517624 sanaa/141202 sanamuotoa)
• 1-selitteisiä
morfologisia
analyysejä: 128882
(91% sanamuodoista)
• 2-selitteisiä: 9494
• 3-selitteisiä: 1667
• 4-selitteisiä: 711
• 5-selitteisiä: 333
•
•
•
•
•
6-selitteisiä: 91
7-selitteisiä: 13
8-selitteisiä: 4
9-selitteisiä: 1
10-selitteisiä: 1
• 384089 syntaktisesti
analysoitua (74%
sanoista)
85
Morfosyntaktisesti
monitulkintaisimman sanan sisältävä
lause (”toinen”  10 tulkintaa)
Helsingissä Helsinki
loc:>2 &NH N SG INE
tapahtuva
tapahtua
attr:>3 &-MV V ACT PCP1 SG NOM
perushenkirikos perus#henki#rikos
subj:>4 &NH N SG NOM
on olla main:>0 &+MV V ACT IND PRES SG3
edelleenkin edelleen
goa:>4 &ADV ADV -KIN
poliisin
poliisi attr:>7 &A> N SG GEN
suussa suu loc:>4 &NH N SG INE
lauantaitappona lauantai#tappo copr:>4 &NH N SG ESS
kulkeva kulkea attr:>10
&-MV V ACT PCP1 SG NOM &A> A SG NOM
surma surma
&NH N SG NOM
. . PUNCT
tekijä tekijä cc:>14 &NH N SG NOM
ja
ja cc:>14 &CC CC
uhri uhri subj:>15
&NH N SG NOM
86
”Toinen” ...
...
tuntevat
tuntea main:>11
&+MV V ACT IND PRES PL3
toisensa toinen
&NH NUM ORD SG NOM &A> NUM ORD SG
NOM &NH NUM ORD SG GEN &NH NUM ORD PL NOM
&A> NUM ORD PL NOM &NH PRON SG NOM &A> PRON SG
NOM &NH PRON SG GEN &NH PRON PL NOM &A> PRON PL
NOM
tai tai cc:>15 &CC CC
ovat olla cc:>15 &+MV V ACT IND PRES PL3
sukua suku
&NH N SG PTV
keskenään
keskenänsä
&ADV ADV
viina viina subj:>23
&NH N SG NOM
on olla
&+MV V ACT IND PRES SG3
mukana mukana phr:>23 &ADV ADV
kuvassa kuva loc:>23 &NH N SG INE
ja
ja cc:>23 &CC CC
teko teko subj:>28
&NH N SG NOM
tapahtuu
tapahtua
cc:>23 &+MV V ACT IND PRES SG3
pikaistuksissa pikaistus
loc:>28 &NH N PL INE
87
Monitulkintaisimmat sanat: 2-5
a=9
n=1
hallituksensa hallitus
&NH N SG NOM &A>
N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL
NOM
&A> N PL NOM &NH A SG TRA &A> A SG TRA
&-MV V PASS PCP2 SG TRA
a=8
n=1
asuvasi asua
&-MV V ACT PCP1 &-MV V ACT
PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG
GEN&A> A SG GEN &NH A PL NOM &A> A PL NOM
a=8
n=1
kuollut kuoltu
&NH A PL NOM &A> A PL NOM
&-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV
V ACT PCP2 SG &-MV V PASS PCP2 PL NOM &NH A SG NOM
&A> A SG NOM
a=8
n=1
kuuluvansa kuulua
&-MV V ACT PCP1 &-MV
V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH
A SG GEN
&A> A SG GEN &NH A PL NOM &A> A PL
NOM
88
Monitulkintaisimmat sanat: 6-10
a=8
n=1
tekevänsä
tehdä
&-MV V ACT PCP1 &-MV V
ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A
SG GEN
&A> A SG GEN &NH A PL NOM &A> A PL NOM
a=7 n=11
tullut tultu
&NH A PL NOM &A> A PL NOM
&-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV
V ACT PCP2 SG &NH A SG NOM &A> A SG NOM
a=7 n=6
kuollut kuoltu
&NH A PL NOM &A> A PL NOM
&-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV
V ACT PCP2 SG &NH A SG NOM &A> A SG NOM
a=7
n=3
sinänsä sinänsä
&ADV ADV
&NH N SG NOM
&A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N
PL NOM
&A> N PL NOM
a=7
n=2
parinkymmenen pari#kymmentä
&NH NUM
CARD SG GEN &A> NUM CARD SG GEN &QN> NUM
CARD SG GEN&NH NUM CARD SG NOM &QN> NUM CARD
SG NOM &NH N SG GEN &A> N SG GEN
89
Monitulkintaisimmat perusmuodot (2- tai
useampitulkintaisten taivutusmuotojen
lukumäärä)
69
65
63
48
43
43
39
38
36
35
33
31
31
toinen
olla
yksi
tulla
seurata
nuori
se
hyvä
vastata
toimia
saada
tehdä
suuri
30
28
28
27
27
25
23
22
21
21
90
90
89
aika
tämä
kaikki
muu
alkaa
elää
joka
itse
vanha
nähdä
voida
elää
ottaa
90
Yleisimmät monitulkintaiset
morfologiset analyysit
2220
381
325
307
289
276
219
217
194
178
172
158
156
155
151
147
133
&NH N SG GEN
&A> N SG GEN
&NH A SG NOM
&A> A SG NOM
&NH N PL GEN
&A> N PL GEN
&NH A SG GEN
&A> A SG GEN
&NH NUM CARD &A> NUM CARD &QN> NUM CARD
&-MV V ACT INF1 &+MV V ACT IND PRES SG3
&NH A PL GEN
&A> A PL GEN
&NH A SG PTV
&A> A SG PTV
&NH A PL PTV
&A> A PL PTV
&-MV V ACT PCP1 SG NOM
&A> A SG NOM
&-MV V ACT PCP1 PL NOM
&+MV V ACT IND PRES PL3
&NH A PL NOM
&A> A PL NOM
&-MV V ACT PCP2 SG NOM
&-MV V ACT IND PAST SG
&-MV V ACT PCP2 SG
&NH A SG NOM &A> A SG NOM
&-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG
&-MV V ACT PCP2 SG
&NH A SG NOM
&NH A SG ESS
&A> A SG ESS
&NH N SG NOM
&NH N PL NOM
&-MV V ACT INF1 &-MV V PASS IND PRES
91
Mitä tästä opimme?
• Valmiisiin annotointeihin ei saa luottaa sokeasti,
vaan on pistokokein varmistettava tehdyn
annotoinnin perusteellisuus ja systemaattisuus
• Mitään ei kannata hävittää aineistoa esi- ja
jälkikäsiteltäessä, siis poistetun tiedon
palauttaminen jälkikäteen voi olla vähintäänkin
työlästä
• Automaattisiin analyysityökaluihin ei saa luottaa
sokeasti, vaan on selvitettävä itselleen ne
periaatteet minkä mukaan työkalu toimii ja
pistokokein tarkistettava analyysin oikeellisuus ja
luotettavuus
92
Kurssin harjoitustyö
• kansainvälisessä, referoiduissa akateemisissä
julkaisuissa julkaistun korpustutkimukseen
perustuvan tieteellisen artikkelin kriittinen arvio
kurssilla esitettyjen näkökulmien mukaan
• pienimuotoisen korpuspohjaisen tutkimuksen
tekeminen kurssilla esitettyjen periaatteiden
mukaan
• mahdollisten vaihtoehtojen pohdiskelu ja tehtyjen
valintojen perustelu tai kriittinen arviointi
• palautus ma 5.5.2003
93
Ctl310corp
Korpukset ja kieli
Antti Arppe
Luento 2.4.
Korpusten tilastollinen käsittely
Korpuksen ”riittävä” koko
Mitä korpuksista voidaan laskea?
”Parhaan” tunnusluvun metsästys
94
Otannan eli tutkimuskorpuksen
suuruuden rajaamisen periaatteita
• otoksen on oltava riittävän suuri, jotta tulokset
ovat (tilastollisesti) luotettavia
• otoksen ei kannata olla liian suuri, jottei tule
tehneeksi turhaa työtä, esim. automaattisen
analyysin tarkistamisessa ja korjaamisessa tai
omien lisäluokittelujen tekemisessä
• otoksen kokoon vaikuttavat tutkittavan ilmiön
kategorioiden (sanaluokat, yksittäiset lekseemit,
yksittäiset taivutusmuodot, morfeemit, tms.)
määrä ja kunkin kategorian esiintymisfrekvenssit
95
Rajaamisen periaatteita
• otos on riittävän suuri, saavutetaan
jäätymis/saturaatiopiste  uusien tapauksien määrä ei
enää oleellisesti lisäänny otosta kasvettaessa
• otos on riittävän suuri, kun tutkittavien ilmiöiden
keskinäiset suhteet eivät enää merkittävästi muutu 
otoksen kasvun myötä kasvavilla lukumäärillä ei ole
enää (tilastollisesti) merkittävää vaikutusta käytettäviin
tilastollisiin tunnuslukuihin
• yleisten ilmiöiden kohdalla saturaatiopiste saavutetaan
pienemmällä korpuksella kuin harvinaisempien
ilmiöiden kohdalla  harvinaisempien ilmiöiden
tarkastelua varten ei kenties koskaan ole kasattavissa
96
riittävän suurta korpusta
Otoksen kasvun vaikutuksia
käytännössä
• pintamuotojen määrän kehitys
suomenkielisessä sanomalehtitekstissä
• perusmuotojen määrän kehitys
• verbien taivutusmuotojen määrän kehitys
• ajatella-verbien taivutusmuotojen määrän
kehitys
• pohtia/miettiä-verbien taivutusmuotojen
määrän kehitys
97
10
00
60 00
0
11 000
00
16 000
00
21 000
00
26 000
00
31 000
00
36 000
00
41 000
00
46 000
00
51 000
00
56 000
00
61 000
00
66 000
00
71 000
00
76 000
00
81 000
00
86 000
00
91 000
00
96 000
00
00
1E 0
+
1, 07
1E
+
1, 07
1E
+
1, 07
2E
+
1, 07
2E
+
1, 07
3E
+
1, 07
3E
+
1, 07
4E
+
1, 07
4E
+
1, 07
5E
+
1, 07
5E
+
1, 07
6E
+0
7
Forms
Pinta- ja perusmuotojen määrän kehitys
Growth of surface and base forms
1000000
900000
800000
700000
600000
500000
Surface forms
Base forms
400000
300000
200000
100000
0
Corpus size
98
10
00
60 00
0
11 000
00
16 000
00
21 000
00
26 000
00
31 000
00
36 000
00
41 000
00
46 000
00
51 000
00
56 000
00
61 000
00
66 000
00
71 000
00
76 000
00
81 000
00
86 000
00
91 000
00
96 000
0
10 000
10 0
10 000
60 0
11 000
10 0
11 000
60 0
12 000
10 0
12 000
60 0
00
00
Forms
Verbimuotojen määrän kehitys
Verb form growth
700
600
500
400
Verb forms
Thinking-verb forms
300
Pohtia/Miettiä forms
200
100
0
Corpus size
99
Otoksen määrän vaikutus tilastolliseen
tulkintaan
• otoksen koon kasvaessa havaittavien lingvististen
ilmiöiden määrä ja niiden frekvenssi kasvaa
 Frekvenssien kasvaessa ilmiöiden tilastollisen merkitsevyyden mahdollisuus
kasvaa
 Mutta tilastollinen merkitsevyys voidaan saavuttaa pienemmillä suhde-eroilla
(22/23 vs. 932/1562 ovat tilastollisesti yhtä merkittäviä)
 Mahdollisesti/todennäköisesti samat pienemmässä korpuksessa tilastollisesti
merkitseviksi havaittavat ilmiöt ovat sitä myös suuremmissa korpuksissa 
frekvenssit mihin ne perustuvat ovat vain suuremmat
• pienemmässä otoksessa mahdollisuus tarkempaan
analyysiin ja perusteellisempaan virheiden tarkistamiseen
• Oman tutkimuksen kaksi korpusta: 855 vs. 4545 tapausta
 tarkistettavien analyysien edellyttämän työmäärän
100
kasvu
Oma tutkimus: pienempi korpus
(2 Mw)
#
t-score
1
2.6544151
n tag(verb ) /
n tag(total)
77/112
2
3
4
5
6
7
8
2.3389739
2.3003402
2.2804408
2.2720630
2.2526106
2.1700721
2.1004193
22/23
199/320
21/22
198/319
32/37
201/355
145/230
9
10
11
2.0711558
2.0627680
2.0157633
21/24
30/39
15/15
V erb
C om b in ation of tags/featu res
m iettiä
m iettiä
pohtia
m iettiä
pohtia
pohtia
m iettiä
pohtia
m iettiä
m iettiä
m iettiä
IN F 1 ~ m iettiä ‘to ponder’
 & -M V :V :A C T :IN F 1
~ m iettiä ‘to ponder’
IN D :S G 1
SG3
SG1
IN D :S G 3
M E T A -D E _foreign
& -M V
P R E S :S G 3
 & + M V :V :A C T :IN D :P R E S :S G 3
~ poh tii ‘he ponders’
M E T A -B Y _aaa
& -M V :M E T A -D E _sport
& + M V :P A S T :S G 1
 & + M V :V :A C T :IN D :P A S T :S G 1
~ m ietin ‘I pondered’
101
Pienempi korpus...
12
13
14
15
16
17
18
19
20
21
22
23
24
2.0103638
2.0025643
1.9871152
1.9619883
1.9544431
1.9242580
1.9121518
1.8786721
1.8690776
1.8192520
1.8090504
1.8074797
1.7435752
203/335
204/337
206/341
16/17
286/486
24/28
288/491
116/184
18/21
14/15
290/498
26/35
13/14
pohtia
pohtia
pohtia
25
26
27
28
29
30
31
32
1.6216452
1.6128154
1.5904283
1.5884516
1.5816121
1.5626323
1.5614035
1.5614035
165/277
61/93
11/11
15/17
11/12
20/25
9/9
9/9
pohtia
pohtia
pohtia
pohtia
m iettiä
pohtia
pohtia
pohtia
pohtia
m iettiä
m iettiä
pohtia
m iettiä
m iettiä
m iettiä
pohtia
m iettiä
m iettiä
& + M V :P R E S
IN D :P R E S
PRES
S G 1:M E T A -B Y _unspec
& + M V :IN D
A C T :M E T A -D E _foreign
IN D
S G 3:M E T A -B Y _unspec
A C T :M E T A -B Y _aaa
P R E S :M E T A -B Y _aaa
& +M V
& -M V :A C T :M E T A -D E _sport
& + M V :P R E S :M E T A -B Y _aaa

& + M V :V :A C T :IN D :P R E S :S G 3:M E T A :B Y _aaa
~ m iettii ‘he ponders’
& + M V :A C T :P R E S
& + M V :P A S S :IN D
IN D :M E T A -B Y _bbb
P R E S :M E T A -D E _foreign
A C T :S G :M E T A -D E _sport
M E T A -B Y _bbb
M E T A -B Y _ccc
M E T A -B Y _ddd
102
Oma tutkimus: suurempi korpus
#
t-score
3
7
9
10
11
4.65436111
4.30643067
3.42270008
3.39827308
3.38888039
n ta g (v erb ) /
n ta g (tota l)
341/481
1474/2468
173/242
932/1562
111/142
V erb
C om b in ation of tags/featu res
12
13
14
15
3.37272932
3.35194627
3.29908324
3.23807959
924/1551
178/252
224/330
220/326
pohtia
pohtia
pohtia
pohtia
16
18
2.87031644
2.53231288
289/453
122/178
pohtia
pohtia
20
2 .3 8 9 4 1 0 8 2
51/64
pohtia
21
23
2.24091027
2.13260209
51/66
635/1097
pohtia
pohtia
pohtia
pohtia
pohtia
pohtia
pohtia
P A S S :IN D
&+M V
IN D :P L 3
SG 3
P A S S :P A S T
& + M V :V :P A S S :IN D :P A S T
 pohdittiin ‘X w as pondered’
IN D :S G 3
PL3
P A S S :P R E S
& + M V :P A S S : P R E S
& + M V :V :P A S S :IN D :P R E S
 pohditaan ‘X is pondere d ’
P A S T :S G 3
P R E S :P L 3
& + M V :V :A C T :IN D :P R E S :P L 3
 pohtivat ‘they ponder’
P A S T :P L 3
& + M V :V :A C T :IN D :P A S T :P L 3
 pohtivat ‘they pondered’
A C T :P C P 1:S G
P R E S :S G 3
& + M V :V :A C T :IN D :P R E S :S G 3
 pohtii ‘he ponders’
103
Suurempi korpus (16 Mw) ...
#
t-score
1
V erb
C om b in ation of tags/featu res
5.02810160
n tag(verb ) /
n tag(total)
417/670
m iettiä
2
4
8
4.90857618
4.60405240
3.66672617
1141/2076
88/96
53/56
m iettiä
m iettiä
m iettiä
17
2.79006234
36/41
m iettiä
19
22
24
2.39208299
2.23804303
2.05325910
330/610
71/111
23/28
m iettiä
m iettiä
m iettiä
IN F 1
& -M V :V :A C T :IN F 1
 m iettiä ‘to ponder’
& -M V
SG 1
P A S T :S G 1
& + M V :V :A C T :IN D :P A S T :S G 1
 m ietin ‘I pondered’
P R E S :S G 1
& + M V :V :A C T :IN D :P R E S :S G 1
 m ietin ‘I ponder’
IN F 3
P A S S :P C P 1
IM P
104
Yhteneväiset ilmiöt molemmissa
korpuksissa
• miettiä
– I infinitiivi (77/112) vs.
(417/670)
– yks. 1. persoona
(22/23) vs. (88/96)
– yks. 1. persoona JA
imperfekti vs. (15/15)
(53/56)
• pohtia
– yks. 3. persoona
(199/320) vs.
(932/1562)
– preesens JA yks. 3.
persoona
Korpuksen määrän kasvattaminen ei näiden ilmiöiden kohdalla
vaikuttanut keskinäisiin suhteisiin ja tilastolliseen merkitsevyyteen
105
Yksityiskohtaisemmat ilmiöt
pienemmässä korpuksessa
• miettiä
• pohtia
– I infinitiivi (77/112)
– yks. 1. persoona
(22/23)
– yks. 3. persoona
(199/320)
– toimittajat aaa,
bbb ja ccc
– urheiluosasto
– preesens JA yks. 3.
persoona
– preesens
– yks. 1. persoona JA
imperfekti
– ulkomaanosasto
– toimittaja bbb
Nämä tiedot olivat saatavissa perusteellisemman analyysin johdosta
106
Havaitut uudet ilmiöt
laajemmassa korpuksessa
• miettiä
– I infinitiivi (417/670)
– yks. 1. persoona (88/96)
– yks. 1. persoona JA
imperfekti (53/56)
– III infinitiivi
– passiivi ja 1.
partisiippi
– imperatiivi (23/28  )
• pohtia
– passiivi JA indikatiivi
(341/481)
– mon. 3. persoona JA indikatiivi
(1474/2468)
– yks. 3. persoona (932/1562)
– passiivi JA imperfekti (111/142)
– yks. 3. persoona JA indikatiivi
(924/1551)
– mon. 3. persoona
(178/252)
Nämä ilmiöt nousivat tilastollisesti merkittävinä esille korpuksen
107
kasvattamisen johdosta
Suhteiden ja merkitsevyyden
vertailua kahden erikokoisen
korpuksen välillä
t-score (S) t-score (L)
ntag(verb)/
ntag(verb)/
Proportions
(S)
Proportions
(L)
Ratio L/S
Verb
Combination of tags/features
2,6544
ntag(total) (S)
5,0281 77/112
ntag(total) (L)
417/670
0,688
0,622
0,905 miettiä
INF1 ~ miettiä
2,3003
3,3983 199/320
932/1562
0,622
0,597
0,959 pohtia
SG3
2,2804
4,6041 21/22
88/96
0,955
0,917
0,960 miettiä
SG1
2,2721
3,3727 198/319
924/1551
0,621
0,596
0,960 pohtia
IND:SG3
2,1004
2,1326 145/230
635/1097
0,630
0,579
0,918 pohtia
2,0158
3,6667 15/15
53/56
1,000
0,946
0,946 miettiä
PRES:SG3 ~
&+MV:V:ACT:IND:PRES:SG3 ~
pohtii
&+MV:PAST:SG1 ~
&+MV:V:ACT:IND:PAST:SG1 ~
mietin
108
Mitä siis korpuksista voidaan
laskea?
• frekvenssejä eli lukumääriä  suuruusjärjestys
– yksittäinen ilmiö
• yksittäisen verbin taivutusmuotojen frekvenssit
• verbijoukon esiintymien frekvenssit yleisyysjärjestyksessä
(perusmuodon mukaan)
– yhteisesiintymiset eli kollokaatiot (sanaparit tai sanapiirreparit)
• suhteita  osuus koko korpuksesta tai eri
osakorpuksista
• suhteiden suhteita  vertailu eri frekvenssien
välillä
109
Esimerkkejä frekvensseistä –
pohtia-verbin muodot (∑ =2435)
26.1%
11.8%
10.5%
10.3%
8.9%
6.4%
635
288
255
250
216
155
pohtii
pohti
pohtimaan
pohtia
pohditaan
pohtivat
4.6%
2.9%
2.7%
1.1%
1.1%
0.7%
0.7%
0.7%
111
71
66
27
26
18
18
16
pohdittiin
pohdittu
pohtinut
pohdittava
pohtineet
pohtiessaan
pohtiva
pohtimassa
&+MV V ACT IND PRES SG3
&+MV V ACT IND PAST SG3
&-MV V ACT INF3 SG ILL
&-MV V ACT INF1
&+MV V PASS IND PRES
&+MV V ACT IND PRES PL3
... &+MV V ACT IND PAST PL3
&+MV V PASS IND PAST
&-MV V PASS PCP2
&-MV V ACT PCP2 SG
&-MV V PASS PCP1
&-MV V ACT PCP2 PL
&-MV V ACT INF2 INE
&-MV V ACT PCP1 SG NOM
&-MV V ACT INF3 SG INE
110
Esimerkkejä frekvensseistä –
miettiä-verbin muodot (∑ =2110)
21.5%
19.3%
13.3%
7.6%
4.7%
3.1%
2.9%
2.6%
461
413
284
162
100
67
63
56
miettii
miettiä
miettimään
mietti
mietitään
miettinyt
mietittävä
miettivät
3.7%
79
mietin
2.2%
1.3%
47
28
mietitty
mietittiin
&+MV V ACT IND PRES SG3
&-MV V ACT INF1
&-MV V ACT INF3 SG ILL
&+MV V ACT IND PAST SG3
&+MV V PASS IND PRES
&-MV V ACT PCP2 SG
&-MV V PASS PCP1
&+MV V ACT IND PRES PL3 /
&+MV V ACT IND PAST PL3
&+MV V ACT IND PRES SG1 /
&+MV V ACT IND PAST SG1
&-MV V PASS PCP2
&+MV V PASS IND PAST
111
Esimerkkejä suhteista – pohtia
vs. miettiä
r1/r2
11,7865
3,538462
2,461538
1,893617
1,552632
1,318182
1,213953
1,000067
0,870968
0,789526
0,789474
0,533679
0,37931
0,088795
0,075005
r1
1,1 %
4,6 %
6,4 %
8,9 %
11,8 %
2,9 %
26,1 %
0,7 %
2,7 %
0,7 %
10,5 %
10,3 %
1,1 %
0,3 %
0,7 %
n1
26
111
155
216
288
71
635
16
66
18
255
250
27
8
18
pohtia
pohtineet
pohdittiin
pohtivat
pohditaan
pohti
pohdittu
pohtii
pohtimassa
pohtinut
pohtiessaan
pohtimaan
pohtia
pohdittava
pohdin
pohtiva
r2
0,1 %
1,3 %
2,6 %
4,7 %
7,6 %
2,2 %
21,5 %
0,7 %
3,1 %
0,9 %
13,3 %
19,3 %
2,9 %
3,7 %
9,3 %
n2
2
28
56
100
162
47
461
15
67
19
284
413
63
79
2
miettiä
miettineet
mietittiin
miettivät
mietitään
mietti
mietitty
miettii
miettimässä
miettinyt
miettiessään
miettimään
miettiä
mietittävä
mietin
112
miettivä
Esimerkkejä suhteista – pohtia vs. miettiä
lehden eri osastoissa
Total words
232
10600
282861
4505
261196
118047
827975
273356
34682
246882
128045
7560
6197
Section
META-DE_koti
META-DE_taite
META-DE_ulk
META-DE_liite
META-DE_klt
META-DE_art
META-DE_kot
META-DE_tal
META-DE_syke
META-DE_urh
META-DE_viv
META-DE_ruoka
META-DE_matka
pohtia
w/100000 miettiä
w/100000 w1/w2
0
0,0
0
0,0 -
2
18,9
0
0,0 -
32
11,3
5
1,8
6,400
4
88,8
1
22,2
4,000
61
23,4
45
17,2
1,356
22
18,6
19
16,1
1,158
181
21,9
164
19,8
1,104
37
13,5
36
13,2
1,028
15
43,3
15
43,3
1,000
60
24,3
76
30,8
0,789
30
23,4
44
34,4
0,682
1
13,2
2
26,5
0,500
0
0,0
2
32,3
0,000
113
Mitä muuta korpuksista voidaan
päätellä?
• havaintojen tilastollisia merkitsevyyksiä
– ovatko otoksessa havaitut erot frekvensseissä tai
suhteellisissa osuuksissa tilastollisesti merkitseviä,
esim. edellä esitetyissä tapauksissa  onko havaittu ero
tietyn todennäköisyyden (p > 95 tai 99% ~ p <.05 tai p
<.01) puitteissa suurempi kuin voisi tapahtua sattumalta
otosta koostettaessa
– huomattava kuitenkin, että valitun todennäköisyysrajan
(p) perusteella aina jää jäljelle mahdollisuus (1-p), että
havaittu ero eli tehty otos olisi vain sattuma: p > 95%
 joka 20. otos; p > 99%  joka 100. otos ...
114
Tilastollisia
merkitsevyysmittareita
•
•
•
•
•
Pearsonin khi-toiseen –testi (X2)
Log-likelihood (G2)
t-testi
yhteisinformaatio (mutual information MI)
Fisherin eksakti testi
115
Merkitsevyyttä laskettaessa
huomioitava
• useimmat mittarit (X2, G2 ja t-testi) edellyttävät, että
– otoksen koko on riittävän ”suuri”
– tarkasteltavien tapauksien määrä (kontingenssitaulukossa) on
rajattu ja pieni suhteessa otoksen kokoon
– kunkin tarkasteltavan tapauksen odotusarvo on suuri (> 5
havaintoa)
• ym. rajoitukset eivät koske Fisherin eksaktia testiä
– antaa suoraan todennäköisyyden (0<P<1)  taulukkoja ei
tarvita
– sopii hyvin pienille frekvensseille (<20), mutta on erittäin
raskas laskea suurille frekvenseille (>50)
– erottelee heikosti tapauksia (= antaa saman
116
todennäköisyysarvon suurelle joukolle tapauksia)
”Parhaan” tunnusluvun metsästys
• pohtia vs. miettiä –verbien kontekstit
– verbien omat morfologiset piirteet
– verbien funktionaalinen konteksti: lekseemi ja
sen morfologiset piirteet, funktio sekä
semanttinen luokitus
• järjestetty tilastollisesti
– t-testin mukaan (~X2)
[p < .05  t > 1.65]
– Fisherin eksaktin testin mukaan [0 < p < 1]
117
t-testin
t-testi
2.59852502
2.35841193
2.32791480
2.21477571
2.14893707
2.03318057
1.91261966
1.84248980
1.81909591
1.81604628
1.81226016
1.80651837
1.79466179
1.78487176
1.77368553
1.67858224
1.61199945
1.59784463
1.58766680
1.58766680
1.58593329
1.53946342
Fisher
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
0.99844589
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
2
(~X )
n(V)/Σ(V)
427/892
427/892
465/892
427/892
465/892
465/892
465/892
465/892
427/892
465/892
465/892
465/892
427/892
465/892
465/892
465/892
427/892
465/892
465/892
465/892
465/892
465/892
mukainen järjestys
Verb
miettiä
miettiä
pohtia
miettiä
pohtia
pohtia
pohtia
pohtia
miettiä
pohtia
pohtia
pohtia
miettiä
pohtia
pohtia
pohtia
miettiä
pohtia
pohtia
pohtia
pohtia
pohtia
n(F|V)/Σ(F)
78/115
24/26
400/678
205/362
206/336
103/158
305/521
218/366
99/169
116/185
307/528
430/753
85/143
301/518
337/584
375/657
80/137
38/54
11/11
11/11
48/71
18/22
Feature
0_INF1
0_SG1
<_N
0_&-MV
0_SG3
<_SEM_HUMAN_GROUP
0_IND
0_PRES
<_V
0_POST-QUOTE
0_&+MV
<_&NH
<_ACT
<_NOM
<_SG
<_FUNC_AGE
<_&+MV
<_SEM_ACTIVITY
0_GEN
<_LEX_hallitus=N
<_INE
<_SEM_COGNITION
118
Fisherin eksaktin testin mukainen
järjestys
t-testi
1.67858224
1.80651837
1.77368553
1.78487176
1.81226016
1.91261966
2.32791480
1.84248980
2.14893707
2.21477571
1.81604628
1.81909591
1.79466179
2.03318057
1.58593329
1.59784463
2.59852502
1.26317265
0.96672278
0.98535171
0.88606355
1.53946342
1.01736850
0.95974962
1.06948692
Fisher
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
1.00000000
n(V)/Σ(V)
465/892
465/892
465/892
465/892
465/892
465/892
465/892
465/892
465/892
427/892
465/892
427/892
427/892
465/892
465/892
465/892
427/892
465/892
427/892
465/892
427/892
465/892
427/892
465/892
465/892
Verb
pohtia
pohtia
pohtia
pohtia
pohtia
pohtia
pohtia
pohtia
pohtia
miettiä
pohtia
miettiä
miettiä
pohtia
pohtia
pohtia
miettiä
pohtia
miettiä
pohtia
miettiä
pohtia
miettiä
pohtia
pohtia
n(F|V)/Σ(F)
375/657
430/753
337/584
301/518
307/528
305/521
400/678
218/366
206/336
205/362
116/185
99/169
85/143
103/158
48/71
38/54
78/115
16/21
8/11
8/10
6/8
18/22
7/9
6/7
7/8
Feature
<_FUNC_AGE
<_&NH
<_SG
<_NOM
0_&+MV
0_IND
<_N
0_PRES
0_SG3
0_&-MV
0_POST-QUOTE
<_V
<_ACT
<_SEM_HUMAN_GROUP
<_INE
<_SEM_ACTIVITY
0_INF1
<_LEX_työ#ryhmä=N
<_NEG
0_3
<_SG1
<_SEM_COGNITION
<_PL1
<_ESS
<_LEX_kokous=N
119
Merkitsevyysmittarit ja lingvistin
kieli-intuitio
• 9 vs. 1 tuntuisi lingvistisesti mielekkäältä suhteelta, muttei
ole tilastollisesti merkitsevä
 tilastotieteen näkökulmasta tarvittaisiin suurempi aineisto, jossa
suhdeluku toivottavasti säilyy
• 400 vs. 600 (2/5 vs. 3/5) ei tunnu lingvistisesti
mielekkäältä suhde-erolta, mutta on kuitenkin tilastollisesti
merkitsevä
 suurissa aineistossa yleisimpien ilmiöiden määrät ovat
niin suuria, että niiden pienetkin suhde-erot ovat
tilastollisesti merkitseviä
 lingvistisestä näkökulmasta nousee esille kysymys,
josko suhde-ero jonkun ylimääräisen jaottelumuuttujan
avulla kasvaisi mielekkäämmäksi
120
Merkitsevyysmittarit ja lingvistin
kieli-intuitio ...
• omassa tutkimuksessani: SG3-jakauma
t-testi
Fisher
verbi
np,v/nf,total
2.148
-2.705
1.000000
0.000013
pohtia 206/336
miettiä 130/336
piirre
0_SG3
0_SG3
• SG3-suhde on merkitsevä, mutta suhdeluku on 2/3
• olisiko joku toinen tekijä, jonka suhteen SG3verbit jakautuisivat selkeämmin kahteen ryhmään?
– agentin laskettavuus: yksilö vs. kollektiivi?
121
Merkitsevyysmittarit ja lingvistin
kieli-intuitio ...
• Agentti-jakauma:
t-testi
1.908
1.844
Fisher Verbi
1.0000 pohtia
1.0000 pohtia
np,v/np,total
34/44
155/254
Agentti
GROUP
INDIVIDUAL
• kollektiiviagenttien suhteen suhde-ero kasvaa (1/4
vs. 3/4) ja on edelleen tilastollisesti merkitsevä
• yksilöagenttien suhteen suhde-ero itse asiassa
pienenee (4/10 vs. 6/10), mutta on edelleen
tilastollisesti merkitsevä!
122
Mistä tilastolliset merkitsevyysmittarit
oikeastaan kertovat?
• jos havaittu ilmiö on tilastollisesti merkitsevä, se
on ainakin (korkeintaan?) merkitsevä otoksessa
• havainnon merkitsevyyden yleistettävyys?
– perustuu puhtaasti siihen, kuinka hyvin otos edustaa
tarkasteltavaa populaatiota eli kuinka selvästi
populaatio on määritelty ja kuinka satunnaisesti otos on
tehty ko. populaatiosta
– kielen kohdalla: kuinka hyvin otos edustaa tutkittavaa
kielen osa-aluetta  mikä on se kielen osa-alue, mistä
otos on tehty  selkeästi määritelty vai käytetty kaikki
mikä on saatu käsiin
123
Yleistettävyys ...
• Mistä esimerkiksi käyttämäni Keskisuomalaisen 4
kuukauden otos kertoo?
– ainakin Keskisuomalaisen toimittajien
sanomalehtiartikkelien kirjoitustyylistä ko. aikana
– mikäli kyseessä olisi satunnaisesti valittu otos
laajemmasta aikavälistä Keskisuomalaista, voisi otos
kenties kertoa Keskisuomalaisen toimittajien
kirjoitustyylistä ylipäänsä
– mikäli kyseessä olisi satunnaisesti valittu otos
suomalaisista sanomalehdistä jollakin aikavälillä, otos
voisi kenties kertoa sanomalehtitekstin tyylistä
ylipäänsä (ko. aikavälillä)
124
Yleistettävyys ...
• miten paljon sanomalehtitekstissä tehdyt havainnot kertovat:
– faktakirjallisuudesta?
– kirjoitetusta kielestä?
– kielen (suomen) käytöstä ylipäänsä?
• sanomalehtiteksti on luonteeltaan varsin heterogeenistä, mutta
voiko se mitenkään olla otos muusta kuin omasta genrestään?
– havainnot on vähintäänkin trianguloitava muissa tekstityypeissä kuten
kaunokirjallisuudessa
– miten eri maantieteellisten tai murrealueiden sanomalehtien tyylit eroavat
toisistaan?
• merkitsevyysmittarit mimimissään rankkaavat eli laittavat
havainnot johonkin mielekkääseen järjestykseen, mutta päätelmät
tulosten lingvistisestä mielekkyydestä on lingvistin tehtävä itse
125
Yleistettävyys ...
• negatiivinen evidenssi
– korpukset kertovat vain niistä ilmiöistä, mitä niissä
havaitaan
– jos korpuksessa ei esiinny jotain ilmiötä, se ei ole
todiste siitä ettei ko. ilmiö voisi esiintyä kielessä
ylipäänsä
 korpukset antavat tietoa parhaiten suhteellisen yleisistä
kielen ilmiöistä
 kokeelliset (psykolingvistiset) testit tehokkaampia
harvinaisimpien yksittäisilmiöiden tarkastelussa
126
Ctl310corp
Korpukset ja kieli
Antti Arppe
Luento 23.4.
Korpusten tulkinta
”Korpukset ja kieli” – entäs sitten?
127
Korpusten tulkinta
• mikä tuloksissa on lingvistisesti merkittävää
ja mielekästä?
– tilastollinen rankkaus ja rajaus merkitsevyyden
perusteella
– lingvistinen näkemys mielekkyydestä
• miten tulokset vastaavat hypoteeseja
• miten vaikutusta tuloksissa on laajemmin
(kieli)tieteeseen  teoreettinen viitekehys
128
Korpusten tulkinta ...
• oma synonymiatutkimukseni
– erilaisia synonyymiparin käyttöön vaikuttavia piirteitä ja
piirrekombinaatioita ja näiden tilastollisia tunnuslukuja syntyi
pitkälti yli kaksi miljoonaa kappaletta
– näistä piirteistä ja kombinaatioista vain vajaat 2000 (1899) olivat
tilastollisesti merkitseviä ( tilastollinen rajaus)
– näistä tilastollisesti merkitsevistä tekijöistä vain muutama
kymmenen oli lingvistisesti mielekkäitä ja mielenkiintoisia (
lingvistin näkemyksellinen rajaus)
– tutkimuksen tarkentamisessa auttoi oleellisesti aineiston
perusteellinen läpikäynti analyysien tarkistamisien ja
täydentämisen aikana  intuitiivinen käsitys aineistosta ja siinä
vaikuttavista tekijöistä
129
Tulkinta ...
2.7715853
2.7715853
2.7715853
2.7715853
2.6441111
...
2.3026922
2.3026922
2.3026922
2.3026922
2.3026922
...
1.8419062
1.8419062
1.8419062
1.8419062
1.8419062
355/672
355/672
355/672
355/672
355/672
pohtia=V
pohtia=V
pohtia=V
pohtia=V
pohtia=V
105/145
105/145
105/145
105/145
127/184
317/672
317/672
317/672
317/672
317/672
miettiä=V
miettiä=V
miettiä=V
miettiä=V
miettiä=V
19/19
19/19
19/19
19/19
19/19
355/672
355/672
355/672
355/672
355/672
pohtia=V
pohtia=V
pohtia=V
pohtia=V
pohtia=V
155/250
155/250
155/250
155/250
155/250
0_SEM-THINK:+1_SX_:+1_N:+1_SG
0_V:0_SEM-THINK:+1_SX_:+1_N:+1_SG
0_V:+1_SX_:+1_N:+1_SG
+1_SX_:+1_N:+1_SG
0_SEM-THINK:+1_SX_:+1_N
0_ACT:0_SG1
0_IND:0_SG1
0_SG1
0_SG1:0_SEM-THINK
0_V:0_SG1
0_ACT:0_SG3
0_IND:0_SG3
0_SG3
0_SG3:0_SEM-THINK
0_V:0_SG3
130
Tulkinta – SG1/SG3
• SG3-jakauma
t-testi
2.358
2.148
-2.705
-8.170
Fisher
1.000000
1.000000
0.000013
0.000001
verbi
miettiä
pohtia
miettiä
pohtia
np,v/nf,total
24/26
206/336
130/336
2/26
piirre
0_SG1
0_SG3
0_SG3
0_SG1
• SG1-suhde on merkitsevä, ja suhdeluku on >9/10
• SG3-suhde on merkitsevä, mutta suhdeluku on 4/6
• olisiko joku toinen tekijä, jonka suhteen SG3verbit jakautuisivat selkeämmin kahteen ryhmään?
131
Kvalitatiivinen tarkastelu
• Hallitus pohtii lähiviikkoina, pitääkö
se kiinni lupauksestaan painaa valtion
menot vuonna 1995 reaalisesti vuoden
1991 tasolle.
• Työryhmässä oli erillinen jaos, joka
pohti moottorikelkkailua Lapin
läänissä.
• Nato pohtii laajentamiskysymystä
kokouksessaan Brysselissä.
132
Korpuksen vastaisku ...
• ... miksi Suomessa jopa eduskunta
miettii milloin kaupan ovi saa olla
auki?
• MTK miettii ehtoja tänään.
• Liikenneministeriön työryhmä miettii
parhaillaan, miten tunnuksettomia
puheluita pitäisi kohdella.
133
Kvalitatiiviset johtopäätökset ...
• pohtia assosioituu kolmannen persoonan kollektiivisiin
agentteihin (subjekteihin) kuten eduskunta, jaos tai Nato
• molemmat verbit ovat keskenään kuitenkin
vaihdettavampia kuin yksittäisten esimerkkien perusteella
voisi ensi kädellä päätellä
 on käytännössä mahdollista käyttää kollektiivisia subjekteja myös
miettiä-verbin kanssa  ainakin yksi autenttinen esimerkki
• SG3-tapausten kohdalla voisi kenties löytyä selkeämpi ero
agentin laskettavuuden suhteen
– ihmisyksilöt vs. ihmisryhmät (kollektiivit)
 agenttien semanttinen luokittelu tämän piirteen suhteen
134
Korpustulokset – SG3:n eri
agentit
• Agentti-jakauma:
t-testi
1.908
1.844
Fisher Verbi
1.0000 pohtia
1.0000 pohtia
np,v/np,total
34/44
155/254
Agentti
GROUP
INDIVIDUAL
• kollektiiviagenttien suhteen suhde-ero kasvaa (1/4
vs. 3/4) ja on edelleen tilastollisesti merkitsevä
• yksilöagenttien suhteen suhde-ero itse asiassa
säilyy samana (4/10 vs. 6/10), mutta on edelleen
tilastollisesti merkitsevä
135
Tulosten suhde hypoteesiin
• Hypoteesi
– onko synonyymeiksi tulkittavien sanojen
taivutusprofiileissa empiirisesti havaittavia
eroja?
• Tulos
– kahden synonyymisen sanan
taivutusprofiileissa esiintyi sekä tilastollisesti
merkitseviä että lingvistisesti mielekkäitä eroja
(INF1, SG1, SG3, ...)
136
Tulosten vaikutus teoreettiseen
viitekehykseen
• Aiempi teoria:
– synonyymien valintaan vaikuttavat rekisteri sekä
leksikaalinen ja syntaktinen konteksti
• Tämän tutkimuksen seuraamus ja yleistys:
– synonyymien valintaan vaikuttaviin tekijöihin tulisi
lukea mukaan myös synonyymien sisäinen konteksti eli
morfosyntaktiset piirteet, erityisesti morfologisesti
rikkaissa kielissä kuten suomessa
– morfosyntaktisilla piirteillä on vaikea yksin selittää
valintoja  kyseessä on useiden eri kontekstitekijöiden
yhteisvaikutus (esim. verbin persoonamuoto [erit. SG3]
on kytköksissä verbin agenttiin)
137
Tulosten tulkinta tieteellisissä
lehdissä ...
• tulosten suhde hypoteeseihin ja vaikutukset
teoreettiseen viitekehykseen
 International Journal of Corpus Linguistics
138
Korpukset ja kieli-intuitio eli
korpukset ja kieli eli tulosten
lingvistinen yleistettävyys
• SG3:n eri agenttityypit näyttävät selittävän korpuksessa
havaittua jakaumaa kahden tutkittavan verbin käytön
välillä
• vastaako korpus natiivikielenkäyttäjien kieli-intuitiota?
 kokeellinen pakotustesti: minkä vaihtoehdon kielenkäyttäjä
valitsisi, jos on valittava yksi
• minkälainen mekanismi itse asiassa on korpuksissa
havaittujen valintojen takana?
 hyväksyttävyystesti: jos eri vaihtoehtoja tarkastellaan
yksittäisinä tapauksina, kuinka hyväksyttäviksi/hyviksi ne
koetaan (asteikolla 1-7)?
139
Pakotustesti
Aineisto
• 31 virkerungon pohjalta muodostettu 31
virketriplettiä, jossa kussakin kolme eri verbiä (1
alkuperäinen virke ja 2 keinotekoista), esim.
– Anu Joutsasta pohti hetken
– Anu Joutsasta mietti hetken
– Anu Joutsasta ajatteli hetken
• Osallistujia kehotettiin valitsemaan luonnollisin
virke kustakin tripletistä
• 21 suomen natiivipuhujaa osallistui kokeeseen
140
Pakotustesti (N=520) ...
60,0
50,0
miettiä
45.0
35.8
19.2
pohtia
10.4
31.9
57.7
40,0
%
%
1sg
3sg
3coll
Miettiä
30,0
Pohtia
20,0
10,0
0,0
1sg
3sg
3coll
141
Pakotustesti ...
• Vastausten kokonaisjakauma erosi merkitsevästi
sattumasta (2 , p < .0001)
• SG1-agentti selkeästi suosi verbiä miettiä
(2 , p < .001)
• SG3-KOLLEKTIIVI-agentilla suosi selkeästi
verbiä pohtia (2 , p < .001)
• SG3-agentilla (ei-kollektiivinen l. yksilö) ei ollut
preferenssiä kumpaakaan verbiä kohtaan (2 , ei
merkitsevä)
142
Hyväksyttävyystesti
• Kutakin Agenttityyppiä (SG1, SG3 & SG3COLL) sisältäviä virkerunkoja – 21 runkoa
kutakin Agenttityyppiä kohti – käytettiin
testilauseiden luomiseen, joissa esiintyi sekä
miettiä että pohtia ja semanttisesti läheinen
täyteverbi ajatella
 1/3 testivirkkeistä oli korpuksessa esiintynut
alkuperäinen verbi; 2/3 alkuperäinen verbi oli korvattu
vastaavassa taivutusmuodossa olevalla toisella verbillä
• yhteensä 63 testiverbiä kokeeseen osallistujaa
kohti
• 40 täytevirkettä muodostettiin käyttäen verbehä
käsittää ja ymmärtää (20 + 20)
143
Hyväksyttävyystesti ...
• Kukin osallistuja arvioi siis yhteensä 103
testivirkettä
– e.g., Anu Joutsasta <ajatteli> hetken.
• Kokeeseen osallistui 54 suomen natiivipuhujaa
• Osallistujia kehotettiin arvioimaan jokaisen verbin
hyväksyttävyyttä virkerungossa asteikolla 1-7
– 1: huono  7: hyvä
144
Hyväksyttävyystesti ...
SG1
SG3
COLL3
miettiä
pohtia
5.6
5.3
4.5
5.2
5.6
5.4
145
MAS
Hyväksyttävyystesti ...
6,0
5,5
5,0
4,5
4,0
3,5
3,0
miettiä
pohtia
1sg
3sg
3coll
146
Hyväksyttävyystesti ...
• Agenttityypin pääefekti merkitsevä
• Agenttityypin ja Verbin vuorovaikutus merkitsevä
 Agenttityyppi merkitsevä miettiä-verbin muttei pohtiaverbin kohdalla
• miettiä: COLL3 merkitsevästi vähemmän
hyväksyttävä kuin joko SG1 tai SG3 (p<.001), ei
merkitsevää eroa SG1:n ja SG3:n välillä (p>.2)
147
Hyväksyttävyystesti ...
• Kolmen Agenttityypin sisällä:
– SG1: miettiä merkitsevästi hyväksyttävämpi
kuin pohtia (p < .01)
– SG3: ei merkitsevää eroa (p > .1)
– 3COLL: miettiä merkitsevästi vähemmän
hyväksyttävä kuin pohtia (p < .001)
148
Korpushavaintojen suhde kieliintuitioon
• pakotustestin tulokset vastasivat korpuksesta saatuja
tuloksia  pakotettu valinta vastaa tekstin tuottotilannetta
(ainakin tässä tapauksessa)
• hyväksyttävyystestit kertoivat laajemmin eri vaihtoehtojen
sopivuudesta ja käytettävyydestä eri konteksteissa, mitä
voidaan käyttää selittämään miksi tuotetussa
korpustekstissä ja pakotustesteissä tehdään ne valinnat
mitkä tehdään
– Tässä tapauksessa: valinnan syy voi siis olla, että toinen
vaihtoehdoista sopii huonommin kontekstiin kuin toinen
• otaniemeläisten teekkarien ja keskisuomalaisten
toimittajien näkemykset ko. synonyymien käytöstä
vaikuttavivat samansuuntaisilta (triangulointia
vahingossa?)
149
Korpusten ja kieli – yhteenveto
• mistä korpukset kertovat?
– aktuaalisesta käytöstä ja valinnoista
– suhteellisen yleisistä ilmiöistä (kvantitatiivisessa
tutkimuksessa)
– selittävät kielen käyttöä ja valintoja mikäli syy esiintyy
kontekstissa
• mistä korpukset eivät kerro?
– yksittäisten tapausten hyväksyttävyydestä ylipäänsä
– mekanismeista ja preferensseistä käytön ja valintojen
takana, mikäli syy ei ole kontekstissa
150
Ctl310corp
Korpukset ja kieli
Antti Arppe
Päätöskalvo
• Kysymyksiä?
• Ehdotuksia ensi luentokierrosta varten
• Palautelomake
151