Korpukset ja kieli Ctl310corp Kevät 2004 Antti Arppe Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa.
Download ReportTranscript Korpukset ja kieli Ctl310corp Kevät 2004 Antti Arppe Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa.
Korpukset ja kieli Ctl310corp Kevät 2004 Antti Arppe Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa Aloitusluento 12.3.2002 klo 12-15 • Hallinnolliset kuviot – kurssin tavoitteet – kurssin rakenne ja suoritus – kurssin ohjelma ja aikataulu • Mitä ovat korpukset • Mitä on korpuslingvistiika 2 Kurssin motivaatio ja tavoitteet • Kurssin tavoitteena on kokemusperäisesti tarkastella, miten korpuksia voidaan käyttää kielen tutkimuksessa. • Minkälaisia tutkimuskysymyksiä kannattaa esittää korpuksille • miten korpuksia kannattaa tutkia, ja • mitä tulosten pohjalta voidaan sanoa kielestä. 3 Kurssin rakenne ja suoritus • Kuusi luentoa • Tentti (1 ov) • Harjoitustyö (1 ov) 4 Suoritus I: luennot • • • • • pe 12.3., 19.3., 26.3., 2.4.,16.4. ja 23.4. kello 12-15 (tauko keskellä) Siltavuorenpenger 20, ls 334D “teoria”- ja vierailuluentoja luentomateriaalit löytyvät verkosta kurssin verkkosivuilta – http://www.ling.helsinki.fi/kit/2004k/ctl310corp 5 Suoritus II: tentti • Laajuus 1 opintoviikko • pe 30.4. klo 12-14 luentosalissa ls 334D ja tiedekuntatenttipäivänä ke 19.5. (ilm. ma 10.5.) • Kurssikirja: Biber, Douglas; Conrad, Susan; Reppen, Randi (1998). Corpus linguistics: Investigating Language Structure and Use • Ylimääräinen kurssikirja: Sinclair, John (1991). Corpus, concordance, collocation 6 Suoritus III: harjoitustyö • laajuus 1 opintoviikko • pienimuotoinen korpustutkimus kiinnittäen huomiota aineiston ja menetelmien vaihtoehtoihin ja valintojen perusteluihin tai • olemassaolevan (julkaistun) korpuspohjaisen tutkimuksen kriittinen analyysi ja arvio kuten yllä • palautus pe 30.4.2004 • tarkempi ohjeistus kolmannella luentokerralla (pe 26.3.) 7 Luentojen rakenne ja aikataulu I Pe 12.3. • Johdanto ja kurssin suoritus • Mikä on korpus, minkälaisia korpuksia on? • Minkälaista on korpuslähtöinen kielentutkimus – käytäntö ja teoria ? Pe 19.3. – Korpuksen valitseminen ja koostaminen – korpuksen suhde hypoteesiin – mikä on edustava korpus? Pe 26.3. • Korpuksen esiprosessointi • annotoinnin filtteröinti • lingvistiset analyysityökalut – hyödyt ja haitat 8 Luennot II • Pe 2.4. (12-14) Korpusten tilastollinen käsittely tilastolliset menetelmät ja kieli • Pe 16.4. Puhekieliset korpukset (FT Martti Vainio) – Mitä uutta puheeseen perustuvat korpukset tuovat korpuslingvistiikkaan? • Pe 23.4. Korpusten tulkinta - "korpukset ja kieli” entäs sitten? 9 Kuinka moni teistä on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen? Hypoteesi – aineisto – menetelmä – tulkinta? Mikä on korpus? • • • • • yksittäinen tekstifragmentti yksittäinen sanomalehtiartikkeli? kaunokirjallinen kirja? yksi sanomalehti kokonaisuudessaan? Assyrian valtionartiston savitaulut kokonaisuudessaan? • yksittäisen tv-ohjelman transkriptio? • muita...? 11 Mikä on korpus? • corpus, plural corpora A collection of linguistic data, either compiled as written texts or as a transcription of recorded speech. The main purpose of a corpus is to verify a hypothesis about language - for example, to determine how the usage of a particular sound, word, or syntactic construction varies. Corpus linguistics deals with the principles and practice of using corpora in language study. A computer corpus is a large body of machine-readable texts. (cf. Crystal, David. 1992. An Encyclopedic Dictionary of Language and Languages. Oxford, 85) 12 Korpus... • CORPUS (13c: from Latin corpus body. The plural is usually corpora) (1) A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. (2) Plural also corpuses. In linguistics and lexicography, a body of texts, utterances or other specimens considered more or less representative of a language, and usually stored as an electronic database. ... 13 Korpus... • Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus. (cf. McArthur, Tom "Corpus" , in: McArthur, Tom (ed.) 1992. The Oxford Companion to the English Language. Oxford, 2 14 Korpuksen määritelmiä – gurut • A collection of linguistic data, either written texts or a transcription of recorded speech, which can be used as a starting-point of linguistic description or as a means of verifying hypotheses about a language David Crystal, A Dictionary of Linguistics and Phonetics, Blackwell, 3rd Edition, 1991. • A collection of naturally occurring language text, chosen to characterize a state or variety of a language. John Sinclair, Corpus, Concordance, Collocation, OUP, 1991 15 Korpuksen määritelmä - kriteerit • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corp us2/2fra1.htm Korpus ei ole mikä tahansa tekstinpätkä, vaan: • tutkimuksen ja sen hypoteesin kannalta edustava otos/kokoelma • kooltaan rajattu ja sisällöltään määritetty • elektronisessa muodossa siitä on saatavissa enemmän tietoa frekvensseista, rakennehahmoista ja esiintymisassosiaatioista tietokoneen avulla kuin käsin uusien analyysien kustannukset ovat verrattaen pienet verrattuna käsin laskemiseen • yleisesti saatavilla ( tutkimustulokset ovat vertailtavissa) 16 Korpuksen käsitteen monimuotoisuus • • • määrätietoisesti etukäteen asetettujen periaatteiden ja kriteerien mukaan kesätty kokoelma kieliaineistoja (= yo. määritelmä) kokoelma, johon on kerätty mahdollisimman paljon kaikkea kieliaineistoa mitä on vaan on kätevästi ja saatavilla oma tutkimusaineisto 17 Miksi korpuksia käytetään? • kun introspektio ei riitä – introspektiivisiä havaintoja ei voida ulkoisesti observoida – introspektiivinen data on useimmiten keinotekoista – ihmisillä on vain epämääräinen mielikuva lingvistisen ilmiön yleisyydestä 18 Miksi korpuksia? • korpusaineistojen hyödyt – korpukset ovat avoimempia tulosten objektiiviselle verifikaatiolle – korpukset edustavat miten ihmiset todellisissa käyttötilanteissa tuottavat kieltä, ei jonkun kielioppikuvauksen sisältämää idealisaatiota (esim. ovatko moninkertaiset upotukset mahdollisia vai eivät) – kvantitatiivinen tieto kertoo mikä on yleistä ja mikä on harvinaisempaa paremmin kuin introspektio – tietokoneet ja elektroniset aineistot mahdollistavat aineistojen tehokkaan tarkastelun 19 Minkälaisia korpuksia on? • Kansainväliset klassikot http://www.uni-koeln.de/philfak/englisch/bald/corpora.htm – Brown (kirjoitettua amerikan-englantia 60luvulta balansoitu: 500 tekstinfragmenttia à 2000 sanaa) – Lancaster-Oslo/Bergen (LOB) (Brownia vastaava korpus brittienglantia 70-luvulta) – Lond-Lund (puhuttua englantia) 20 Korpuksia... • Uudempia englanninkielisiä – Bank of English (320 Mw 450 Mw [monitorikorpus]) http://titania.cobuild.collins.co.uk/boe_info.html – British National Corpus (100 Mw) – International Corpus of English (1 Mw kustakin englannin kansallisesta variantista) http://www.ucl.ac.uk/english-usage/ice/index.htm – Child Language Date Exchange System (CHILDES) http://atila-www.uia.ac.be/childes/ (eri-ikäisten lasten puhetta eri kielillä, mm. englanti ja saksa) • Korpuksia ympäri maailman http://www.ruf.rice.edu/~barlow/corpus.html 21 Korpuksia... • Tunnetuimmat kotimaiset – Suomen kielipankki (~170 Mw suomea ja ~30 Mw (suomenruotsia) http://www.csc.fi/kielipankki/ – KOTUS:en korpukset (historiallista kirjasuomea) http://www.kotus.fi/aineistot/ – Oulun korpus (500 kw mm. puhuttua suomea; koostettu 1967) – Savonlinnan käännöskorpus 22 Korpusten luokitteluntapainen • kielen meediumi: puhekorpukset (esim. LondonLund corpus) vs. kirjalliset korpukset (esim. Lancaster Oslo/Bergen corpus(LOB) vs. yhdistetyt (British National Corpus (BNC) tai Bank of English) • synkroninen variaatio (kansalliskielen [standardin] sisäinen): britti-englannin korpukset (esim. Lancaster Oslo/Bergen corpus) vs. amerikan-englannin korpukset (e.g. Brown corpus) vs. joku kansainvälisen englannin korpus 23 Luokittelu... • historiallinen variaatio: diakroniset korpukset (Helsinki corpus, cf. ICAME:n kotisivu) vs. synkroniset korpukset (Brown, LOB, BNC) vs. vain yhden segmentin kielen historiaa kattavat korpukset (Old/Middle English, Shakespearen tekstit) • maantieteellinen variaatio/murrevariaatio: murreotoskorpus (e.g. Scots) vs. yhdistetyt (BNC puheosuus sisältää otoksia puhujista kaikkialta Britanniasta) 24 Luokittelu... • ikä: aikuisten englannin korpus vs lasten englannin korpus (CHILDES:n englanninkieliset osiot) • tekstityyppi/rekisteri: kaunokirjalliset vs. tekniset vs. ei-fiktiiviset (esim. sanomalehtiteksit) vs. sekoitetut korpukset jotka kattavat kaikki tekstityypit • aivoimuus: suljetut, muuntamattomat korpukset (esim. LOB, Brown) vs. monitorikorpukset (Bank of English) 25 Luokittelu... • saatavuus: kaupalliset vs. ei-kaupalliset tutkimuskorpukset, suoraan saatavilla olevat (online) korpukset vs. korpukset ftppalvelimilla vs. korpukset levykkeillä • yksikielisyys vs. monikielisyys (kohdistetut käännöskorpukset); alkuperäiset (supisuomi) vs. käännetyt (käännössuomi) 26 Minkälaista korpuspohjainen kielentutkimus on? • Korpuspohjaisen lingvistiikan esihistoriaa – http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corp us1/1fra1.htm Ilman tietokoneita aineiston monipuolinen analyysi on vaikeaa • Korpuspohjaisen lingvistiikan varsinainen käynnistyminen – http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corp us1/1fra1.htm Korpukset elektronisessa muodossa, tietokoneet tarkastelun apuna 27 Korpuspohjainen kielentutkimus tänään? • Puheentutkimus • Leksikografia • Kielioppi/syntaksi • Semantiikka • Pragmatiikka • Sosiolingvistiikka • Stilistiikka • Kielenopetus • Historiallinen kielitiede • Murretutkimus • Psykolingvistiikka • Kulttuurintutkimus • Sosiopsykologia 28 Korpuslingvistiikka tänään • Corpus Linguistics 2003 –konferenssi (Lancaster 28-31.3.2003) http://www.comp.lancs.ac.uk/ucrel/cl2003/p rogramme.html#papers 29 Korpukset ja kieli Ctl310corp Kevät 2003 Antti Arppe Luento 19.3. Metodologinen yleiskatsaus – empiirisen tutkimuksen rakenne Hypoteesin muodostaminen Aineiston valitseminen ja koostaminen Korpuspohjainen kielentutkimuksen tyypit? • kvalitatiivinen - laadullinen – analyysin rikkaus – tarkkuus ja – perusteellisuus • kvantitatiivinen - määrällinen – tilastollisesti luotettavat ja – yleistettävät tulokset 31 Kvalitatiivinen – kvantitatiivinen • Kvalitatiivinen – tavoitteena täydellinen, yksityiskohtainen kuvaus – ilmiöiden frekvenssien merkitys on vähäisempi, yksittäiset tapauksetkin saavat huomiota – kielen monitulkintaisuus sallitaan tulokset eivät välttämättä ole varmuudella yleistettävissä kieleen kokonaisuudessaan 32 Kvalitatiivinen – kvantitatiivinen • kvantitatiivinen – piirteitä luokitellaan, niiden lukumääriä lasketaan ja vertaillaan – piirteiden yhteisesiintymistä voidaan tehdä monimutkaisia tilastollisia malleja – eri korpuksia voidaan vertailla keskenään – yleisten, tyypillisten ilmiöiden erottaminen (mahdollisesti) satunnaisista esiintymistä – luokitukset tyypillisesti kategorisia – edellyttää minimiesiintymisiä, jotta yleistyksiä voidaan tehdä – harvinaiset ilmiöt jäävät paitsioon kategorioita saatetaan tästä johtuen niputtaa yhteen 33 Kvantitatiivinen – kvalitatiivinen • monimetodisuus, eri tutkimusmenetelmiä ja –aineistoja yhdistyvä tutkimus yleistymyssä ihmistieteissä • kvalitatiivinen tutkimus voi edeltää kvantitatiivista intuitiivinen yleiskuva tutkittavasta ilmiöstä ja aineistosta kategoriat on ensiksi identifioitava 34 Tutkimuksen tyypit • eksploratiivinen – tutkiva, tutkimushypoteeseja hypoteeseja muodostava, korpus referenssinä kuinkas sitä kieltä oikein käytetään • deskriptiivinen – kuvaava systemaattisempi ja kokonaisvaltaisempi • konstruktiivinen – teorioita muodostava tavoitteena enemmän kuin jonkun yksittäisen lingvistisen olion kuvaus • testaava – teorioiden validiteetin tarkastelua 35 Tutkimuksen tyypit – henkilökohtaisia esimerkkejä • eksploratiivinen: onko synonyymien käyttökonteksteissa eroja? • deskriptiivinen: minkälaista on jonkun synonyymiryhmän käyttö; miten käyttökontekstit eroavat toisistaan? • konstruktiivinen: mistä synonyymien käyttökontekstien erilaisuudet johtuvat? • testaava: päteekö yllä esitetty teoria käyttökontekstien erilaisuudesta myös muiden synonyymiperheiden kohdalla? 36 Mallitutkimuksen rakenne 1) 2) 3) 4) 5) 6) [Teoreettinen tausta: aikaisempi tutkimus] hypoteesi aineisto eli korpus menetelmä tulkinta [Kytkentä teoreettiseen taustaan: miten tulokset vaikuttavat teoriaan] 37 Hypoteesi • mikä on riittävän hyvä/perusteltu hypoteesi? – perustuu aikaisempaan tutkimukseen tai teorianmuodostukseen? – perustuu tutkijan tai tutkijayhteisön omaan intuitioon? • tutkijan kannalta tärkeää on ankkuroida hypoteesi ajankohtaiseen tutkimukseen – teoria X väittää jotain Y kaikista kielistä: pitääkö Y paikkansa kielessä Z – teoria X on yksi kielen rakenteen kuvauksen yleisistä malleista: miten teoriaa X voisi soveltaa kielessä Y 38 Aineisto • hypoteesin perusteella minkälainen aineisto on (riittävän) edustava hypoteesin kannalta edustavuus/kattavuus voiko mikään aineisto koskaan olla täysin representatiivinen kielen kannalta? • kielen monimuotoisuuden huomiointi: kieli ei ole homogeenista yhdestä aineistosta ei voi välttämättä päätellä kaikesta kielenkäytöstä 39 Menetelmä • esiprosessointi: ylimääräisen annotoinnin poistaminen • lingvistinen (automaattinen) analyysi virheiden huomioiminen ja vaikutus automaattisen analyysin täydentäminen käsin lingvistisen analysaattorin implisiittisesti sisältämä malli kielestä miten analysaattori vaikuttaa ja ennakoi tuloksia • tilastolliset mallit Miten hyvin/huonosti niiden (matemaattiset) ennakkooletukset vastaavat kielen olemusta 40 Tulkinta • miten tulokset vastaavat hypoteeseja • miten paljon voidaan sanoa kielestä ylipäänsä mistä tulokset itse asiassa kertovat • kuinka merkitseviä tulokset ovat? keskeistä on aina kuitenkin lingvistin tulkinta: mitä lingvisti nostaa esille tai näkee merkittävänä – kielitieteen kannalta 41 Tutkimuksen suunnittelun tärkeys • ekstralingvististen muuttujien huomioiminen korpusta valittaessa ja koostettaessa (tekstityypit ja niiden väliset erot, murteet, idiolektit) • aineistoon ja annotointiin perehtyminen: kuinka täydellisesti/perusteellisesti/oikein aineisto on esikäsitelty • työkalujen vaikutuksen arvioiminen: kuinka hyvin/huonosti automaattiset analyysityökalut toimivat • esitutkimuksen tärkeys ei soitellen sotaan vaan perusteellisesti kokeillen ennen lopullisen 42 tutkimusasetelman lukkoonlyömistä Esimerkkejä hypoteeseista: Int’l Journal of Corpus Linguistics Hypoteesin muodostaminen käytännössä – oman tutkimuksen teoreettista taustaa • erityisesti englannin osalta on osoitettu, että synonyymien valintaan vaikuttavat rekisteri, tavoiteltu tyyli ja käyttötilanne, esim. dollar vs. buck (Zgusta 1971, Biber 1998) • myöhemmin on englannin osalta osoitettu myös että leksikaalinen ja syntaktinen konteksti vaikuttaa myös synonyymin valintaan, esim. begin vs. start (Biber 1998): SUBJ start (intransitiivinen käyttö) SUBJ begin OBJ SUBJ begin TO-V • lisäksi on argumentoitu, että lekseemin kullakin taivutusmuodolla voi periaatteessa olla itsenäiset käyttöyhteydet, esim. kollokaatioiden suhteen (Sinclair 1991) 44 Alkuperäinen tavoite • jos kerran sanan ulkoinen konteksti, olkoon se leksikaalinen tai syntaktinen rakenne, vaikuttavat synonyymin valintaan (englannin tyyppisessä morfologisesti köyhässä kielessä), niin eikö suomessa (morfologisesti rikkaassa) olisi vastaavaa havaittavissa taivutusmuotojen ja piirteiden osalta • Hypoteesi: onko synonyymeiksi tulkittavien sanojen taivutusprofiileissa empiirisesti havaittavia eroja? 45 Hypoteesin konkretisoiminen: mitä on synonymia? • synonymian määritelmä ja käsittely näyttää seuraavan siitä miten merkitys ymmärretään – merkitys kompositionaalisten, kategoristen piirteiden joukkona synonymia tietyntyyppisenä erona ko. piirteissä – merkityksen syntyminen käyttöyhteyden kautta (Firth) synonymia korvattavuutena tai vaihdettavuutena samanlaisissa konteksteissa (Miller 1990) 46 Synomia – absoluuttinen synonymia – lähisynonymia • absoluuttinen synonymia edellyttäisi vaihdettavuutta kaikissa mahdollisissa kontekteissa, mutta tämä on oletetusti käytännössä erittäin harvinaista – käytännössä joutuu tutkimaan lähisynonymiaa (l. plesionymiaa) – synonymia on kuitenkin jollakin naivilla tasolla todellista, sillä tavalliset kielenkäyttäjät mieltävät synonyymien olemassaolon ja kokevat että sanoja voidaan usein vaihtaa toisiin ilman että lauseen merkitys ja konnotataatiot oleellisesti muuttuvat 47 Tutkimuksen rajaaminen: tutkittavien synonyymien valinta • ei ole mielekästä ryhtyä tutkimaan kaikkia potentiaalisia synonyymejä: yksikin pari voi riittää • tavoitteena oli valita verbipari joka olisi a priori niin samankaltainen sekä syntaktisen että semanttisen valenssin suhteen kuin mahdollista • kaikkien verbien suhteelliset frekvenssit laskettiin korpuksesta ja nämä yhdistettiin elektronisen synonyymisanakirjan sisältöön • kullekin synonyymiryhmälle laskettiin suhteellisten frekvenssien geometrinen keskiarvo r1 x ... rn , jonka mukaan synonyymiryhmät 48 rankattiin Tutkimuksen rajaaminen: synonyymilistan Top 1000 • 1000 kollektiivisesti yleisintä synonyymiryhmää 49 Tutkimuksen rajaaminen • rankatut synonyymiryhmät arvioitiin subjektiivisesti • mikäli jossakin synonyymiryhmässä ei ensi näkemältä tuntunut olevan ilmiselviä eroja merkityskentän tai syntaktisen käytön suhteen, potentiaalisia kandidaatteja arvioitiin Perussanakirjan sanaselitysten ja esimerkkilauseiden perusteella (Haarala 1997) ja lisäksi Pajunen (1982) • mitä enemmän sanojen sanaselitykset ja esimerkit olivat samansuuntaisia, sitä parempi • polyseemisiä kandidaatteja hyljeksittiin 50 Lopullinen rajaus ja hypoteesi • kognitiviiset verbit pohtia and miettiä • myös ajatella, tuumia ja harkita voisivat tulla kyseeseen • Hypoteesi: verbien pohtia ja miettiä morfologiset kontekstit eli taivutusmuotoprofiilit eroavat joiltakin osin tilastollisesti toisistaan 51 Aineiston valinta – edustavuus • kun ilmiötä ei voida tai haluta tutkia (kvantitatiivisessa tutkimuksessa) kokonaisuudessaan, ihmistieteissä turvaudutaan tyypillisesti satunnaisotantaan Satunnaisotanta edellyttää, että lähtökohtapopulaatio on mahdollisimman selkeästi määritelty ja rajattu miten otannan populaatio määritellään kielitieteessä? 52 Edustavuus – populaatio • miten hyvin populaatio on määriteltävissä? Tutkimushypoteesi määrää • kattava bibliografinen indeksi: kaikki Suomessa julkaistu kaunokirjallisuus vuosina 1990-2000 • sanomalehtiteksti Suomessa vuonna 1994/vuosina 1990-2000 • Keskisuomalainen vuonna 1994 • Ylioppilasaineet vuonna 2000 53 Edustavuus - populaatio • mikä voisi olla (suomen) kielen populaatio? mitä ”koko” kieleen kuuluu? • kirjoitettu kieli: – – – – – – – sanomalehdet kaunokirjalliset kirjat: alkuperäiset vs. käännöstekstit juridiset tekstit tekniskaupalliset tekstit kirjeet sähköiset uutisryhmät chattipalstat, IRC 54 (Suomen) kielen populaatio? • puhuttu kieli: – uutislähetykset – esitelmät kirjoitetun tekstin pohjalta – ihmisten väliset nauhoitetut spontaanit keskustelut – jne... 55 ”Koko” kielen populaation problematiikkaa? • mikä tulisi olla ”kielen” eri osa-alueiden keskinäiset kokosuhteet ”koko” kieltä edustavassa populaatiossa? onko ylipäänsä väitettävissä, että kielestä (esimerkiksi) 50% on kirjoitettua ja 50% puhuttua onko ylipäänsä mielekästä yrittää muodostaa otosta ”koko” kielestä onko ylipäänsä mielekästä edes yrittää tutkia kieltä ”kokonaisuudessaan” häviävätkö kielen eri osa-alueiden erot kun ne niputetaan yhteen? olisiko mielekäämpää yrittää tarkastella kielen eri osa-alueiden välisiä 56 samankaltaisuuksia ja eroja? (Biber) Lingvistisen populaation problematiikkaa • kuinka homogeenisia yksittäiset osa-alueet ovat? esim. sanomalehtiteksti sisältää laajan kirjon eri tekstityyppejä ja yhdistää kirjoitettua ja puhuttaa kieltä (sitaatit) • Esimerkkejä sanomalehtitekstistä (HS 13.3.2003) • • • • poliittinen artikkeli urheiluartikkeli mielipidekirjoitus tiedeartikkeli Yksittäisenkin kielen osa-alueen sisällä tulee pohtia, mitkä tekijät mahdollisesti aiheuttaisivat variaatiota (esim. toimittajien idiolektit) 57 Satunnaisotannan periaatteita korpustutkimuksessa (Biber) • lähtökohtana määritellä tutkittavan populaation hierarkinen stratifioituminen jaottelun eri tekstityyppeihin tulisi perustua hypoteesistä lähtevään tutkimusasetelmaan ja sen teoreettisiin taustaolettamuksiin käytännössä tekstityyppijaottelussa joutuu turvautumaan käytettävissä olevien korpusten jaotteluihin ja niiden sisältämään ekstralingvistiseen tietoon (Kielipankin aineistot) • stratifioitunut otanta on vähintään yhtä edustava kuin puhdas satunnaisotanta, sillä se varmistaa kunkin tekstityypin mukanaolon 58 Oman tutkimuksen otanta • sanomalehtiteksti on hyvä lähtökohta, sillä se pitää sisällään useita eri tekstityyppejä • Keskisuomalaisen aineisto (1994, 2 Mw) sisälsi tarvittavaa ekstralingvististä tietoa sekä tekstityypeistä että artikkelien kirjoittajista tekstityypin tai idiolektin mahdollinen vaikutus tuloksiin esiintyykö variaatiota? • Koko sanomalehtikorpus (16 Mw Keskisuomalaisen lisäksi mm. Hesarin) oli kooltaan 8-kertainen, jolloin harvinaisemmat ilmiöt olivat havaittavissa ( tilastollinen merkitsevyys) 59 Korpukset ja kieli Ctl310corp Kevät 2003 Antti Arppe Luento 26.3. Annotointi Aineiston esikäsittely Automaattiset analyysityökalut Annotointi • korpukset voivat olla: – raakoja = tekstejä sellaisenaan – annotoituja eli tekstin alunperin kuulumattomalla, pääosin lingvistisellä informaatiolla varustettuja • annotaatio voi koostua yksittäisistä tageista (esim. Brown collects_VVZ) tai tagirymistä (esim. ENGTWOL collects V IND PRES SG3) Vaikuttaa tagien määrään ja käsittelyn • sanakohtainen tai virkekohtainen (KOTUS) annotaatio – lingvistisen annotaation lisäksi korpukset sisältävät nykyisin myös lähde- ja rakenteellista tietoa (esim. SGML/TEI/XML-taggauksen muodossa) 61 TEI/SGML-formatoitua ja annotoitua korpusta (Keskisuomalainen 1994/CSC) <group id="KS-1994-01-02"> <!-Nimi: apua! Aihe: Teki: KSML Osasto: viv Luontipvm: 931229 Ilm.pvm: 940102 --> <text lang="FI"> <body> <div type="article"> <head type="half-title">Kansanedustaja ja taiteilija joululomalla Bosniassa </head> <head type="title">Tähtäimessä punainen risti </head> <p> Kun monet espanjalaisparlamentaarikot selailivat joulun alla matkaoppaita lehtereillä, <num>29</num>–vuotias kansaned ustaja Tomas Burgos lastaili kiireisenä kahdeksaa pakettiautoa ja kahta rekkaa. Matkakohteeksi oli valittu talvinen Bosnia. </p> 62 Lingvistisesti annotoitua korpusta (FDG/Conexor) 0 1 2 3 Kun kun pm:>4 &CS CS monet moni attr:>3 &A> PRON PL NOM espanjalaisparlamentaarikot espanjalais#parlamentaarikko subj:>4 &NH N PL NOM 4 selailivat selailla &+MV V ACT IND PAST PL3 5 joulun joulu loc:>4 &NH N SG GEN 6 7 8 10 12 13 14 15 16 17 18 19 20 21 22 24 25 26 27 28 30 alla alla pm:>5 &PM PSP matkaoppaita matka#opas &NH N PL PTV lehtereillä lehteri &NH N PL ADE , , 29 29 &NH NUM CARD vuotias vuotias attr:>13 &A> A SG NOM kansanedustaja kansan#edustaja attr:>15 &NH N SG NOM Tomas Tomas attr:>15 &A> N SG NOM Burgos burgos subj:>16 &NH N SG NOM lastaili lastailla &+MV V ACT IND PAST SG3 kiireisenä kiireinen copr:>16 &NH A SG ESS kahdeksaa kahdeksan qn:>19 &QN> NUM CARD SG PTV pakettiautoa paketti#auto &NH N SG PTV ja ja cc:>19 &CC CC kahta kaksi qn:>22 &QN> NUM CARD SG PTV rekkaa rekka cc:>19 &NH N SG PTV . . Matkakohteeksi matka#kohde &NH N SG TRA oli olla main:>23 &+MV V ACT IND PAST SG3 valittu valita attr:>28 &-MV V PASS PCP2 SG NOM talvinen talvinen attr:>28 &A> A SG NOM Bosnia Bosnia &NH N SG NOM . . <s> <s> >29 63 Hyvän annotoinnin periaatteet (Leech) • 1. Annotoinnin tulisi olla erotettavissa/irrotettavissa/siivottavissa alkuperäisestä/varsinaisesta korpuksesta – Claire_NP1 collects_VVZ shoes_NN2” "Claire collects shoes” • 2. Annotoinnit tulisi olla sellaisinaan irrotettavissa korpuksesta esim. eri tilastollisia tarkasteluja varten – Claire_NP1 collects_VVZ shoes_NN2” NP1 VVZ NN2 64 Annotoinnista... • 3. Annotoinnin periaatteiden pitäisi olla (helposti) korpuksen käyttäjän saatavilla – annotoinnissa käytettävien tagien merkitykset pitäisi olla saatavilla samoin kuin esimerkit niin yleisistä tapauksista kuin rajanpetotilanteista – tämä ei valitettavasti aina pidä riittävän pitkälle paikkaansa esim. akateemisesti kehitettyjen analyysityökalujen kohdalla • 4. Annotoinnin tekijän, mahdollisen muuttajan ja annotointiajankohdan pitäisi olla selkeästi merkittynä – aikaisemmat annotoinnit pitäisi muutos/korjaustapauksissa olla jätetty jäljelle, mikäli halutaan palata korpuksen aikaisempaan versioon 65 Annotoinnista ... • 5. Korpuksen käyttäjälle tulisi tehdä selväksi, että annotointi ole virheetön eikä lopullinen – lisäksi tulisi korostaa, että annotointi on aina jonkun teoreettisen näkökannan mukainen tulkinta eikä ainoa mahdollinen vaihtoehto • 6. Annotoinnin periaatteidein tulisi laajalti hyväksyttyjä ja teorianeutraaleja – tämä ei ole mitenkään helppo periaate, sillä korpusten moninaiset käyttötarkoituksen voivat olla ristiriidassa tämän kanssa • 7. Yksikään annotointiperiaatetta ei saisi esittää a priori standardina – standardit syntyvät käytännön hyväksynnän ja konsensuksen kautta 66 Miksi alkuperäinen annotointi kannattaa säästää (tekijätiedot eräässä sanomalehtikorpuksessa) </div> </body> </text> <!-Huomautus 1: Huomautus 2: Nimi: vappuset Aihe: Teki: ANITA Osasto: KLT Luontipvm: 940321 Ilm.pvm: 940322 --> <text> <body> <div type="article"> <head type="title">J–kyläläinen Piiat–yhtye voitti Imatralla </head> <byline> Keskisuomalainen </byline> 67 Tekijätietojen sekavuus ... + + + + + - 8 ANITA = NO_BYLINE #,3994,4173,5637,6520,6827,6897,6912,6954 6 ANITA = Anita Kärki #,4304,4397,4964,5154,5458,7469 5 ANITA = ANITA KÄRKI #,1332,4261,6395,6880,7999 2 ANITA = Anita Kärki = ANITA KÄRKI #,4969,5162 2 ANITA = Anita Kärki = Ari Haapa-aho #,5700,7676 2 ANITA = Anita Kärki = Jorma Pärssinen #,6010,7146 2 ANITA = ANITA KÄRKI = Jorma Pärssinen #,7368,7559 2 ANITA = Keskisuomalainen #,5629,6968 1 ANITA = Anita Kärki = Anita Kärki = Risto Aalto #,7228 1 ANITA = Anita Kärki = Matti Salmi #,7298 1 ANITA = Anita Kärki = Mauri Ratilainen #,8165 1 ANITA = Anita Kärki = Risto Aalto #,5791 1 ANITA = ANITA KÄRKI = Risto Aalto #,6392 1 ANITA = GOA, ANJUNA-BEACH ANITA KÄRKI KUVAT #,6743 68 Annotoinnin lajit • sanaluokka-annotointi – Part-of-speech (POS) taggaus • lemmatisointi – perusmuotoon palautus ja morfologinen analyysi, disambiguoituna tai ilman (XXXTWOL) • syntaktinen parsaus: osittainen (lauseke)analyysi (XXXCG/Lingsoft, XXXLITE/Connexor) – pinta-analyysi – lausekerakenneanalyysi – funktionaalinen dependenssianalyysi (FDG Machinese/Connexor) • semanttinen analyysis (WordNet) • diskurssi/tekstilingvistiset analyysit • foneettinen transkribointi • prosodinen transkribointi • ongelma-kohtainen annotoiminen 69 Sanaluokka-annotointi – Part-ofspeech (POS) taggaus Spoken English Corpus (C7 tagset) Perdita&NN1-NP0; ,&PUN; covering&VVG; the&AT0; bottom&NN1; of&PRF; the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN; suddenly&AV0; heard&VVD-VVN; Alejandro&NN1NP0; shouting&VVG; that&CJT; she&PNP; better&AV0; dig&VVB; out&AVP; a&AT0; pair&NN0; of&PRF; clean&AJ0; breeches&NN2; and&CJC; polish&VVB; her&DPS; boots&NN2; ,&PUN; as*CJS; she&PNP; 'd&VM0; be&VBI; playing&VVG; in&PRP; the&AT0; match&NN1; that&DT0; afternoon&NN1; .&PUN; 70 POS-tagit (C7) AJ0: general adjective AT0: article, neutral for number AV0: general adverb AVP: prepositional adverb CJC: co-ordinating conjunction CJS: subordinating conjunction CJT: that conjunction DPS: possessive determiner DT0: singular determiner NN0: common noun, neutral for number NN1: singular common noun NN2: plural common noun NP0: proper noun POS: genitive marker PNP: pronoun PRF: of PRP: prepostition PUN: punctuation TO0: infintive to VBI: be VM0: modal auxiliary VVB: base form of lexical Verb VVD: past tense form of lexical verb VVG: -ing form of lexical verb VVI: infinitive form of lexical verb VVN: past participle form of 71 lexical verb Lemmatisointi – perusmuotoon palautus ja morfologinen analyysi, (ENGTWOL) "<Perdita>" "<,>" "<covering>" "cover" <N:/> <SVO> <SV> <P/for> <P/with> <PCP1:/ing> <INF:/> PCP1 "<the>" "the" <Def> DET CENTRAL ART SG/PL @DN> "<bottom>” (monitulkintainen eli ambiguöösi sana) "bottom" <Count> N NOM SG "bottom" <Rare> <PCP1:/ing> <INF:/> V PRES -SG3 VFIN @+FMAINV "bottom" <Rare> <PCP1:/ing> <INF:/> V INF "bottom" <Rare> <PCP1:/ing> <INF:/> V IMP VFIN @+FMAINV "bottom" <Rare> <PCP1:/ing> <INF:/> V SUBJUNCTIVE VFIN @+FMAINV "<of>" "of" PREP "<the>" "the" <Def> DET CENTRAL ART SG/PL @DN> 72 "<lorries>" "lorry" <Count> N NOM PL Syntaktinen parsaus: osittainen (lauseke)analyysi (ENLITE) – pintaanalyysi – lausekerakenneanalyysi Perdita perdita , , covering the bottom bottom of the lorries with straw to protect protect the ponies' pony feet , , suddenly heard Alejandro shouting that she better &NH N SG cover &VA ING the &>N DET &NH N SG [disambiguoitu sana] of &N< PREP the &>N DET lorry &NH N PL with straw to &VA V INF the &N< PREP &AH PREP &NH N SG &AUX INFMARK> &>N DET &>N N PL foot suddenly heard alejandro shouting that she well &NH N PL &>A ADV &AH ADV &>N EN &>N N SG &NH N SG &NH ING &VA ING &CS CS &NH <Rel> PRON &NH PRON SG3 &AH ADV CMP &>N A CMP &NH A CMP &VA V PAST 73 Semanttis/funktionaalinen analyysi 0 1 2 3 4 San Cristobalin kaupungin vallanneet Sa Cristobal kaupunki vallata attr:>5 5 intiaanit 6 pohtivat intiaani subj:>6_AGE:>6 &NH N PL NOM SEM_HUMAN_INDIVIDUAL PHR_COMMON pohtia main:>0 &+MV V ACT IND PAST PL3 SEM_THINK 7 sunnuntai - sunnuntai - attr:>9 9 iltana ilta _TMP:>6 &NH N SG ESS &NH N SG GEN &A> N SG GEN attr:>3 &A> N SG GEN obj:>4 &NH N SG GEN &-MV V ACT PCP2 PL NOM &A> N SG NOM SEM_TIME 10 seuraavaa A SG PTV 11 siirtoaan seurata attr:>11 siirto _ &-MV V ACT PCP1 SG PTV &A> PAT:>6 &NH N SG PTV SEM_ACTIVITY 12 kaupungintalon 13 käytävillä . . kaupungin#talo attr:>13 &A> N SG GEN käytävä _LOC:>6 &NH N PL ADE SEM_LOCATION 74 Automaattisten analyysityökalujen käytöstä • analysaattorit perustuvat aina johonkin malliin, joka perustuu johonkin kielitieteelliseen teoriaan teoria vaikuttaa analysaattorin yksittäisiin tuloksiin: • Esim. Conexorin FDG perustuu Tésnieren dependenssikielioppiin 1950-luvulta analysaattori saattaa toimia systemaattisesti oikein omien periaatteidensa mukaan, muttei samalla sopia haluttuun tutkimustarkoitukseen: • Esim. dependenssikieliopissa yhdessä lauseessa voi olla kunkin funktion edustajia ainoastaan yksi, esim. lauseella ei voi olla kahta tempusfunktiota • * Harjoittelen aamulla-TMP ja illalla-? (periaatteessa ko. lause nähdään kahden lauseen yhdistelmänä, jossa funktiot erotettu) Harjoittelen aamulla-TMP + Harjoittelen illalla-TMP 75 Yksi vai useampi temporaalifunktio? (1/2) 0 1 2 3 4 6 7 8 9 10 11 12 14 YK YK subj:>2 &NH N arvioi arvioida main:>0 &+MV V ACT IND PRES SG3 &+MV V ACT IND PAST SG3 syyskuussa syyskuu tmp:>2 &NH N SG INE Bosnia Bosnia attr:>6 &A> N SG NOM Hertsegovinan Hertsegovina attr:>7 &A> N SG GEN ruuan ruoka &NH N SG GEN tarpeeksi tarpeeksi &ADV ADV 32 32 qn:>10 &QN> NUM CARD miljardia miljardi qn:>11 &QN> NUM CARD SG PTV tonnia tonni qua:>2 &NH N SG PTV kuukaudessa kuukausi . . <s> <s> >13 loc:>2 &NH N SG INE 76 Yksi vai useampi temporaalifunktio? (2/2) 0 1 2 3 4 5 6 7 8 9 10 11 12 14 Edellä edellä phr:>2 &ADV ADV mainitun mainita attr:>3 &-MV V PASS PCP2 SG GEN rajan raja obj:>4 &NH N SG GEN alittamisesta alittaa &-MV V ACT INF4 ELA annetaan antaa main:>0 &+MV V PASS IND PRES ensin ensin &ADV ADV neuvontaa neuvonta obj:>5 &NH N SG PTV ja ja &CC CC myöhemmin myöhemmin tmp:>10 &ADV ADV opetetaan opettaa &+MV V PASS IND PRES liikennekulttuuria liikenne#kulttuuri obj:>12 &NH N SG PTV sakottamalla sakottaa man:>10 &-MV V ACT INF3 SG ADE . . <s> <s> >13 77 Automaattiset analyysityökalut... • Analysaattorit tekevät aina välttämättä jonkin verran virheitä tai eivät pysty antamaan yhtä ainoaa oikeaa vastausta (täydellistä disambiguaatiota) On tutkittu, etteivät edes ihmiset (maallikot saati asiantuntijat) pysty aina pääsemään yhteisymmärrykseen oikeasta analyysistä (esim. Churchin tutkimukset) kielessä on siis aina implisiittisesti hiukan monitulkintaisuutta, mitä voidaan pitää automaattisten työkalujen oikeellisuuden teoreettisena ylärajana (97-98%) 78 Preesens vai imperfekti? EU-ministeri pohtivat eu-#ministeri &NH N SG NOM pohtia &+MV V ACT IND PRES PL3 &+MV V ACT IND PAST PL3 Euroopan eurooppa &A> N SG GEN kilpailukykyä kilpailu#kyky &NH N SG PTV EU:n eu &A> N SG GEN teollisuusministerit teollisuus#ministeri &NH N PL NOM etsivät etsivä &NH N PL NOM viikonvaihteessa viikon#vaihde &NH N SG INE Bilbaossa bilbao &NH N SG INE Espanjassa espanja &NH N SG INE keinoja keino &NH N PL PTV lisätä lisätä &-MV V ACT INF1 Euroopan eurooppa &A> N SG GEN kykyä kyky &NH N SG PTV kilpailla kilpailla &-MV V ACT INF1 maailmanlaajuisesti maailman#laajuisesti &ADV ADV . . PUNCT 79 Preesens vai imperfekti? ... ... Kilpailukyky kilpailu#kyky &NH N SG NOM todettiin todeta &+MV V PASS IND PAST olennaiseksi olennainen &A> A SG TRA tekijäksi tekijä &NH N SG TRA pyrittäessä pyrkiä &-MV V PASS INF2 INE Eli siis tarvittiin melkoisesti lausekontekstia, että voitiin manuaalisti päätellä imperfekti oikeaksi analyysiksi – muita vinkkejä: ajan ilmaukset – joskus tarvitsisi tietää artikkelin esiintymisajankohdan ajallisen tapahtumaympäristön miten käsitelty tapahtuma sijoittuu artikkelin julkaisuajankohtaan? 80 Automaattiset analyysityökalut ... • analysaattoreita kehitetään ja testataan (erit. kaupalliset) tyypillisisti suurilla yleiskielisillä aineistoilla, jolloin ne luonnollisesti toimivat parhaiten ko. tekstityyppien analyysissä • analysaattorit eivät ole koskaan täysin valmiita, erityisesti leksikko ei ole koskaan täysin kattava Jotkut työkalut käyttävät heuristiikkoja (esim. sanojen päätteitä) tuntemattomien sanojen joidenkin piirteiden arvaukseen, mikä voi olla virheiden lähde kehityksen alkuvaiheessa kuvaukset saattavat olla kielen jonkin osa-alueen kohdalla epätäydellisiä, jolloin työkalu tekee kyseisen lingvistisen ilmiön kohdalla 81 systemaattisesti aina saman virheen Tuuma vai tuumia? 0 1 2 3 4 5 6 7 8 9 Tänä tämä attr:>2 &A> PRON SG ESS vuonna vuosi tmp:>6 &NH N SG ESS valtio valtio cc:>5 &NH N SG NOM ja ja cc:>5 &CC CC kaupunki kaupunki subj:>6 &NH N SG NOM leikkasivat leikata main:>0 &+MV V ACT IND PAST PL3 orkesterin orkesteri attr:>8 &A> N SG GEN budjettia budjetti obj:>6 &NH N SG PTV yksissä yksi &NH NUM CARD PL INE &NH PRON PL INE 10 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1 82 . . Tuuma vai tuumia? 0 1 2 3 4 5 6 7 Kaikki kaikki &NH PRON NOM &A> PRON NOM kolme kolme &NH NUM CARD SG NOM ovat olla main:>0 &+MV V ACT IND PRES PL3 esitutkinnassa esi#tutkinta loc:>5 &NH N SG INE kiistäneet kiistää comp:>3 &-MV V ACT PCP2 PL toimineensa toimia obj:>5 &-MV V ACT PCP2 yksissä yksi &NH NUM CARD PL INE &NH PRON PL INE 8 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1 . . 10 <s> <s> >9 83 Automaattiset analyysityökalut • analyysin teoreettisen oikeellisuuden ja yksiselitteisyyden aste riippuu tavoiteltavan tehtävän monimutkaisuudesta • morfologinen analyysi morfologinen disambiguointi osittaisanalyysi syntaktinen analyysi semanttinen analyysi • analysaattorin hyödyntämisessä on valittava joko tulosten manuaalinen läpikäynti tai virheellisyyksien hyväksyminen analyysin laadun tarkastelu tutkittavan ilmiön kohdalla tilastollisen otoksen perusteella 84 Tilastoa automaattisen analyysin oikeellisuudesta/ yksitulkintaisuudesta (517624 sanaa/141202 sanamuotoa) • 1-selitteisiä morfologisia analyysejä: 128882 (91% sanamuodoista) • 2-selitteisiä: 9494 • 3-selitteisiä: 1667 • 4-selitteisiä: 711 • 5-selitteisiä: 333 • • • • • 6-selitteisiä: 91 7-selitteisiä: 13 8-selitteisiä: 4 9-selitteisiä: 1 10-selitteisiä: 1 • 384089 syntaktisesti analysoitua (74% sanoista) 85 Morfosyntaktisesti monitulkintaisimman sanan sisältävä lause (”toinen” 10 tulkintaa) Helsingissä Helsinki loc:>2 &NH N SG INE tapahtuva tapahtua attr:>3 &-MV V ACT PCP1 SG NOM perushenkirikos perus#henki#rikos subj:>4 &NH N SG NOM on olla main:>0 &+MV V ACT IND PRES SG3 edelleenkin edelleen goa:>4 &ADV ADV -KIN poliisin poliisi attr:>7 &A> N SG GEN suussa suu loc:>4 &NH N SG INE lauantaitappona lauantai#tappo copr:>4 &NH N SG ESS kulkeva kulkea attr:>10 &-MV V ACT PCP1 SG NOM &A> A SG NOM surma surma &NH N SG NOM . . PUNCT tekijä tekijä cc:>14 &NH N SG NOM ja ja cc:>14 &CC CC uhri uhri subj:>15 &NH N SG NOM 86 ”Toinen” ... ... tuntevat tuntea main:>11 &+MV V ACT IND PRES PL3 toisensa toinen &NH NUM ORD SG NOM &A> NUM ORD SG NOM &NH NUM ORD SG GEN &NH NUM ORD PL NOM &A> NUM ORD PL NOM &NH PRON SG NOM &A> PRON SG NOM &NH PRON SG GEN &NH PRON PL NOM &A> PRON PL NOM tai tai cc:>15 &CC CC ovat olla cc:>15 &+MV V ACT IND PRES PL3 sukua suku &NH N SG PTV keskenään keskenänsä &ADV ADV viina viina subj:>23 &NH N SG NOM on olla &+MV V ACT IND PRES SG3 mukana mukana phr:>23 &ADV ADV kuvassa kuva loc:>23 &NH N SG INE ja ja cc:>23 &CC CC teko teko subj:>28 &NH N SG NOM tapahtuu tapahtua cc:>23 &+MV V ACT IND PRES SG3 pikaistuksissa pikaistus loc:>28 &NH N PL INE 87 Monitulkintaisimmat sanat: 2-5 a=9 n=1 hallituksensa hallitus &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOM &NH A SG TRA &A> A SG TRA &-MV V PASS PCP2 SG TRA a=8 n=1 asuvasi asua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN&A> A SG GEN &NH A PL NOM &A> A PL NOM a=8 n=1 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &-MV V PASS PCP2 PL NOM &NH A SG NOM &A> A SG NOM a=8 n=1 kuuluvansa kuulua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOM 88 Monitulkintaisimmat sanat: 6-10 a=8 n=1 tekevänsä tehdä &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOM a=7 n=11 tullut tultu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOM a=7 n=6 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOM a=7 n=3 sinänsä sinänsä &ADV ADV &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOM a=7 n=2 parinkymmenen pari#kymmentä &NH NUM CARD SG GEN &A> NUM CARD SG GEN &QN> NUM CARD SG GEN&NH NUM CARD SG NOM &QN> NUM CARD SG NOM &NH N SG GEN &A> N SG GEN 89 Monitulkintaisimmat perusmuodot (2- tai useampitulkintaisten taivutusmuotojen lukumäärä) 69 65 63 48 43 43 39 38 36 35 33 31 31 toinen olla yksi tulla seurata nuori se hyvä vastata toimia saada tehdä suuri 30 28 28 27 27 25 23 22 21 21 90 90 89 aika tämä kaikki muu alkaa elää joka itse vanha nähdä voida elää ottaa 90 Yleisimmät monitulkintaiset morfologiset analyysit 2220 381 325 307 289 276 219 217 194 178 172 158 156 155 151 147 133 &NH N SG GEN &A> N SG GEN &NH A SG NOM &A> A SG NOM &NH N PL GEN &A> N PL GEN &NH A SG GEN &A> A SG GEN &NH NUM CARD &A> NUM CARD &QN> NUM CARD &-MV V ACT INF1 &+MV V ACT IND PRES SG3 &NH A PL GEN &A> A PL GEN &NH A SG PTV &A> A SG PTV &NH A PL PTV &A> A PL PTV &-MV V ACT PCP1 SG NOM &A> A SG NOM &-MV V ACT PCP1 PL NOM &+MV V ACT IND PRES PL3 &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &NH A SG ESS &A> A SG ESS &NH N SG NOM &NH N PL NOM &-MV V ACT INF1 &-MV V PASS IND PRES 91 Mitä tästä opimme? • Valmiisiin annotointeihin ei saa luottaa sokeasti, vaan on pistokokein varmistettava tehdyn annotoinnin perusteellisuus ja systemaattisuus • Mitään ei kannata hävittää aineistoa esi- ja jälkikäsiteltäessä, siis poistetun tiedon palauttaminen jälkikäteen voi olla vähintäänkin työlästä • Automaattisiin analyysityökaluihin ei saa luottaa sokeasti, vaan on selvitettävä itselleen ne periaatteet minkä mukaan työkalu toimii ja pistokokein tarkistettava analyysin oikeellisuus ja luotettavuus 92 Kurssin harjoitustyö • kansainvälisessä, referoiduissa akateemisissä julkaisuissa julkaistun korpustutkimukseen perustuvan tieteellisen artikkelin kriittinen arvio kurssilla esitettyjen näkökulmien mukaan • pienimuotoisen korpuspohjaisen tutkimuksen tekeminen kurssilla esitettyjen periaatteiden mukaan • mahdollisten vaihtoehtojen pohdiskelu ja tehtyjen valintojen perustelu tai kriittinen arviointi • palautus ma 5.5.2003 93 Ctl310corp Korpukset ja kieli Antti Arppe Luento 2.4. Korpusten tilastollinen käsittely Korpuksen ”riittävä” koko Mitä korpuksista voidaan laskea? ”Parhaan” tunnusluvun metsästys 94 Otannan eli tutkimuskorpuksen suuruuden rajaamisen periaatteita • otoksen on oltava riittävän suuri, jotta tulokset ovat (tilastollisesti) luotettavia • otoksen ei kannata olla liian suuri, jottei tule tehneeksi turhaa työtä, esim. automaattisen analyysin tarkistamisessa ja korjaamisessa tai omien lisäluokittelujen tekemisessä • otoksen kokoon vaikuttavat tutkittavan ilmiön kategorioiden (sanaluokat, yksittäiset lekseemit, yksittäiset taivutusmuodot, morfeemit, tms.) määrä ja kunkin kategorian esiintymisfrekvenssit 95 Rajaamisen periaatteita • otos on riittävän suuri, saavutetaan jäätymis/saturaatiopiste uusien tapauksien määrä ei enää oleellisesti lisäänny otosta kasvettaessa • otos on riittävän suuri, kun tutkittavien ilmiöiden keskinäiset suhteet eivät enää merkittävästi muutu otoksen kasvun myötä kasvavilla lukumäärillä ei ole enää (tilastollisesti) merkittävää vaikutusta käytettäviin tilastollisiin tunnuslukuihin • yleisten ilmiöiden kohdalla saturaatiopiste saavutetaan pienemmällä korpuksella kuin harvinaisempien ilmiöiden kohdalla harvinaisempien ilmiöiden tarkastelua varten ei kenties koskaan ole kasattavissa 96 riittävän suurta korpusta Otoksen kasvun vaikutuksia käytännössä • pintamuotojen määrän kehitys suomenkielisessä sanomalehtitekstissä • perusmuotojen määrän kehitys • verbien taivutusmuotojen määrän kehitys • ajatella-verbien taivutusmuotojen määrän kehitys • pohtia/miettiä-verbien taivutusmuotojen määrän kehitys 97 10 00 60 00 0 11 000 00 16 000 00 21 000 00 26 000 00 31 000 00 36 000 00 41 000 00 46 000 00 51 000 00 56 000 00 61 000 00 66 000 00 71 000 00 76 000 00 81 000 00 86 000 00 91 000 00 96 000 00 00 1E 0 + 1, 07 1E + 1, 07 1E + 1, 07 2E + 1, 07 2E + 1, 07 3E + 1, 07 3E + 1, 07 4E + 1, 07 4E + 1, 07 5E + 1, 07 5E + 1, 07 6E +0 7 Forms Pinta- ja perusmuotojen määrän kehitys Growth of surface and base forms 1000000 900000 800000 700000 600000 500000 Surface forms Base forms 400000 300000 200000 100000 0 Corpus size 98 10 00 60 00 0 11 000 00 16 000 00 21 000 00 26 000 00 31 000 00 36 000 00 41 000 00 46 000 00 51 000 00 56 000 00 61 000 00 66 000 00 71 000 00 76 000 00 81 000 00 86 000 00 91 000 00 96 000 0 10 000 10 0 10 000 60 0 11 000 10 0 11 000 60 0 12 000 10 0 12 000 60 0 00 00 Forms Verbimuotojen määrän kehitys Verb form growth 700 600 500 400 Verb forms Thinking-verb forms 300 Pohtia/Miettiä forms 200 100 0 Corpus size 99 Otoksen määrän vaikutus tilastolliseen tulkintaan • otoksen koon kasvaessa havaittavien lingvististen ilmiöiden määrä ja niiden frekvenssi kasvaa Frekvenssien kasvaessa ilmiöiden tilastollisen merkitsevyyden mahdollisuus kasvaa Mutta tilastollinen merkitsevyys voidaan saavuttaa pienemmillä suhde-eroilla (22/23 vs. 932/1562 ovat tilastollisesti yhtä merkittäviä) Mahdollisesti/todennäköisesti samat pienemmässä korpuksessa tilastollisesti merkitseviksi havaittavat ilmiöt ovat sitä myös suuremmissa korpuksissa frekvenssit mihin ne perustuvat ovat vain suuremmat • pienemmässä otoksessa mahdollisuus tarkempaan analyysiin ja perusteellisempaan virheiden tarkistamiseen • Oman tutkimuksen kaksi korpusta: 855 vs. 4545 tapausta tarkistettavien analyysien edellyttämän työmäärän 100 kasvu Oma tutkimus: pienempi korpus (2 Mw) # t-score 1 2.6544151 n tag(verb ) / n tag(total) 77/112 2 3 4 5 6 7 8 2.3389739 2.3003402 2.2804408 2.2720630 2.2526106 2.1700721 2.1004193 22/23 199/320 21/22 198/319 32/37 201/355 145/230 9 10 11 2.0711558 2.0627680 2.0157633 21/24 30/39 15/15 V erb C om b in ation of tags/featu res m iettiä m iettiä pohtia m iettiä pohtia pohtia m iettiä pohtia m iettiä m iettiä m iettiä IN F 1 ~ m iettiä ‘to ponder’ & -M V :V :A C T :IN F 1 ~ m iettiä ‘to ponder’ IN D :S G 1 SG3 SG1 IN D :S G 3 M E T A -D E _foreign & -M V P R E S :S G 3 & + M V :V :A C T :IN D :P R E S :S G 3 ~ poh tii ‘he ponders’ M E T A -B Y _aaa & -M V :M E T A -D E _sport & + M V :P A S T :S G 1 & + M V :V :A C T :IN D :P A S T :S G 1 ~ m ietin ‘I pondered’ 101 Pienempi korpus... 12 13 14 15 16 17 18 19 20 21 22 23 24 2.0103638 2.0025643 1.9871152 1.9619883 1.9544431 1.9242580 1.9121518 1.8786721 1.8690776 1.8192520 1.8090504 1.8074797 1.7435752 203/335 204/337 206/341 16/17 286/486 24/28 288/491 116/184 18/21 14/15 290/498 26/35 13/14 pohtia pohtia pohtia 25 26 27 28 29 30 31 32 1.6216452 1.6128154 1.5904283 1.5884516 1.5816121 1.5626323 1.5614035 1.5614035 165/277 61/93 11/11 15/17 11/12 20/25 9/9 9/9 pohtia pohtia pohtia pohtia m iettiä pohtia pohtia pohtia pohtia m iettiä m iettiä pohtia m iettiä m iettiä m iettiä pohtia m iettiä m iettiä & + M V :P R E S IN D :P R E S PRES S G 1:M E T A -B Y _unspec & + M V :IN D A C T :M E T A -D E _foreign IN D S G 3:M E T A -B Y _unspec A C T :M E T A -B Y _aaa P R E S :M E T A -B Y _aaa & +M V & -M V :A C T :M E T A -D E _sport & + M V :P R E S :M E T A -B Y _aaa & + M V :V :A C T :IN D :P R E S :S G 3:M E T A :B Y _aaa ~ m iettii ‘he ponders’ & + M V :A C T :P R E S & + M V :P A S S :IN D IN D :M E T A -B Y _bbb P R E S :M E T A -D E _foreign A C T :S G :M E T A -D E _sport M E T A -B Y _bbb M E T A -B Y _ccc M E T A -B Y _ddd 102 Oma tutkimus: suurempi korpus # t-score 3 7 9 10 11 4.65436111 4.30643067 3.42270008 3.39827308 3.38888039 n ta g (v erb ) / n ta g (tota l) 341/481 1474/2468 173/242 932/1562 111/142 V erb C om b in ation of tags/featu res 12 13 14 15 3.37272932 3.35194627 3.29908324 3.23807959 924/1551 178/252 224/330 220/326 pohtia pohtia pohtia pohtia 16 18 2.87031644 2.53231288 289/453 122/178 pohtia pohtia 20 2 .3 8 9 4 1 0 8 2 51/64 pohtia 21 23 2.24091027 2.13260209 51/66 635/1097 pohtia pohtia pohtia pohtia pohtia pohtia pohtia P A S S :IN D &+M V IN D :P L 3 SG 3 P A S S :P A S T & + M V :V :P A S S :IN D :P A S T pohdittiin ‘X w as pondered’ IN D :S G 3 PL3 P A S S :P R E S & + M V :P A S S : P R E S & + M V :V :P A S S :IN D :P R E S pohditaan ‘X is pondere d ’ P A S T :S G 3 P R E S :P L 3 & + M V :V :A C T :IN D :P R E S :P L 3 pohtivat ‘they ponder’ P A S T :P L 3 & + M V :V :A C T :IN D :P A S T :P L 3 pohtivat ‘they pondered’ A C T :P C P 1:S G P R E S :S G 3 & + M V :V :A C T :IN D :P R E S :S G 3 pohtii ‘he ponders’ 103 Suurempi korpus (16 Mw) ... # t-score 1 V erb C om b in ation of tags/featu res 5.02810160 n tag(verb ) / n tag(total) 417/670 m iettiä 2 4 8 4.90857618 4.60405240 3.66672617 1141/2076 88/96 53/56 m iettiä m iettiä m iettiä 17 2.79006234 36/41 m iettiä 19 22 24 2.39208299 2.23804303 2.05325910 330/610 71/111 23/28 m iettiä m iettiä m iettiä IN F 1 & -M V :V :A C T :IN F 1 m iettiä ‘to ponder’ & -M V SG 1 P A S T :S G 1 & + M V :V :A C T :IN D :P A S T :S G 1 m ietin ‘I pondered’ P R E S :S G 1 & + M V :V :A C T :IN D :P R E S :S G 1 m ietin ‘I ponder’ IN F 3 P A S S :P C P 1 IM P 104 Yhteneväiset ilmiöt molemmissa korpuksissa • miettiä – I infinitiivi (77/112) vs. (417/670) – yks. 1. persoona (22/23) vs. (88/96) – yks. 1. persoona JA imperfekti vs. (15/15) (53/56) • pohtia – yks. 3. persoona (199/320) vs. (932/1562) – preesens JA yks. 3. persoona Korpuksen määrän kasvattaminen ei näiden ilmiöiden kohdalla vaikuttanut keskinäisiin suhteisiin ja tilastolliseen merkitsevyyteen 105 Yksityiskohtaisemmat ilmiöt pienemmässä korpuksessa • miettiä • pohtia – I infinitiivi (77/112) – yks. 1. persoona (22/23) – yks. 3. persoona (199/320) – toimittajat aaa, bbb ja ccc – urheiluosasto – preesens JA yks. 3. persoona – preesens – yks. 1. persoona JA imperfekti – ulkomaanosasto – toimittaja bbb Nämä tiedot olivat saatavissa perusteellisemman analyysin johdosta 106 Havaitut uudet ilmiöt laajemmassa korpuksessa • miettiä – I infinitiivi (417/670) – yks. 1. persoona (88/96) – yks. 1. persoona JA imperfekti (53/56) – III infinitiivi – passiivi ja 1. partisiippi – imperatiivi (23/28 ) • pohtia – passiivi JA indikatiivi (341/481) – mon. 3. persoona JA indikatiivi (1474/2468) – yks. 3. persoona (932/1562) – passiivi JA imperfekti (111/142) – yks. 3. persoona JA indikatiivi (924/1551) – mon. 3. persoona (178/252) Nämä ilmiöt nousivat tilastollisesti merkittävinä esille korpuksen 107 kasvattamisen johdosta Suhteiden ja merkitsevyyden vertailua kahden erikokoisen korpuksen välillä t-score (S) t-score (L) ntag(verb)/ ntag(verb)/ Proportions (S) Proportions (L) Ratio L/S Verb Combination of tags/features 2,6544 ntag(total) (S) 5,0281 77/112 ntag(total) (L) 417/670 0,688 0,622 0,905 miettiä INF1 ~ miettiä 2,3003 3,3983 199/320 932/1562 0,622 0,597 0,959 pohtia SG3 2,2804 4,6041 21/22 88/96 0,955 0,917 0,960 miettiä SG1 2,2721 3,3727 198/319 924/1551 0,621 0,596 0,960 pohtia IND:SG3 2,1004 2,1326 145/230 635/1097 0,630 0,579 0,918 pohtia 2,0158 3,6667 15/15 53/56 1,000 0,946 0,946 miettiä PRES:SG3 ~ &+MV:V:ACT:IND:PRES:SG3 ~ pohtii &+MV:PAST:SG1 ~ &+MV:V:ACT:IND:PAST:SG1 ~ mietin 108 Mitä siis korpuksista voidaan laskea? • frekvenssejä eli lukumääriä suuruusjärjestys – yksittäinen ilmiö • yksittäisen verbin taivutusmuotojen frekvenssit • verbijoukon esiintymien frekvenssit yleisyysjärjestyksessä (perusmuodon mukaan) – yhteisesiintymiset eli kollokaatiot (sanaparit tai sanapiirreparit) • suhteita osuus koko korpuksesta tai eri osakorpuksista • suhteiden suhteita vertailu eri frekvenssien välillä 109 Esimerkkejä frekvensseistä – pohtia-verbin muodot (∑ =2435) 26.1% 11.8% 10.5% 10.3% 8.9% 6.4% 635 288 255 250 216 155 pohtii pohti pohtimaan pohtia pohditaan pohtivat 4.6% 2.9% 2.7% 1.1% 1.1% 0.7% 0.7% 0.7% 111 71 66 27 26 18 18 16 pohdittiin pohdittu pohtinut pohdittava pohtineet pohtiessaan pohtiva pohtimassa &+MV V ACT IND PRES SG3 &+MV V ACT IND PAST SG3 &-MV V ACT INF3 SG ILL &-MV V ACT INF1 &+MV V PASS IND PRES &+MV V ACT IND PRES PL3 ... &+MV V ACT IND PAST PL3 &+MV V PASS IND PAST &-MV V PASS PCP2 &-MV V ACT PCP2 SG &-MV V PASS PCP1 &-MV V ACT PCP2 PL &-MV V ACT INF2 INE &-MV V ACT PCP1 SG NOM &-MV V ACT INF3 SG INE 110 Esimerkkejä frekvensseistä – miettiä-verbin muodot (∑ =2110) 21.5% 19.3% 13.3% 7.6% 4.7% 3.1% 2.9% 2.6% 461 413 284 162 100 67 63 56 miettii miettiä miettimään mietti mietitään miettinyt mietittävä miettivät 3.7% 79 mietin 2.2% 1.3% 47 28 mietitty mietittiin &+MV V ACT IND PRES SG3 &-MV V ACT INF1 &-MV V ACT INF3 SG ILL &+MV V ACT IND PAST SG3 &+MV V PASS IND PRES &-MV V ACT PCP2 SG &-MV V PASS PCP1 &+MV V ACT IND PRES PL3 / &+MV V ACT IND PAST PL3 &+MV V ACT IND PRES SG1 / &+MV V ACT IND PAST SG1 &-MV V PASS PCP2 &+MV V PASS IND PAST 111 Esimerkkejä suhteista – pohtia vs. miettiä r1/r2 11,7865 3,538462 2,461538 1,893617 1,552632 1,318182 1,213953 1,000067 0,870968 0,789526 0,789474 0,533679 0,37931 0,088795 0,075005 r1 1,1 % 4,6 % 6,4 % 8,9 % 11,8 % 2,9 % 26,1 % 0,7 % 2,7 % 0,7 % 10,5 % 10,3 % 1,1 % 0,3 % 0,7 % n1 26 111 155 216 288 71 635 16 66 18 255 250 27 8 18 pohtia pohtineet pohdittiin pohtivat pohditaan pohti pohdittu pohtii pohtimassa pohtinut pohtiessaan pohtimaan pohtia pohdittava pohdin pohtiva r2 0,1 % 1,3 % 2,6 % 4,7 % 7,6 % 2,2 % 21,5 % 0,7 % 3,1 % 0,9 % 13,3 % 19,3 % 2,9 % 3,7 % 9,3 % n2 2 28 56 100 162 47 461 15 67 19 284 413 63 79 2 miettiä miettineet mietittiin miettivät mietitään mietti mietitty miettii miettimässä miettinyt miettiessään miettimään miettiä mietittävä mietin 112 miettivä Esimerkkejä suhteista – pohtia vs. miettiä lehden eri osastoissa Total words 232 10600 282861 4505 261196 118047 827975 273356 34682 246882 128045 7560 6197 Section META-DE_koti META-DE_taite META-DE_ulk META-DE_liite META-DE_klt META-DE_art META-DE_kot META-DE_tal META-DE_syke META-DE_urh META-DE_viv META-DE_ruoka META-DE_matka pohtia w/100000 miettiä w/100000 w1/w2 0 0,0 0 0,0 - 2 18,9 0 0,0 - 32 11,3 5 1,8 6,400 4 88,8 1 22,2 4,000 61 23,4 45 17,2 1,356 22 18,6 19 16,1 1,158 181 21,9 164 19,8 1,104 37 13,5 36 13,2 1,028 15 43,3 15 43,3 1,000 60 24,3 76 30,8 0,789 30 23,4 44 34,4 0,682 1 13,2 2 26,5 0,500 0 0,0 2 32,3 0,000 113 Mitä muuta korpuksista voidaan päätellä? • havaintojen tilastollisia merkitsevyyksiä – ovatko otoksessa havaitut erot frekvensseissä tai suhteellisissa osuuksissa tilastollisesti merkitseviä, esim. edellä esitetyissä tapauksissa onko havaittu ero tietyn todennäköisyyden (p > 95 tai 99% ~ p <.05 tai p <.01) puitteissa suurempi kuin voisi tapahtua sattumalta otosta koostettaessa – huomattava kuitenkin, että valitun todennäköisyysrajan (p) perusteella aina jää jäljelle mahdollisuus (1-p), että havaittu ero eli tehty otos olisi vain sattuma: p > 95% joka 20. otos; p > 99% joka 100. otos ... 114 Tilastollisia merkitsevyysmittareita • • • • • Pearsonin khi-toiseen –testi (X2) Log-likelihood (G2) t-testi yhteisinformaatio (mutual information MI) Fisherin eksakti testi 115 Merkitsevyyttä laskettaessa huomioitava • useimmat mittarit (X2, G2 ja t-testi) edellyttävät, että – otoksen koko on riittävän ”suuri” – tarkasteltavien tapauksien määrä (kontingenssitaulukossa) on rajattu ja pieni suhteessa otoksen kokoon – kunkin tarkasteltavan tapauksen odotusarvo on suuri (> 5 havaintoa) • ym. rajoitukset eivät koske Fisherin eksaktia testiä – antaa suoraan todennäköisyyden (0<P<1) taulukkoja ei tarvita – sopii hyvin pienille frekvensseille (<20), mutta on erittäin raskas laskea suurille frekvenseille (>50) – erottelee heikosti tapauksia (= antaa saman 116 todennäköisyysarvon suurelle joukolle tapauksia) ”Parhaan” tunnusluvun metsästys • pohtia vs. miettiä –verbien kontekstit – verbien omat morfologiset piirteet – verbien funktionaalinen konteksti: lekseemi ja sen morfologiset piirteet, funktio sekä semanttinen luokitus • järjestetty tilastollisesti – t-testin mukaan (~X2) [p < .05 t > 1.65] – Fisherin eksaktin testin mukaan [0 < p < 1] 117 t-testin t-testi 2.59852502 2.35841193 2.32791480 2.21477571 2.14893707 2.03318057 1.91261966 1.84248980 1.81909591 1.81604628 1.81226016 1.80651837 1.79466179 1.78487176 1.77368553 1.67858224 1.61199945 1.59784463 1.58766680 1.58766680 1.58593329 1.53946342 Fisher 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 0.99844589 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 2 (~X ) n(V)/Σ(V) 427/892 427/892 465/892 427/892 465/892 465/892 465/892 465/892 427/892 465/892 465/892 465/892 427/892 465/892 465/892 465/892 427/892 465/892 465/892 465/892 465/892 465/892 mukainen järjestys Verb miettiä miettiä pohtia miettiä pohtia pohtia pohtia pohtia miettiä pohtia pohtia pohtia miettiä pohtia pohtia pohtia miettiä pohtia pohtia pohtia pohtia pohtia n(F|V)/Σ(F) 78/115 24/26 400/678 205/362 206/336 103/158 305/521 218/366 99/169 116/185 307/528 430/753 85/143 301/518 337/584 375/657 80/137 38/54 11/11 11/11 48/71 18/22 Feature 0_INF1 0_SG1 <_N 0_&-MV 0_SG3 <_SEM_HUMAN_GROUP 0_IND 0_PRES <_V 0_POST-QUOTE 0_&+MV <_&NH <_ACT <_NOM <_SG <_FUNC_AGE <_&+MV <_SEM_ACTIVITY 0_GEN <_LEX_hallitus=N <_INE <_SEM_COGNITION 118 Fisherin eksaktin testin mukainen järjestys t-testi 1.67858224 1.80651837 1.77368553 1.78487176 1.81226016 1.91261966 2.32791480 1.84248980 2.14893707 2.21477571 1.81604628 1.81909591 1.79466179 2.03318057 1.58593329 1.59784463 2.59852502 1.26317265 0.96672278 0.98535171 0.88606355 1.53946342 1.01736850 0.95974962 1.06948692 Fisher 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 1.00000000 n(V)/Σ(V) 465/892 465/892 465/892 465/892 465/892 465/892 465/892 465/892 465/892 427/892 465/892 427/892 427/892 465/892 465/892 465/892 427/892 465/892 427/892 465/892 427/892 465/892 427/892 465/892 465/892 Verb pohtia pohtia pohtia pohtia pohtia pohtia pohtia pohtia pohtia miettiä pohtia miettiä miettiä pohtia pohtia pohtia miettiä pohtia miettiä pohtia miettiä pohtia miettiä pohtia pohtia n(F|V)/Σ(F) 375/657 430/753 337/584 301/518 307/528 305/521 400/678 218/366 206/336 205/362 116/185 99/169 85/143 103/158 48/71 38/54 78/115 16/21 8/11 8/10 6/8 18/22 7/9 6/7 7/8 Feature <_FUNC_AGE <_&NH <_SG <_NOM 0_&+MV 0_IND <_N 0_PRES 0_SG3 0_&-MV 0_POST-QUOTE <_V <_ACT <_SEM_HUMAN_GROUP <_INE <_SEM_ACTIVITY 0_INF1 <_LEX_työ#ryhmä=N <_NEG 0_3 <_SG1 <_SEM_COGNITION <_PL1 <_ESS <_LEX_kokous=N 119 Merkitsevyysmittarit ja lingvistin kieli-intuitio • 9 vs. 1 tuntuisi lingvistisesti mielekkäältä suhteelta, muttei ole tilastollisesti merkitsevä tilastotieteen näkökulmasta tarvittaisiin suurempi aineisto, jossa suhdeluku toivottavasti säilyy • 400 vs. 600 (2/5 vs. 3/5) ei tunnu lingvistisesti mielekkäältä suhde-erolta, mutta on kuitenkin tilastollisesti merkitsevä suurissa aineistossa yleisimpien ilmiöiden määrät ovat niin suuria, että niiden pienetkin suhde-erot ovat tilastollisesti merkitseviä lingvistisestä näkökulmasta nousee esille kysymys, josko suhde-ero jonkun ylimääräisen jaottelumuuttujan avulla kasvaisi mielekkäämmäksi 120 Merkitsevyysmittarit ja lingvistin kieli-intuitio ... • omassa tutkimuksessani: SG3-jakauma t-testi Fisher verbi np,v/nf,total 2.148 -2.705 1.000000 0.000013 pohtia 206/336 miettiä 130/336 piirre 0_SG3 0_SG3 • SG3-suhde on merkitsevä, mutta suhdeluku on 2/3 • olisiko joku toinen tekijä, jonka suhteen SG3verbit jakautuisivat selkeämmin kahteen ryhmään? – agentin laskettavuus: yksilö vs. kollektiivi? 121 Merkitsevyysmittarit ja lingvistin kieli-intuitio ... • Agentti-jakauma: t-testi 1.908 1.844 Fisher Verbi 1.0000 pohtia 1.0000 pohtia np,v/np,total 34/44 155/254 Agentti GROUP INDIVIDUAL • kollektiiviagenttien suhteen suhde-ero kasvaa (1/4 vs. 3/4) ja on edelleen tilastollisesti merkitsevä • yksilöagenttien suhteen suhde-ero itse asiassa pienenee (4/10 vs. 6/10), mutta on edelleen tilastollisesti merkitsevä! 122 Mistä tilastolliset merkitsevyysmittarit oikeastaan kertovat? • jos havaittu ilmiö on tilastollisesti merkitsevä, se on ainakin (korkeintaan?) merkitsevä otoksessa • havainnon merkitsevyyden yleistettävyys? – perustuu puhtaasti siihen, kuinka hyvin otos edustaa tarkasteltavaa populaatiota eli kuinka selvästi populaatio on määritelty ja kuinka satunnaisesti otos on tehty ko. populaatiosta – kielen kohdalla: kuinka hyvin otos edustaa tutkittavaa kielen osa-aluetta mikä on se kielen osa-alue, mistä otos on tehty selkeästi määritelty vai käytetty kaikki mikä on saatu käsiin 123 Yleistettävyys ... • Mistä esimerkiksi käyttämäni Keskisuomalaisen 4 kuukauden otos kertoo? – ainakin Keskisuomalaisen toimittajien sanomalehtiartikkelien kirjoitustyylistä ko. aikana – mikäli kyseessä olisi satunnaisesti valittu otos laajemmasta aikavälistä Keskisuomalaista, voisi otos kenties kertoa Keskisuomalaisen toimittajien kirjoitustyylistä ylipäänsä – mikäli kyseessä olisi satunnaisesti valittu otos suomalaisista sanomalehdistä jollakin aikavälillä, otos voisi kenties kertoa sanomalehtitekstin tyylistä ylipäänsä (ko. aikavälillä) 124 Yleistettävyys ... • miten paljon sanomalehtitekstissä tehdyt havainnot kertovat: – faktakirjallisuudesta? – kirjoitetusta kielestä? – kielen (suomen) käytöstä ylipäänsä? • sanomalehtiteksti on luonteeltaan varsin heterogeenistä, mutta voiko se mitenkään olla otos muusta kuin omasta genrestään? – havainnot on vähintäänkin trianguloitava muissa tekstityypeissä kuten kaunokirjallisuudessa – miten eri maantieteellisten tai murrealueiden sanomalehtien tyylit eroavat toisistaan? • merkitsevyysmittarit mimimissään rankkaavat eli laittavat havainnot johonkin mielekkääseen järjestykseen, mutta päätelmät tulosten lingvistisestä mielekkyydestä on lingvistin tehtävä itse 125 Yleistettävyys ... • negatiivinen evidenssi – korpukset kertovat vain niistä ilmiöistä, mitä niissä havaitaan – jos korpuksessa ei esiinny jotain ilmiötä, se ei ole todiste siitä ettei ko. ilmiö voisi esiintyä kielessä ylipäänsä korpukset antavat tietoa parhaiten suhteellisen yleisistä kielen ilmiöistä kokeelliset (psykolingvistiset) testit tehokkaampia harvinaisimpien yksittäisilmiöiden tarkastelussa 126 Ctl310corp Korpukset ja kieli Antti Arppe Luento 23.4. Korpusten tulkinta ”Korpukset ja kieli” – entäs sitten? 127 Korpusten tulkinta • mikä tuloksissa on lingvistisesti merkittävää ja mielekästä? – tilastollinen rankkaus ja rajaus merkitsevyyden perusteella – lingvistinen näkemys mielekkyydestä • miten tulokset vastaavat hypoteeseja • miten vaikutusta tuloksissa on laajemmin (kieli)tieteeseen teoreettinen viitekehys 128 Korpusten tulkinta ... • oma synonymiatutkimukseni – erilaisia synonyymiparin käyttöön vaikuttavia piirteitä ja piirrekombinaatioita ja näiden tilastollisia tunnuslukuja syntyi pitkälti yli kaksi miljoonaa kappaletta – näistä piirteistä ja kombinaatioista vain vajaat 2000 (1899) olivat tilastollisesti merkitseviä ( tilastollinen rajaus) – näistä tilastollisesti merkitsevistä tekijöistä vain muutama kymmenen oli lingvistisesti mielekkäitä ja mielenkiintoisia ( lingvistin näkemyksellinen rajaus) – tutkimuksen tarkentamisessa auttoi oleellisesti aineiston perusteellinen läpikäynti analyysien tarkistamisien ja täydentämisen aikana intuitiivinen käsitys aineistosta ja siinä vaikuttavista tekijöistä 129 Tulkinta ... 2.7715853 2.7715853 2.7715853 2.7715853 2.6441111 ... 2.3026922 2.3026922 2.3026922 2.3026922 2.3026922 ... 1.8419062 1.8419062 1.8419062 1.8419062 1.8419062 355/672 355/672 355/672 355/672 355/672 pohtia=V pohtia=V pohtia=V pohtia=V pohtia=V 105/145 105/145 105/145 105/145 127/184 317/672 317/672 317/672 317/672 317/672 miettiä=V miettiä=V miettiä=V miettiä=V miettiä=V 19/19 19/19 19/19 19/19 19/19 355/672 355/672 355/672 355/672 355/672 pohtia=V pohtia=V pohtia=V pohtia=V pohtia=V 155/250 155/250 155/250 155/250 155/250 0_SEM-THINK:+1_SX_:+1_N:+1_SG 0_V:0_SEM-THINK:+1_SX_:+1_N:+1_SG 0_V:+1_SX_:+1_N:+1_SG +1_SX_:+1_N:+1_SG 0_SEM-THINK:+1_SX_:+1_N 0_ACT:0_SG1 0_IND:0_SG1 0_SG1 0_SG1:0_SEM-THINK 0_V:0_SG1 0_ACT:0_SG3 0_IND:0_SG3 0_SG3 0_SG3:0_SEM-THINK 0_V:0_SG3 130 Tulkinta – SG1/SG3 • SG3-jakauma t-testi 2.358 2.148 -2.705 -8.170 Fisher 1.000000 1.000000 0.000013 0.000001 verbi miettiä pohtia miettiä pohtia np,v/nf,total 24/26 206/336 130/336 2/26 piirre 0_SG1 0_SG3 0_SG3 0_SG1 • SG1-suhde on merkitsevä, ja suhdeluku on >9/10 • SG3-suhde on merkitsevä, mutta suhdeluku on 4/6 • olisiko joku toinen tekijä, jonka suhteen SG3verbit jakautuisivat selkeämmin kahteen ryhmään? 131 Kvalitatiivinen tarkastelu • Hallitus pohtii lähiviikkoina, pitääkö se kiinni lupauksestaan painaa valtion menot vuonna 1995 reaalisesti vuoden 1991 tasolle. • Työryhmässä oli erillinen jaos, joka pohti moottorikelkkailua Lapin läänissä. • Nato pohtii laajentamiskysymystä kokouksessaan Brysselissä. 132 Korpuksen vastaisku ... • ... miksi Suomessa jopa eduskunta miettii milloin kaupan ovi saa olla auki? • MTK miettii ehtoja tänään. • Liikenneministeriön työryhmä miettii parhaillaan, miten tunnuksettomia puheluita pitäisi kohdella. 133 Kvalitatiiviset johtopäätökset ... • pohtia assosioituu kolmannen persoonan kollektiivisiin agentteihin (subjekteihin) kuten eduskunta, jaos tai Nato • molemmat verbit ovat keskenään kuitenkin vaihdettavampia kuin yksittäisten esimerkkien perusteella voisi ensi kädellä päätellä on käytännössä mahdollista käyttää kollektiivisia subjekteja myös miettiä-verbin kanssa ainakin yksi autenttinen esimerkki • SG3-tapausten kohdalla voisi kenties löytyä selkeämpi ero agentin laskettavuuden suhteen – ihmisyksilöt vs. ihmisryhmät (kollektiivit) agenttien semanttinen luokittelu tämän piirteen suhteen 134 Korpustulokset – SG3:n eri agentit • Agentti-jakauma: t-testi 1.908 1.844 Fisher Verbi 1.0000 pohtia 1.0000 pohtia np,v/np,total 34/44 155/254 Agentti GROUP INDIVIDUAL • kollektiiviagenttien suhteen suhde-ero kasvaa (1/4 vs. 3/4) ja on edelleen tilastollisesti merkitsevä • yksilöagenttien suhteen suhde-ero itse asiassa säilyy samana (4/10 vs. 6/10), mutta on edelleen tilastollisesti merkitsevä 135 Tulosten suhde hypoteesiin • Hypoteesi – onko synonyymeiksi tulkittavien sanojen taivutusprofiileissa empiirisesti havaittavia eroja? • Tulos – kahden synonyymisen sanan taivutusprofiileissa esiintyi sekä tilastollisesti merkitseviä että lingvistisesti mielekkäitä eroja (INF1, SG1, SG3, ...) 136 Tulosten vaikutus teoreettiseen viitekehykseen • Aiempi teoria: – synonyymien valintaan vaikuttavat rekisteri sekä leksikaalinen ja syntaktinen konteksti • Tämän tutkimuksen seuraamus ja yleistys: – synonyymien valintaan vaikuttaviin tekijöihin tulisi lukea mukaan myös synonyymien sisäinen konteksti eli morfosyntaktiset piirteet, erityisesti morfologisesti rikkaissa kielissä kuten suomessa – morfosyntaktisilla piirteillä on vaikea yksin selittää valintoja kyseessä on useiden eri kontekstitekijöiden yhteisvaikutus (esim. verbin persoonamuoto [erit. SG3] on kytköksissä verbin agenttiin) 137 Tulosten tulkinta tieteellisissä lehdissä ... • tulosten suhde hypoteeseihin ja vaikutukset teoreettiseen viitekehykseen International Journal of Corpus Linguistics 138 Korpukset ja kieli-intuitio eli korpukset ja kieli eli tulosten lingvistinen yleistettävyys • SG3:n eri agenttityypit näyttävät selittävän korpuksessa havaittua jakaumaa kahden tutkittavan verbin käytön välillä • vastaako korpus natiivikielenkäyttäjien kieli-intuitiota? kokeellinen pakotustesti: minkä vaihtoehdon kielenkäyttäjä valitsisi, jos on valittava yksi • minkälainen mekanismi itse asiassa on korpuksissa havaittujen valintojen takana? hyväksyttävyystesti: jos eri vaihtoehtoja tarkastellaan yksittäisinä tapauksina, kuinka hyväksyttäviksi/hyviksi ne koetaan (asteikolla 1-7)? 139 Pakotustesti Aineisto • 31 virkerungon pohjalta muodostettu 31 virketriplettiä, jossa kussakin kolme eri verbiä (1 alkuperäinen virke ja 2 keinotekoista), esim. – Anu Joutsasta pohti hetken – Anu Joutsasta mietti hetken – Anu Joutsasta ajatteli hetken • Osallistujia kehotettiin valitsemaan luonnollisin virke kustakin tripletistä • 21 suomen natiivipuhujaa osallistui kokeeseen 140 Pakotustesti (N=520) ... 60,0 50,0 miettiä 45.0 35.8 19.2 pohtia 10.4 31.9 57.7 40,0 % % 1sg 3sg 3coll Miettiä 30,0 Pohtia 20,0 10,0 0,0 1sg 3sg 3coll 141 Pakotustesti ... • Vastausten kokonaisjakauma erosi merkitsevästi sattumasta (2 , p < .0001) • SG1-agentti selkeästi suosi verbiä miettiä (2 , p < .001) • SG3-KOLLEKTIIVI-agentilla suosi selkeästi verbiä pohtia (2 , p < .001) • SG3-agentilla (ei-kollektiivinen l. yksilö) ei ollut preferenssiä kumpaakaan verbiä kohtaan (2 , ei merkitsevä) 142 Hyväksyttävyystesti • Kutakin Agenttityyppiä (SG1, SG3 & SG3COLL) sisältäviä virkerunkoja – 21 runkoa kutakin Agenttityyppiä kohti – käytettiin testilauseiden luomiseen, joissa esiintyi sekä miettiä että pohtia ja semanttisesti läheinen täyteverbi ajatella 1/3 testivirkkeistä oli korpuksessa esiintynut alkuperäinen verbi; 2/3 alkuperäinen verbi oli korvattu vastaavassa taivutusmuodossa olevalla toisella verbillä • yhteensä 63 testiverbiä kokeeseen osallistujaa kohti • 40 täytevirkettä muodostettiin käyttäen verbehä käsittää ja ymmärtää (20 + 20) 143 Hyväksyttävyystesti ... • Kukin osallistuja arvioi siis yhteensä 103 testivirkettä – e.g., Anu Joutsasta <ajatteli> hetken. • Kokeeseen osallistui 54 suomen natiivipuhujaa • Osallistujia kehotettiin arvioimaan jokaisen verbin hyväksyttävyyttä virkerungossa asteikolla 1-7 – 1: huono 7: hyvä 144 Hyväksyttävyystesti ... SG1 SG3 COLL3 miettiä pohtia 5.6 5.3 4.5 5.2 5.6 5.4 145 MAS Hyväksyttävyystesti ... 6,0 5,5 5,0 4,5 4,0 3,5 3,0 miettiä pohtia 1sg 3sg 3coll 146 Hyväksyttävyystesti ... • Agenttityypin pääefekti merkitsevä • Agenttityypin ja Verbin vuorovaikutus merkitsevä Agenttityyppi merkitsevä miettiä-verbin muttei pohtiaverbin kohdalla • miettiä: COLL3 merkitsevästi vähemmän hyväksyttävä kuin joko SG1 tai SG3 (p<.001), ei merkitsevää eroa SG1:n ja SG3:n välillä (p>.2) 147 Hyväksyttävyystesti ... • Kolmen Agenttityypin sisällä: – SG1: miettiä merkitsevästi hyväksyttävämpi kuin pohtia (p < .01) – SG3: ei merkitsevää eroa (p > .1) – 3COLL: miettiä merkitsevästi vähemmän hyväksyttävä kuin pohtia (p < .001) 148 Korpushavaintojen suhde kieliintuitioon • pakotustestin tulokset vastasivat korpuksesta saatuja tuloksia pakotettu valinta vastaa tekstin tuottotilannetta (ainakin tässä tapauksessa) • hyväksyttävyystestit kertoivat laajemmin eri vaihtoehtojen sopivuudesta ja käytettävyydestä eri konteksteissa, mitä voidaan käyttää selittämään miksi tuotetussa korpustekstissä ja pakotustesteissä tehdään ne valinnat mitkä tehdään – Tässä tapauksessa: valinnan syy voi siis olla, että toinen vaihtoehdoista sopii huonommin kontekstiin kuin toinen • otaniemeläisten teekkarien ja keskisuomalaisten toimittajien näkemykset ko. synonyymien käytöstä vaikuttavivat samansuuntaisilta (triangulointia vahingossa?) 149 Korpusten ja kieli – yhteenveto • mistä korpukset kertovat? – aktuaalisesta käytöstä ja valinnoista – suhteellisen yleisistä ilmiöistä (kvantitatiivisessa tutkimuksessa) – selittävät kielen käyttöä ja valintoja mikäli syy esiintyy kontekstissa • mistä korpukset eivät kerro? – yksittäisten tapausten hyväksyttävyydestä ylipäänsä – mekanismeista ja preferensseistä käytön ja valintojen takana, mikäli syy ei ole kontekstissa 150 Ctl310corp Korpukset ja kieli Antti Arppe Päätöskalvo • Kysymyksiä? • Ehdotuksia ensi luentokierrosta varten • Palautelomake 151