Transcript Lysbilde 1

Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

Janne Bondi Johannessen, Anne Marit Bødal, Kristin Hagen og Hanne Gram Simonsen, ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, annembo, kristiha, hannegs}@iln.uio.no

MONS11 24.- 26. nov. 2005

Oversyn

• NoTa-prosjektet • Kva er eit talespråkskorpus for norsk?

• Innhaldet i Nota-Oslo • Problem og utfordringar i oppbygginga av korpuset – Informantutval – Opptakssituasjon • Demonstrasjon MONS11 24.- 26. nov. 2005

Nota-prosjektet

• • •

Finansiering:

Noregs forskingsråd gjennom programmet "Infrastruktur for humanistisk forskning”

Periode:

Hausten 2004 og 2005

Folk:

Prosjektleiar: Janne Bondi Johannessen Hanne Gram Simonsen Dagleg leiar: Kristin Hagen Programmerar: Joel Priestley Vitskapleg assistent: Anne Marit Bødal Transkribørar: Hilde Cathrine Haug, Ingunn Indrebø Ims, Signe Laake, Inger Margrethe Hvenekilde Seim og Åshild Søfteland MONS11 24.- 26. nov. 2005

Kva er eit talespråkskorpus for norsk?

• Norsk talespråk – språk snakka av personar som er fødde og oppvaksne i Noreg • Korpus – ei samling av tekstar som er tilverka for språkforsking: utval av tekstar, annotering, tilpassa søkegrensesnitt • For kven? – Språkforskarar av alle slag • sosiolingvistar, dialektforskarar, syntaktikarar, fonologar, morfologar, semantikarar, leksikografar o.a.

– Datalingvistar, språkteknologar • Kanskje det beste verktøyet for ein språkforskar MONS11 24.- 26. nov. 2005

Nota-Oslo

• Er første del av eit planlagt nasjonalt talespråkskorpus • Inneheld intervju og samtalar med 144 informantar som er fødde og oppvaksne i Oslo-området • Informantane er representative m.o.t. alder, kjønn, utdanning og kvar dei bur i Oslo-området • Korpuset er ortografisk transkribert • Det ferdige korpuset vil bestå av ca 1 million ord • Ein kan søkje i korpuset vha eit eige grensesnitt • Korpuset blir tilgjengeleg for forskarar i byrjinga av 2006 MONS11 24.- 26. nov. 2005

Informantutval

• Informantvariablar – Kjønn: M – F – Alder: 16 – 25, 26 – 50, 51 + – Utdanning: vidaregåande skole eller mindre – høgare utdanning – Geografi: Oslo vest, Asker og Bærum – Oslo aust og distriktet omkring Oslo • Resulterande informantmatrise – Tal på celler: 18 med 8 informantar i kvar – 144 informantar MONS11 24.- 26. nov. 2005

Korpusforbilde

     TAUS (Talemålsundersøkinga i Oslo, 1970-talet) • Informantutval, tagging, intervjuteknikk • Manglar eit søkegrensesnitt på Internett...

CGN (Nederlandsk talespråk) • Informantutval, transkripsjon, fleire talesituasjonar Gothenburg Spoken Language Corpus • Mange talesituasjonar, transkripsjon, ikkje lyd eller bilde Tekstlaboratoriets skriftspråklege korpus (Oslo-korpuset, Oslo Multilingual Corpus) • Grensesnitt, enkelt å søke Talesøk • Transkripsjon, lyd MONS11 24.- 26. nov. 2005

Utfordringar – utdanningsvariabelen

• • • Tredeling? grunnskole – vidaregåande - høgare utdanning – Nesten umogeleg å finne yngre informantar med berre grunnskole, spesielt i Oslo vest. – => slå saman dei to lågaste klassene Klassifikasjon av ungdom under utdanning –

=>

snittet av den utdanninga ungdommane sjølv har planlagd saman med utdanninga til mor og far • Eksempel: Eige mål for utdanninga = H Mors utdanning = L Fars utdanning = L Lite samsvar mellom utdanning og prestisjefylt arbeid – Gjeld særleg eldre menneske • Eksempel: tidlegare direktør i ein bokklubb, 72 år. Utdanning: gymnas – => informantar over 70 blir klassifiserte i høgutdanningsgruppa dersom dei har gymnas. MONS11 24.- 26. nov. 2005

Utfordringar – geografivariabelen

• • • Kor går skiljet mellom aust og vest i Oslo?

=> bruke inndelinga til Statistisk sentralbyrå (t.d. både Grefsen og Nordstrand blir Oslo vest) Korleis klassifisere områda omkring Oslo? => Asker og Bærum reknar vi som Oslo vest (ikkje landområda i Asker), resten er saman med Oslo aust (= Oslo ”rest”) Folk flyttar, også innafor Oslo => utfyllinga i matrisa skjer på grunnlag av kor folk har budd lengst => men vi tek også vare på variablane

nåverande bustad

og

oppvekststad

MONS11 24.- 26. nov. 2005

Utfordringar – skaffe informantar

• Vanskeleg å få tak i villige informantar => freiste alle informantar med trekning av tre reisegåvekort => kontakte skolar, seniorsenter og arbeidsplassar => tilby opptak i skoletid/arbeidstid => utnytte eige nettverk og nettverk til kollegaer => artikkel med etterlysing i aviser • Vanskeleg å fylle alle cellene i matrisa – Vanskelegast: Informantar med låg utdanning, spesielt frå Oslo vest

=>

bruke mye tid på å finne informantar … MONS11 24.- 26. nov. 2005

Utfordringar – opptakssituasjon

• • •

Mål:

samle inn naturleg talemål, også spontant talemål

Opptakssituasjon:

– Eit intervju på ti minutt – Ein samtale mellom to informantar på 30 – 45 minutt

Variablar:

– Samtale mellom vener – Samtale mellom kjenningar – Samtale mellom familiemedlem – Samtale mellom ukjente – Intervju med forskjellige intervjuarar (men mest med Anne Marit Bødal, Førde) MONS11 24.- 26. nov. 2005

Utfordringar – opptakssituasjon

• Kamera og opptakssituasjon verkar unaturleg og hemmande => forsøke å gjere det koseleg med kaffi/mineralvatn og godteri (som ikkje knasar!) => foreslå tema om kva ein kan snakke om på førehand => samtalen varar ei stund slik at informantane gløymer kamera • Bare pene og pyntelege samtalar - ikkje spontant?

– Med to typar opptakssituasjon ser vi stor skilnad: • I intervju: en-endingar og pausar, stakkato tale • I samtale: informantane er meir uformelle, jf. språklege variablar som a endingar, slang/bannord • Tekniske problem – Batteri til myggmikrofonane – Langt hår ned på myggen – Skru på lydkort i datamaskinen!

• Mykje utstyr – Tidkrevjande å installere – Tungt å dra rundt på (bagladies frå Blindern) MONS11 24.- 26. nov. 2005

MONS11 24.- 26. nov. 2005

Utfordringar – sensitive data

• Krav frå Datatilsynet/Personvernombudet for forsking: korpuset skal ikkje innehalde sensitive personopplysningar, dvs. opplysningar om tredjeperson, religiøs tro, politisk oppfatning, fagforeiningstilknyting, helse osv.

=>

opplyse informantane om dette på førehand

=>

vere til stades under samtalen (i ein krok) og gripe inn i samtalen

=>

temaliste er tilgjengeleg for informantane

=>

ikkje transkribere/pipe ut sekvensar i ettertid MONS11 24.- 26. nov. 2005

Vårt paradoks:

• Tiltak for å redusere ”the observer’s paradox” fører til at informantane blir så avslappa at dei snakkar om sensitive emne MONS11 24.- 26. nov. 2005

Demonstrasjon

• http://omilia.uio.no/nota/ • Ein kan søkje i korpuset på mange ulike måtar: – Informantutval: alle variablane som høyrer til kvar informant – Opptakssituasjon: intervju eller samtale – Språk: • ord • eit eller fleire, rett etter kvarandre eller med mellomrom • deler av ord (byrjing eller slutt) • alle formene til ordet • grammatiske kategoriar: – ordklasse (substantiv, verb, osv.) – grammatiske trekk (eintal/fleirtal, presens/preteritum, osv.) MONS11 24.- 26. nov. 2005

Demonstrasjon

• Resultata blir viste på ulike måtar: – enkeltvis • som konkordansar • valfri kontekststorleik • lyd og video – Sortering etter ulike variablar • Etter ulike informantvariablar • Etter språklege variablar – Diverse statistiske utrekningar – Ulike presenteringsformat (kakediagram o.a.) MONS11 24.- 26. nov. 2005

NoTa-korpuset: mange søkevariablar

NoTa-korpuset: mange søkevariablar

NoTa korpuset: gode muligheiter for å søkje på ord og grammatiske kategoriar

NoTa: Resultatkonkordanse

I NoTa-grensesnittet kan ein enkelt få video og lyd til dei transkriberte resultata