Transcript Lysbilde 1
Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus
Janne Bondi Johannessen, Anne Marit Bødal, Kristin Hagen og Hanne Gram Simonsen, ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, annembo, kristiha, hannegs}@iln.uio.no
MONS11 24.- 26. nov. 2005
Oversyn
• NoTa-prosjektet • Kva er eit talespråkskorpus for norsk?
• Innhaldet i Nota-Oslo • Problem og utfordringar i oppbygginga av korpuset – Informantutval – Opptakssituasjon • Demonstrasjon MONS11 24.- 26. nov. 2005
Nota-prosjektet
• • •
Finansiering:
Noregs forskingsråd gjennom programmet "Infrastruktur for humanistisk forskning”
Periode:
Hausten 2004 og 2005
Folk:
Prosjektleiar: Janne Bondi Johannessen Hanne Gram Simonsen Dagleg leiar: Kristin Hagen Programmerar: Joel Priestley Vitskapleg assistent: Anne Marit Bødal Transkribørar: Hilde Cathrine Haug, Ingunn Indrebø Ims, Signe Laake, Inger Margrethe Hvenekilde Seim og Åshild Søfteland MONS11 24.- 26. nov. 2005
Kva er eit talespråkskorpus for norsk?
• Norsk talespråk – språk snakka av personar som er fødde og oppvaksne i Noreg • Korpus – ei samling av tekstar som er tilverka for språkforsking: utval av tekstar, annotering, tilpassa søkegrensesnitt • For kven? – Språkforskarar av alle slag • sosiolingvistar, dialektforskarar, syntaktikarar, fonologar, morfologar, semantikarar, leksikografar o.a.
– Datalingvistar, språkteknologar • Kanskje det beste verktøyet for ein språkforskar MONS11 24.- 26. nov. 2005
Nota-Oslo
• Er første del av eit planlagt nasjonalt talespråkskorpus • Inneheld intervju og samtalar med 144 informantar som er fødde og oppvaksne i Oslo-området • Informantane er representative m.o.t. alder, kjønn, utdanning og kvar dei bur i Oslo-området • Korpuset er ortografisk transkribert • Det ferdige korpuset vil bestå av ca 1 million ord • Ein kan søkje i korpuset vha eit eige grensesnitt • Korpuset blir tilgjengeleg for forskarar i byrjinga av 2006 MONS11 24.- 26. nov. 2005
Informantutval
• Informantvariablar – Kjønn: M – F – Alder: 16 – 25, 26 – 50, 51 + – Utdanning: vidaregåande skole eller mindre – høgare utdanning – Geografi: Oslo vest, Asker og Bærum – Oslo aust og distriktet omkring Oslo • Resulterande informantmatrise – Tal på celler: 18 med 8 informantar i kvar – 144 informantar MONS11 24.- 26. nov. 2005
Korpusforbilde
TAUS (Talemålsundersøkinga i Oslo, 1970-talet) • Informantutval, tagging, intervjuteknikk • Manglar eit søkegrensesnitt på Internett...
CGN (Nederlandsk talespråk) • Informantutval, transkripsjon, fleire talesituasjonar Gothenburg Spoken Language Corpus • Mange talesituasjonar, transkripsjon, ikkje lyd eller bilde Tekstlaboratoriets skriftspråklege korpus (Oslo-korpuset, Oslo Multilingual Corpus) • Grensesnitt, enkelt å søke Talesøk • Transkripsjon, lyd MONS11 24.- 26. nov. 2005
Utfordringar – utdanningsvariabelen
• • • Tredeling? grunnskole – vidaregåande - høgare utdanning – Nesten umogeleg å finne yngre informantar med berre grunnskole, spesielt i Oslo vest. – => slå saman dei to lågaste klassene Klassifikasjon av ungdom under utdanning –
=>
snittet av den utdanninga ungdommane sjølv har planlagd saman med utdanninga til mor og far • Eksempel: Eige mål for utdanninga = H Mors utdanning = L Fars utdanning = L Lite samsvar mellom utdanning og prestisjefylt arbeid – Gjeld særleg eldre menneske • Eksempel: tidlegare direktør i ein bokklubb, 72 år. Utdanning: gymnas – => informantar over 70 blir klassifiserte i høgutdanningsgruppa dersom dei har gymnas. MONS11 24.- 26. nov. 2005
Utfordringar – geografivariabelen
• • • Kor går skiljet mellom aust og vest i Oslo?
=> bruke inndelinga til Statistisk sentralbyrå (t.d. både Grefsen og Nordstrand blir Oslo vest) Korleis klassifisere områda omkring Oslo? => Asker og Bærum reknar vi som Oslo vest (ikkje landområda i Asker), resten er saman med Oslo aust (= Oslo ”rest”) Folk flyttar, også innafor Oslo => utfyllinga i matrisa skjer på grunnlag av kor folk har budd lengst => men vi tek også vare på variablane
nåverande bustad
og
oppvekststad
MONS11 24.- 26. nov. 2005
Utfordringar – skaffe informantar
• Vanskeleg å få tak i villige informantar => freiste alle informantar med trekning av tre reisegåvekort => kontakte skolar, seniorsenter og arbeidsplassar => tilby opptak i skoletid/arbeidstid => utnytte eige nettverk og nettverk til kollegaer => artikkel med etterlysing i aviser • Vanskeleg å fylle alle cellene i matrisa – Vanskelegast: Informantar med låg utdanning, spesielt frå Oslo vest
=>
bruke mye tid på å finne informantar … MONS11 24.- 26. nov. 2005
Utfordringar – opptakssituasjon
• • •
Mål:
samle inn naturleg talemål, også spontant talemål
Opptakssituasjon:
– Eit intervju på ti minutt – Ein samtale mellom to informantar på 30 – 45 minutt
Variablar:
– Samtale mellom vener – Samtale mellom kjenningar – Samtale mellom familiemedlem – Samtale mellom ukjente – Intervju med forskjellige intervjuarar (men mest med Anne Marit Bødal, Førde) MONS11 24.- 26. nov. 2005
Utfordringar – opptakssituasjon
• Kamera og opptakssituasjon verkar unaturleg og hemmande => forsøke å gjere det koseleg med kaffi/mineralvatn og godteri (som ikkje knasar!) => foreslå tema om kva ein kan snakke om på førehand => samtalen varar ei stund slik at informantane gløymer kamera • Bare pene og pyntelege samtalar - ikkje spontant?
– Med to typar opptakssituasjon ser vi stor skilnad: • I intervju: en-endingar og pausar, stakkato tale • I samtale: informantane er meir uformelle, jf. språklege variablar som a endingar, slang/bannord • Tekniske problem – Batteri til myggmikrofonane – Langt hår ned på myggen – Skru på lydkort i datamaskinen!
• Mykje utstyr – Tidkrevjande å installere – Tungt å dra rundt på (bagladies frå Blindern) MONS11 24.- 26. nov. 2005
MONS11 24.- 26. nov. 2005
Utfordringar – sensitive data
• Krav frå Datatilsynet/Personvernombudet for forsking: korpuset skal ikkje innehalde sensitive personopplysningar, dvs. opplysningar om tredjeperson, religiøs tro, politisk oppfatning, fagforeiningstilknyting, helse osv.
=>
opplyse informantane om dette på førehand
=>
vere til stades under samtalen (i ein krok) og gripe inn i samtalen
=>
temaliste er tilgjengeleg for informantane
=>
ikkje transkribere/pipe ut sekvensar i ettertid MONS11 24.- 26. nov. 2005
Vårt paradoks:
• Tiltak for å redusere ”the observer’s paradox” fører til at informantane blir så avslappa at dei snakkar om sensitive emne MONS11 24.- 26. nov. 2005
Demonstrasjon
• http://omilia.uio.no/nota/ • Ein kan søkje i korpuset på mange ulike måtar: – Informantutval: alle variablane som høyrer til kvar informant – Opptakssituasjon: intervju eller samtale – Språk: • ord • eit eller fleire, rett etter kvarandre eller med mellomrom • deler av ord (byrjing eller slutt) • alle formene til ordet • grammatiske kategoriar: – ordklasse (substantiv, verb, osv.) – grammatiske trekk (eintal/fleirtal, presens/preteritum, osv.) MONS11 24.- 26. nov. 2005
Demonstrasjon
• Resultata blir viste på ulike måtar: – enkeltvis • som konkordansar • valfri kontekststorleik • lyd og video – Sortering etter ulike variablar • Etter ulike informantvariablar • Etter språklege variablar – Diverse statistiske utrekningar – Ulike presenteringsformat (kakediagram o.a.) MONS11 24.- 26. nov. 2005