Speech perception and spoken word recognition

Download Report

Transcript Speech perception and spoken word recognition

Talperception 3

”Studiet av talperception handlar om lyssnarens förmåga att uppfatta den akustiska signalen som en talare producerar som en sekvens av meningsfulla ord och idéer.”

Talperception 3

Studiet av talperception har en längre historia än man kanske tror. Bagley publicerade redan 1901 en studie där han tog upp problem som är fullt relevanta än idag, tex.: • Fonemrestaurering • Semantisk betingning (semantic priming) • Betydelsen av ordinitial information • Kontexteffekter på ordigenkänning

Talperception 3

Fonemrestaurering innebär att vi under vissa omständigheter ’fyller i’ information som fattas i den akustiska signalen (t.ex. fonem).

Det är inte bara så att vi kan ’lista ut’ vilka fonem som avses när de fattas i den fysiska signalen. Vi tycker oss faktiskt höra dem trots att de egentligen inte finns.

Talperception 3

Fonemrestaurering har tagits som evidens för att taligenkänningen (åtminstone delvis) är ’top down’, dvs. våra kunskaper om språket gör att vi så att säga går händelserna i förväg och gör fortlöpande prediktioner om vad som ska sägas innan det faktiskt sägs.

Dessa prediktioner blir sedan (oftast) bekräftade och det spelar då inte så stor roll om det ’fattas bitar’ bara tillräckligt mycket finns där.

Talperception 3

Evidens för ’top-down’ processning kan också hämtas från information om felhörningar och missförstånd där det ofta visar sig att just felaktiga förväntningar på vad som skulle sägas är grunden för felhörningen.

Talperception 3

Fonemrestaurering

Du får höra frasen ”

Under natten släpade soldaterna försiktigt fram kanonen till skogsdungen

” uppläst tre gånger – först utan brus en gång och sedan två gånger med ett brus inplacerat någonstans i frasen. Din uppgift är att avgöra var i frasen bruset kommer.

Talperception 3

Var i frasen kommer bruset?

Exempel 1 Exempel 2 Exempel 3

Talperception 3

”Rätt” svar Fonemet inom parentes var utbytt mot ett brusljud

Exempel 1 Under na( tt )en släpade soldaterna försiktigt fram kanonen till skogsdungen Exempel 2 Under natten släpade sol( da )terna försiktigt fram kanonen till skogsdungen Exempel 3 Under natten släpade soldaterna försiktigt fram ( ka )nonen till skogsdungen

Talperception 3

Betydelsen av ordinitial information.

Det finns en hel del forskning som visar att vi känner igen ord långt innan de uttalats färdigt. Hur långt innan beror på en rad faktorer som kontext, hur vanliga orden är, om vi får några ledtrådar att gå på (semantic priming) etc.

Talperception 3

Betydelsen av ordinitial information.

Exempel 1 1 2 3 4 5 6 7 8 Exempel 2 1 2 3 4 5 6 7 8 Exempel 3 1 2 3 4 5 6 7 8

Talperception 3

Några av de verkligt stora och svårlösta problemen inom talperceptionen är: 1. Linearitetsproblemet 2. Invariansproblemet 3. Segmenteringsproblemet 4. Val av minsta analysenhet

Talperception 3

En illustration av invariansproblemet.

Goons gummed Gary’s gears Don’t doctors deal dope daily

Talperception 3

Koartikulation utgör ett annat svårt problem, nämligen ett segmenteringsproblem.

Koartikulationen leder till att det i de flesta fall inte finns några skarpa gränser i signalen mellan det som vi uppfattar som enheter i perceptionen.

Talperception 3

Segmenteringsproblemet I owe you a yo-yo Var finns gränserna mellan fonemen?

Talperception 3

Alla dessa faktorer, linearitetsproblemet, invariansproblemet och segmenterings problemet utgör mycket stora och till stora delar hittills olösta problem för automatisk taligenkänning, men vi som mänskliga lyssnare klarar detta utan några problem. Frågan är bara hur det går till.

Talperception 3

Val av minsta analysenhet Som akustisk signal betraktad är talsignalen oerhört informationsrik. Vi kan jämföra med informationshastigheten på en CD-skiva (ung. 1.4 miljoner informationsbitar per sekund) så inser vi att detta knappast kan vara den information vi processar när vi hör tal. Någon form av omvandling till andra enheter måste ske.

Talperception 3

Så stora enheter som stavelser har föreslagits, men det löser inte grundproblemen med t.ex. invarians och det är dessutom svårt att tänka sig hur man skulle kunna eliminera fonemen helt ur stavelserna.

Så grundproblemet kvarstår ännu olöst: Hur omvandlar lyssnaren den kontinuerligt varierande talsignalen till en serie diskreta representationer lämpade för lingvistisk analys?

Talperception 3

Mycket av den debatt som förts och förs i frågan om människan har en speciell talperceptionsförmåga, unik för människan, går tillbaka på forskning gjord vid Haskins Laboratories i USA under 50-talet.

…. men först lite historisk bakgrund

Talperception 3

Uppfinnandet av spektrografen i mitten av 40-talet innebar ett stort framsteg för talforskningen. Man fick då möjlighet att studera fina detaljer i talsignalen som tidigare inte kunnat studeras på något enkelt sätt.

Talperception 3

Ett spektrogram innehåller ju väldigt mycket information och man började snart fundera på funktionen, inte minst för talperceptionen, hos de olika detaljer man kunde observera.

Det är ju tämligen uppenbart att varje lite detalj inte kan vara signifikant för perceptionen av tex. ett givet talljud.

Man upptäckte snart formanternas och deras rörelsers fundamentala roll i talperceptionen.

Talperception 3

Här ett exempel på hur man kopplade samman artikulationssätt och artikulationsställe för några klusiler och nasaler.

Talperception 3

Frågan uppstår då: Hur ska man kunna testa olika hypoteser om talperceptionen på ett systematiskt sätt?

Ett sätt att göra det är genom syntetiskt framställda stimuli. Detta ledde till att man på Haskins konstruerade den första talsyntesmaskinen.

Den byggde på att man målade stiliserade spektrogram på genomskinlig plast och sedan spelade upp dessa med en optiska avläsningsmetod.

Talperception 3

En principskiss och ett foto som visar Haskins syntesmaskin.

Talperception 3

Nå hur lät det då?

Kanske inte så fantastiskt bra med våra dagars mått mätt men tillräckligt bra för att användas i enkla perceptionsexperiment.

Talperception 3

Med hjälp av denna maskin konstruerade man stimuli för en rad perceptionsexperiment som avsåg att fastställa vad som karaktäriserade olika fonologiska kontraster, här illustrerat med en serie syntetiska CV stavelser med två formanter avsedd för att undersöka artikulationsställe för klusiler. De stiliserade formantdiagrammen ovan illustrerar en serie som går från [bæ] (-6) till [d æ] (-1) till [gæ] (+6).

Talperception 3

När man testade försökspersoner med stimulusserier av denna typ gjorde man två viktiga upptäckter 1.

Försökspersonernas klassificering av stimuli i serier som [b æ] – [dæ] – [gæ] växlade över från den ena kategorin till den andra med ganska skarpa gränser 2.

När man gjorde diskrimineringstest med samma stimuli visade det sig att försökspersonernas diskriminerings förmåga var mycket bra när stimuli spände över en kategorigräns men mycket dålig om stimuli hämtades från samma kategori

Talperception 3

Typiska resultat från ett perceptionsexperiment av denna typ. Observera att maximal diskriminering sammanfaller nästan perfekt med kategorigränserna.

Talperception 3

Forskarna kallade denna typ av perception för

Kategorisk Perception

.

Resultaten strider mot etablerade principer som Webers lag (som ju förutsäger att diskrimineringen ska vara monoton) och allmänna resultat som att diskrimineringsförmågan alltid brukar vara avsevärt bättre än klassificeringsförmågan Tidiga perceptionsexperiment med stimuli som inte hade någon likhet med tal visade inte heller någon kategorisk perception.

Detta gjorde att man tolkade resultaten som ett bevis för att människan var utrustad med en unik perceptionsförmåga speciellt anpassad för tal.

Talperception 3

En annan grundtanke var att förklaringen till denna unika perceptionsförmåga var att talperceptionen var oupplösligt knuten till talproduktionen. Det som gör att vi hör stimuli kategoriskt är att vi kopplar samman hörselintrycket med vårt sätt att artikulera motsvarande ljud vilket ju i någon mening är kategoriskt.

Talperception 3

Kopplingen till talproduktionen fick ytterligare stöd i nya experiment som visade att ett kontinuum där VOT varierades också uppfattades kategoriskt och att gränsen låg där talare placerar den i sin talproduktion.

Den här talproduktionsbaserade teorin för talperception kallades

The Motor Theory of Speech Perception

med hänvisning till dess koppling till talmotoriken

Talperception 3

Dessa idéer kom sedan att spela en mycket central roll både för talperceptions forskningen och den vetenskapliga debatten om många olika grundfrågor inom detta område, men fram för allt frågan om människans talperceptionsförmåga är skild från den övriga perceptionen och unik för människan.

Talperception 3

Haskinsforskarnas idéer har naturligtvis inte stått oemotsagda och en av de första frågor som ställdes var om kategorisk perception verkligen var begränsad till att bara gälla när talljud utgjorde stimuli.

Talperception 3

Senare forskning visade också mycket riktigt att samma resultat kunde uppnås med stimuli som inte hade något med talljud att göra.

Miller m.fl. (1976) gjorde tex. ett experiment där stimuli utgjordes av abstrakta ljud (ett brusljud följt av ett ’surr’) men som efterliknade VOT stimuli till sin temporala struktur och kunde visa att också ett sådant kontinuum uppfattades kategoriskt

Talperception 3

Speech stimuli

Exempel på resultat från ett experiment där man replikerat resultat från ett experiment med tal stimuli med ett mot svarande experiment med abstrakta stimuli som liknar de i talstimulusexperimentet

Nonspeech control stimuli

Talperception 3

Pisoni (1977) gjorde ett experiment med stimuli av en ännu mer abstrakt natur – en ton på 500Hz och en på 1500Hz där den höga tonen antingen föregick eller följde den låga med olika långt intervall. Även i detta experiment blev resultatet i stort sett identiskt med de som erhållits med talstimuli.

Talperception 3

Vidare visade Jusczyk (1980) att även spädbarn uppfattade abstrakta stimuluskontinua kategoriskt. Resultat som dessa visar att kategorisk perception kan förklaras som en funktion av allmänna auditiva mekanismer utan hänvisning till någon speciell talperceptionsförmåga.

Talperception 3

En viss koppling mellan talperception och perception av abstrakta stimuli har dock påvisats, men förklaringen ligger snarare i vad i signalen man väljer att fokusera.

Lyssna på detta ’ljud’ och säg sedan vad det är.

Talperception 3

Where were you a year ago Naturligt Sinustal The steady drift is worse than a drenching rain Naturligt Sinustal Exempel på sinustal

Talperception 3

När lyssnare som fick lyssna på sinustal fick veta att det gällde tal kunde de oftast skriva ner vad som sades utan några större problem. Men när de inte visste vad de skulle lyssna efter uppfattades det mest som konstiga visselljud. Skillnaden i perception verkar ligga i att man uppfattar signalen mer holistiskt om man förväntar sig tal och mer analytiskt om man förväntar sig en abstrakt signal.

Talperception 3

Talsignalen innehåller för det mesta många olika ledtrådar till en given kontrast. Som exempel kan vi ta de olika ledtrådar som i olika experiment visat sig kunna utnyttjas av lyssnare användas för att uppfatta distinktionen mellan tonande och tonlösa klusiler.

19 Ledtrådar för kontrasten tonande-tonlös 1. VOT 2. Duration of preceding vowel 3. Duration of the following vowel 4. Duration of closure 5. Duration of aspiration 6. Duration of voiced-formant transition 7. First-formant offset frequency before closure 8. First-formant onset frequency following closure 9. First-formant offset transition duration 10.First -formant onset transition duration 11.First-formant cutback before closure 12. First-formant cutback after closure 13.Onset frequencies and directions of second- and third-formant transitions 14.Amplitude of the following vowel relative to the preceding vowel 15.Spectral characteristics of the following vowel 16.Fundamental frequency at voicing onset 17.Presence or absence of low frequency buzz during the closure interval 18.Decay time of glottal signal preceding closure 19.Burst intensity following closure

”Trading relations” och ”integration of cues”

Detta exempel kan illustrera både

trading relations

(när inte en ledtråd finns till hands så kan man basera tolkningen på någon annan) och

integration of cues

(man utnyttjar alla ledtrådar som finns till hands samtidigt och ökar på så sätt säkerheten).

Cross-modal cue integration (The McGurk effect) När vi både ser och hör en talare så understödjer ofta synintrycket det vi hör. Det är tex. en erfarenhet vi alla gjort att när man befinner sig i en bullrig miljö så är det lättare att uppfatta en talare om man samtidigt kan se dem talandes ansikte.

Men vad skulle hända kan man fråga sig om syn och ljudintryck inte stämmer överens, eller rent av är i konflikt.

Det var precis den fråga som var utgångspunkten för ett experiment som McGurk & McDonald utförde 1976.

McGurk effekten

Ett typiskt experiment av denna typ. Lyssnaren hör ordet ’map’ men ser talaren säga ’tap’. det resulterande intrycket är ordet ’nap’.

McGurk effekten

I originalexperimentet använde McGurk och McDonald fyra tvåstaviga nonsensord –

baba

,

dada

,

kaka

och

gaga

som förkom både som auditiva och visuella stimuli. Sedan blandades auditiva och visuella stimuli och presenterades för tre grupper av försökspersoner – 4-5-åriga barn, 7-8 åriga barn och vuxna.

McGurk effekten

När stimuli stod i konflikt med varandra förekom tre typer av svar, sådana som motsvarade det auditiva stimulset, sådana som motsvarade det visuella och sådana som utgjorde en kombination av båda.

McGurk effekten

Ett mycket intressant resultat är skillnaden i svarsbeteende mellan de olika grupperna av försökspersoner. I tabellen kan vi tydligt se att när stimuli var i konflikt uppfattade barnen dem som motsvarande den auditiva delen i betydligt högre grad än de vuxna som i sin tur oftare uppfattade dem som motsvarande den visuella eller sammansatta.

McGurk effekten

En delmängd av samma information i diagramform

McGurk effekten

Den här åldersbetingade skillnaden skulle då tala emot en stark tolkning av en speciell talperceptionsförmåga.

Förmågan att tillägna sig den visuella informationen verkar åtminstone delvis vara ett inlärt beteende som de vuxna alltså tillägnat sig i högre grad än barnen.

Talperception 3

Barn – även spädbarn – kan kategoriskt diskriminera talljuden i sitt eget språk, men även sådana som inte ingår i det egna språket.

Med ökande ålder och lingvistisk erfarenhet verkar dock förmågan att diskriminera ljud som inte tillhör det egna språket gå mer eller mindre förlorad.

Talperception 3

Djur har av naturliga skäl ingen speciell talperceptions förmåga. Genom att göra perceptionstest på djur kan man därför få svar på frågan om vilka faktorer i talperceptionen som kan förklaras av allmänna perceptoriska förmågor, eventuellt sådant som tas om hand redan av det perifera hörselsystemet.

Talperception 3

Det har därför gjorts en hel del studier där man replikerat tidigare försök gjorda med mänskliga försökspersoner.

De djur som ofta används är chinchillor och apor därför att deras perifera hörselsystem i ganska hög grad liknar människans. Men även andra djur har använts, tex. vaktlar.

Låt oss titta på resultaten av några experiment utförda av Patricia Kuhl m.fl.

Talperception 3

Figurerna visar resultaten av klassificeringsexperiment för de VOT kontraster som är relevanta för [b], [d] och [g], gjorda med chinchillor. Resultat från försök med engelsktalande är inlagda som jämförelse. Man kan konstatera att resultaten för chinchillor och mänskliga fp stämmer helt överens

Talperception 3

För att perceptionen ska räknas som kategorisk räcker det inte med att man klassificerar stimuli i två kategorier. Diskrimineringsfunktionen måste dessutom uppvisa ett maximum vid kategorigränsen.

Resultat från experiment med chinchillor visar att dessa även uppfyller diskrimineringsvillkoret.

Talperception 3

Figuren visar resultatet av ett diskrimineringsexperiment med chinchillor. Den vänstra kurvan visar diskrimineringsfunktionen när VOT hos stimuli ökades och den högra när VOT minskades. Den streckade linjen visar VOT för bästa diskriminering hos mänskliga försökspersoner. Överensstämmelsen är i det närmaste perfekt även här.

Perceptionsexperiment med spädbarn

Till sist några ord om perceptionsexperiment med spädbarn.

Vi som vuxna har ju inga problem med att höra att ett [a] är ett [a] oavsett om det uttalas av en man eller en kvinna, en vuxen eller ett barn. Frågan är då bara om detta är ett inlärt beteende som vi tillägnat oss genom språklig erfarenhet eller något mer fundamentalt.

Perceptionsexperiment med spädbarn

För att undersöka den saken gjorde Kuhl m.fl. följande experiment.

Spädbarn (18–20 veckor gamla) lärde sig att skilja mellan vokalen [a] och vokalen [i] uttalade av en kvinnlig talare. Inlärningen gick till på följande vis.

Perceptionsexperiment med spädbarn

När den kvinnliga rösten säger vokalen [a] händer inget speciellt, men när hon säger [i] börjar en leksaksbjörn till vänster om barnet spela på en trumma. Barnet lär sig snart att när [i] hörs kommer något skojigt att inträffa och tittar då spontant mot björnen.

Perceptionsexperiment med spädbarn

Vad händer då om man byter talare och det istället är en manlig talare som uttalar vokalerna?

Jo, barnet reagerar ’rätt’ omedelbart på första försök. Barnet har alltså förmåga att generalisera vokalkvaliteterna utan att de knyts till någon speciell talare och detta utan någon speciell förgående träning.

Perceptionsexperiment med spädbarn

I andra har man använt ’goda’ och ’mindre goda’ exemplar av samma vokal. Hur pass bra ett exemplar är som representant för en viss vokal har man tagit fram genom perceptionstest med vuxna försökspersoner.

När dessa vokaler används i perceptionstest med barn visar det sig att även barnen generaliserar lättare kring de ’goda’ vokalerna.

Perceptionsexperiment med spädbarn

Följande experiment visar att spädbarn även kan koppla samman visuell och auditiv språklig information.

Perceptionsexperiment med spädbarn

Barnen (12 –20 veckor gamla) fick se två filmsnuttar som visade ansikten på en person – den ena där personen säger [a] och den andra när hon säger [i]. Från en högtalare mitt mellan bilderna presenterades sedan det ena eller andra av vokalljuden (perfekt synkroniserat med bägge bilderna). Det visade sig då att barnen tittade signifikant oftare (73% av tiden) på det ansikte som motsvarade den hörda vokalen.

Perceptionsexperiment med spädbarn

Spädbarn (10–12 veckor gamla) har även visat sig kunna att koppla samman talljud med deras artikulation.

I ett experiment där försöksledaren ’samtalade’ med barnen och barnen uppmuntrades att härma försöksledaren visade det sig att barnen gjorde detta mycket bra såväl vad gäller talljudens kvalitet, som deras duration och prosodiska egenskaper.

Perceptionsexperiment med spädbarn

I ett annat experiment som liknade det förra men där barnen såg ett ansikte som artikulerade riktiga talljud men där de ljud som hördes inte var talljud utan toner engagerade sig inte barnen alls i någon ’konversation’.

Det är svårt att dra några alldeles bestämda slutsatser om hur mycket av detta som ska tillskrivas medfödda språkanpassade förmågor men det är svårt att tänka bort en sådan komponent helt och hållet.