Auditory Scene Analysis

Download Report

Transcript Auditory Scene Analysis

IV: Auditory Scene Analysis
Hoorcollege:
• Introductie ASA
Bregman (1990): Primitief + schemagebaseerd
• Illustratieve experimenten met eenvoudige stimuli
• Relevantie onderscheid primitief –
schemagebaseerd voor spraak + voorbeelden
Studentencollege:
•
Mattingly and Liberman (1988) Specialized perceiving systems
for speech and other biologically significant sounds
–
•
Bregman (1998) Human data and computational ASA
–
•
Specifieke spraakmodule i.t.t. algemene verwerking van acoustiche
info?
Algemene eisen aan systeemarchitectuur voor uitvoering ASA o.b.v.
kennis over menselijke ASA
Cooke and Okuno (1998) Using knowledge to organize sound:
The prediction-driven approach to computational auditory scene
analysis, and its applications to speech/nonspeech mixtures
–
Voorstel mogelijke systeemarchitectuur
Auditory Scene Analysis (ASA)
• Probleem ASA:
•
Hoe kunnen we, vanuit de mix van door verschillende
bronnen geproduceerde signalen, de juiste combinatie
van informatie vinden, zodat er zinvolle mentale
representaties behorend bij één bron gereconstrueerd
kunnen worden?
Analogie visueel
Auditory Scene Analysis - 2
• Twee componenten proces (Bregman, 1990):
1. Primitieve processen voor auditory grouping:
partitie van de data
2. Schemagebaseerde processen waarbij de
benodigde evidentie, indien aanwezig, wordt
geselecteerd.
Eigenschappen:
Primitieve groepering
Schemagebaseerde groepering
-Algemeen
-Simpele, locale analyses
-Automatisch, niet
beïnvloed door aandacht
-Aangeboren
-Data-driven (bottom-up)
-Preliminary linking van
signaalcomponenten
-Domeinspecifiek
-Globale analyses
-Onder invloed van aandachtsprocessen
-Aangeleerd
-Hypothesis-driven (top-down)
-Description-building o.b.v.
grouping hypotheses
Primitieve ASA - 1
•
Relatie Gestalt psychologie:
– Continuïteit:
- Nabijheid (proximity) in tijd (t) of frequentie (f)
- Overeenkomst (similarity) o.b.v. pitch (F0), brightness,
timbre (formantpatroon), spatiële lokatie
– Common fate: Synchronisatie van veranderingen
- gecorreleerde amplitude- en/of frequentiemodulatie (AM, FM); micro-/macromodulatie
- gelijke onsets en/of offset;
– Belongingness/Exclusive allocation: sensorische evidentie
die is toegewezen aan een auditory stream, kan niet
tegelijkertijd een bijdrage leveren aan een andere stream;
Minder sterke variant: principe van noncontradictie.
– Simplicity: waargenomen structuur zo simpel mogelijk
– (Familiarity/Meaningfulness)
•
Scene Analysis interpretatie (ecologisch perspectief):
– Gerelateerd aan eigenschappen van de in de auditory scene
aanwezige bronnen en hun fysische beperkingen
– Sequentiële en simultane integratie in tijds- en
frequentiedomein
Primitieve ASA - 2
Gebruikte stimuli
• Short repeating loop:
– Verschillende frequentiegebieden
– Cumulation of evidence  forceren van groeperen
van kwalitatief gelijke tonen:
H—H—H—…
—L—L—L-…
– Beïnvloedende factoren, o.a.
- Snelheid: t (ISI, SOA)
- Frequentie-afstand: f  Trade-off
(Analogie visueel: bewegende stippen,
studentencollege I)
– Streaming effect: gevolg van automatische,
primitieve stream segregation processen?
– Fysiologische vs. functionele verklaringen:
- Habituatie pitch motion/jump-detectors
- Symmetrie/voorspelbaarheid van stimuli
• Tune + distractors:
– Frequentierelatie distractor – relevante tonen
– Camouflage  gevolg van primitieve ASA
– Indien melodie bekend, f veel kleiner
Aandachtseffecten - 1
•
Taak 1: Alle tonen als één stream proberen te horen
(coherentie) - Temporal coherence boundary (TCB: o)
 Gevolg van automatische en primitieve
organisatieprocessen
•
Taak 2: Selectie van één stream: focussen aandacht
(segregratie) - Fission boundary (FB: x)
 Limiet aandacht
•
Ambiguïteit neemt sterk toe bij afnemende t en
toenemende f
Aandachtseffecten - 2
•
Aanvankelijk: 1 stream (galloping rhythm);
na verloop van tijd: 2 streams
— H ——— H ——— H ——…
L — L — L — L — L — L —… (ritme 2x zo snel)
- mate van segregatie weer afhankelijk van f en t (TRT)
•
Carlyon et al. (2000):
21 sec., waarvan 1e 10 seconden auditieve
aandachtstaak: meer “1 stream” beoordelingen
 Selectieve aandacht bepalend voor segregatie
Auditory stream segregation
•
Groepering afhankelijk van context:
–
–
–
–
•
f A-B: continuïteit
Harmonische relatie complex B-C: harmoniciteitsprincipe
Onset en/of offset (a)synchronie B-C: common fate
Aanwezigheid toon D: retro-actief effect
Collaboratie en competitie van cues (?)
– Capturing van B door A i.p.v. complex B-C (old-plus-new
heuristiek); versterkt door evt. capturing van C door D
– Relatie principe van exclusive allocation;
echter, op niveau van beschrijvingen, niet voor de cues!
– Illusies a.g.v. tegenstrijdige/ambigue evidentie
 Simultane en sequentiële integratie niet onafhankelijk
Cues reflecteren forces of attraction die leiden tot mogelijke
links tussen signaalcomponenten (organisatiehypotheses)
N.B. Geen stricte partitie i.v.m. transparantie van geluid!
Masking Release
•
Comodulation Masking Release (CMR):
a.g.v. in amplitude comodulerende ruisbanden (niet voor FM)
•
Spatial release from masking:
bv. binaurale presentatie van ruis + monaurale presentatie van
target
•
Maskering gevolg van fysiologische beperking?
– Critical bandwidth (CBW)
– Relatie kritieke band - frequentieresolutie op BM
•
ASA: Gevolg van aanwezigheid cues m.b.t.
broninformatie
– Default: integratie
– Kruiscorrelatie informatie tussen verschillende
frequentiebanden
– Binnen frequentieband: tijdelijk verhoogde locale SNR
a.g.v. AM
Continuïteitsillusie
•
Laag-frequente ruisband continueert in B
– laat hoog-frequent residu achter: partitie van sensorische
data  old-plus-new
•
Toon A continueert door B
– Vereiste: ruisband B luid genoeg om A te kunnen
maskeren
•
Analogie in spraak:
– Foneemrestoratie / Picket-fence effect
Old-plus-new
•
Effecten van de grens tussen geluiden
– Maskering van discontinuiteit: geen evidentie voor stilte
(b), mogelijke maskering van offset A1/onset A2 (c)
– Voldoende neurale evidentie: neurale activatie (niet het
fysische signaal!) tijdens B niet te onderscheiden van
indien alleen A aanwezig (ambigu)
– Evidentie voor broncontinuiteit gereflecteerd in A1-A1
groupering: regels voor sequentiele integratie moeten
toepasbaar zijn
– Geen graduele overgang van A1 naar B naar A2 (e)
 Alle sensorische evidentie moet niet inconsistent zijn met
de mogelijke aanwezigheid van A tijdens de aanwezigheid van B: principe van noncontradictie
Interpolatie versus extrapolatie
•
•
Glides continueren achter de ruis
A.g.v. trajectory-following proces?
•
Afhankelijk van informatie ná ruis: grotere, temporele scope,
geen locale beslissingen
•
Simpelste verklaring van evidentie
•
Ruis over cross-over point:
waargenomen pitch lager dan te verwachten o.b.v.
extrapolatie; komt overeen met hoogste pitch van voor de ruis
Frequency proximity en
harmoniciteitsprincipe
•
•
(1) leidt tot twee streams: percept (2) en percept (3)
(4) leidt tot dezelfde streams als in afwezigheid van ruis,
gecombineerd met stream (5)
•
•
•
•
(A) Bouncing percept o.b.v. frequency proximity
(B) Bouncing percept o.b.v. frequency proximity
(C) Crossing percept o.b.v. harmoniciteit
(D) Bouncing percept o.b.v. frequency proximity en
harmoniciteit
Onafhankelijk van inhoud interval x: stilte, ruis, glides
•
Frequency proximity
• Interpretatie bouncing percept i.p.v. crossing percept
en afwezigheid trajectory-following proces tevens bij:
– (1) Discrete, constante tonen (steady tones)
– (2) Korte glides, met constante lengte, in richting van
trajectory, met overlap in tijd (constante lengte van de
glides wordt opgebroken op cross-over point)
– (3) Streams waarbij het ritme het traject bevoordeeld
– (4) Streams waarbij het ritme segregatie binnen beperkt
frequentiebereik bevoordeeld
Conclusie “primitieve” ASA - 1
•
“Continuïteitsillusie”
•
Voordeel van vergaren van evidentie over langer
tijdsbestek:
 “Compensatie” voor maskering
Bovendien: Evidentie ís aanwezig; niet echt een illusie
– Evidentie is alleen locaal ambigu, niet in globale context
Toepassingen (ASR):
– Low-quality vs. high-quality data
– Selective listening strategie: zwaarder wegen high-quality
data
– Missing-feature theory: negeren low-quality data
– Locale SNR in tijd én frequentie (niet over hele signaal en
over gehele spectrum)
Conclusie “primitieve” ASA -2
•
Onset B = offset A erg onwaarschijnlijk (old-plus-new)
•
Relatie psychofysica:
– Target detectie afhankelijk van duur en intensiteit:
temporeel integratie window
(afname temporele resolutie naarmate verder richting AC,
college II)
– Vb. Psychophysical overshoot: sterke toename AC respons
op target naarmate background stimulus langer aanwezig is
– Short-term adaptation: adaptatie aan constante input; bevat
geen informatie
– Belang van detectie van veranderingen: dynamische
aspecten benadrukken: events (bv. onset enhancement,
RASTA filtering)
Schemagebaseerde ASA
•
Schema = Cognitieve structuur (concreet/abstract):
“some control system in the human brain that is sensitive to
some frequently occurring pattern, either in the environment, in
ourselves, or in how the two interact”
–
–
–
–
–
•
Assimilatie:
–
–
•
Geschikt toepassen op een situatie; input-specifiek
Elk schema heeft eigen methoden voor het evalueren van
(transformaties van) sensorische evidentie om te bepalen of het
patroon waar het voor staat aanwezig is.
Constructief, matching:
–
•
Domeinspecifiek
Globaal: grotere temporele scope
Leereffect
Onder invloed van aandacht
Hypothesis-driven (“top-down”)
“Zoeken” naar bevestigende stimulatie in auditieve input
Dynamisch systeem:
– Bij geluiden tijdsdimensie van belang
– Temporele patronen, priming
Sequentiële integratie van spraak
•
•
Sterk geleerde vaardigheid
Opeenvolging van klanken:
verschillende fonemen kwalitatief verschillend, toch coherent
•
Cocktail-party effect:
gebruik maken van broneigenschappen als pitch, lokatie, timbre
 eigenschappen gelden binnen stream: resultaat van
segregatie? (vgl. ritme, volgorde)
Continuïteit in:
• F0/pitch contour
– bij stemhebbende spraak o.b.v. (quasi-) periodiciteit
(bv. klinkers)
– grotere scope: intonatiepatroon (taalspecifiek, melodie
inherent aan grammaticapatroon en betekenis)
•
Spatiële continuïteit:
– Bron blijft vaak op zelfde plaats en/of verandert relatief
langzaam van plaats
Sequentiële integratie spraak - 2
• Spectraal: formanten
– gevolg van filtering door stemkanaal (verandert niet
van ene op andere moment)
– meeste overgangen tussen spraakklanken “zichtbaar”
– integratie ruisige consonanten o.b.v. synchronisatie
van verandering dichtbij temporele boundary tussen
twee geluiden
(vb. click language)
– afwezigheid F0 continuiteit kan gecompenseerd
worden door formantcontinuiteiten: leveren
onafhankelijke bijdragen aan sequentiële integratie
(college I, bron-filter model)
• Hoe formanten te bepalen?
– Piekfrequentie? Geen directe eigenschap van de
formant zelf, maar abstracter: piek in spectraal
omhullende.
– Auditieve systeem: representatie van formanten en
FM sweeps (college II)
Formanttransities
1.
2.
3.
4.
Met transities: coherent
 Primitief trajectory following process?
Retro-actieve effecten: backward extrapolation
Continuïteitsbehoud: voorkomen plotselinge
discontinuïteiten
Niet gevolg van groepering binnen syllabe, maar
o.b.v. gelijkheid groeperen over syllabes.
Interpretatie van het signaal als een speech event:
o.b.v. articulatorische continuïteit
Simultane integratie van spraak
• Harmonische relaties en F0
– Patroonherkenningsmodellen:
“harmonic sieve”, spectrale templates
– Temporele pitchmodellen:
harmonische structuur is emergente eigenschap van
synchroon vuren met F0-periode;
=> groepering o.b.v. pitch(continuïteit) is dus ook emergent
=> belangrijke rol i.v.m. ruisrobuuste informatieverwerking
• Split-formant
– Gesynthetiseerde spraak:
zelfde vs. verschillende F0, monochotisch vs.
dichotisch
• Verschillende F0/dichotisch: 2 stemmen, één
foneem (o.b.v. fonetisch coherent percept)
• Tenzij competitie in groepering formanten voor
verschillende foneemidentiteit (F1-F2-F3, F1F3-F4): disambiguatie o.b.v. F0
• Duplex perceptie van spraak (studentencollege IV)
Sine wave speech
• Kennis over de dynamiek van spraak:
spectraal-temporele ontwikkeling van voor
spraakherkenning relevante features, zoals
formanttransities en –posities
– Vb. Sine-wave speech
– Abstract model van de onderliggende dynamiek van
het stemkanaal
ASA: voorlopige conclusies
• Belangrijkste aspecten:
– Continuïteit in:
• Pitchcontour (voor stemhebbende spraak) =
evenwijdig lopende, gelijktijdig veranderende,
harmonischen
- binnen beperkte pitchrange
- relatie neurale informatieverwerking:
synchroon vuren van harmonischen behorend bij
zelfde F0 => duidelijk onderscheidbare
perceptuele eenheid => invloed selectieve
aandacht
- versterkt door invloed van leren, “herkennen”
van harmonische patronen
• Articulatorische continuïteit: graduele
verandering in formantpatroon i.v.m.
beperkingen stemkanaal
- vocal tract dynamics
– Synchroniciteit van veranderingen
• Gelijktijdig beginnen (onset), veranderen, of
eindigen (offset) van signaalcomponenten
afkomstig van eenzelfde bron
• Relatieve timing van kwalitatief verschillende
geluiden t.o.v. elkaar
ASA: voorlopige conclusie
• Onderscheid primitief vs. schemagebaseerd
niet echt relevant, geeft vertekend beeld
– Selectie = (gedeeltelijke) herkenning, niet
scheiden!
– Globale context, selectieve aandacht en invloed
van leren altijd van belang om het resultaat van
de perceptuele verwerking (= het percept, de
waarneming waarvan we ons bewust worden)
te begrijpen.
Vb. Foneemrestoratie
– Tijdsschaal bewustzijn en informatieverwerking
niet gelijk.
Vb. Retro-actieve effecten (“The *eel was on the
axle/orange” , studentencollege IV)
Appendix: Psychofysica
•
•
•
•
•
•
•
•
Relatie fysische stimuli – perceptie/respons
(begin ?
- eind)
Beschrijving van verschijnselen
Voorspellen fysiologische mechanismen
 starting point voor fysiologisch onderzoek
Absolute/relatieve thresholds voor detectie
 gevoeligheid (sensitivity) vs. criterion-shift (bias),
(SDT)
Matching experimenten (bv. loudness matching)
Scaling: magnitude van ervaring i.r.t. stimulusintensiteit
Invloed verandering omgeving (bv. adaptatie: invloed op
detectie)
Identificatie van een stimulus: invloed recente
geschiedenis + ervaring met omgeving