PPT presentation
Download
Report
Transcript PPT presentation
התניה אופרנטית :IIמטרות והרגלים
מבוא ללמידה והתנהגות :התניה ומח
שעור 6
נושאים
• מה נכנס לאסוסיאציה אופרנטית? S-Rמול R-O
• המניפולציה הקריטיתdevaluation :
• סוגי devaluationוהשפעתם על התנהגות
– התנהגות הרגלית
– התנהגות מונחית מטרה
• Incentive learning
• מודל חישובי :איך כל זה מסתדר עם ,RLואיך המח מחליט
מתי לעבור ממערכת אחת לשניה?
• 'ניתוח מונחה מודל אסוציאטיבי' :הבסיס המוחי ללמידה
אופרנטית
ניתוח תאורטי של התניה אופרנטית
• תאוריה של למידה :מהן האסוסיאציות הנוצרות בעת
ההתניה? כיצד שינויים אלו משפיעים על ההתנהגות?
• שאלה חישובית 'מקבילה' :מהו המבנה החישובי הנלמד
והמהווה בסיס לקבלת החלטות בהתניה אופרנטית?
• חשוב :נרצה לבחון שאלה זו לגבי התניה אופרנטית .בעיה:
לא תמיד ברור מתי הסמיכות האופרנטית היא זו ששולטת
בהתנהגות .ריצה במבוך vsלחיצה על דוושה.
S-Rמול ( R-Oקלאסית מול אופרנטית)
• התניה כרכישת ידע אודות העולם:
– קלאסית :לימוד של אילו ארועים בעולם מנבאים חיזוקים
– אופרנטית :לימוד של אילו פעולות בעולם קשורות להופעת חיזוקים
• תאורטיקנים ראשונים ( :)Gutherie 1952, Hull 1943תאוריה אחת
לשתי ההתניות – S-R
.1בשני המקרים התגובה מקושרת לגירוי המקדים אותה
• קלאסית UR :מקושר לCS-
• אופרנטית R :מקושר ל SD-או לגירויי קונטקסט סביבתיים
.2בשני המקרים החיזוק עצמו אינו חלק מהאסוסיאציה
.3אבל :תאורית S-Rשל התניה אופרנטית מניחה שהארועים המקושרים ע"י
החיה שונים מאלו שבסמיכות הקריטית בניסוי
• אלטרנטיבה :תאוריות R-Oשל התניה אופרנטית (וקלאסית?)
()Tolman,Rescorla
S-Rמול :R-Oאיך נכריע?
• שאלה מרכזית :האם החיזוק הוא חלק מההתניה או לא?
– שינוי ערך ה/O -המוטיבציה ל O-לאחר ההתניה
– האם ההתנהגות תשתנה בהתאם?
• שינוי ערך ה :O-שלוש שיטות (לפחות)
– שינוי המצב המוטיבציוני של החיה (רעב ,צמא ,חסך מלח ,דחף מיני – ויש גם
אינטראקציות ביניהם)
– שובע ספציפי specific satiety -
– התנית אברסיה לחיזוק ()LiCl
• מתקשר לשני מרכיבי ערכו של חיזוק:
– - primary valueמושפע ממצב הדחפים/החסכים של החיה (הצרכים
הפנימיים)
– " - incentive valueערך התמריץ""/כח המשיכה" של החיזוק
• שימו לב :מה שונה ומה דומה בין סוגי המניפולציות?
הפרדיגמה: לאחר האימוןO-שינוי ערך ה
1 - Training:
3 – Test:
(extinction)
?
Unshifted
Non-devalued
2 – Pairing with illness:
2 – Motivational shift:
Hungry
?
Sated
?
התוצאות: לאחר האימוןO-שינוי ערך ה
LP: Short
training
LP: Extensive
training
Magazine
approach
response
rate
control devalued
control devalued
control devalued
אימון רב יוצר הרגלים
! רק עבור פעולות רחוקות מהחיזוק.. אבל
S-Rמול :R-Oשני סוגי התנהגות
• התנהגות מכוונת למטרה:
.1מתווכת ע"י אסוסיאצית ( R-Oאו )A-O
.2ה O-מהווה מטרה עבור החיה
– בעצם שני מבחנים :שינוי ערך ה O-או שינוי הסמיכות בין AלO-
• התנהגות הרגלית :לא תלויה בתוצאה אלא מבוצעת בגלל
נכחות הגירויים שהיו קיימים בעת שהפעולה נרכשה – S-R
(דוגמאות?)
– הגדרה על דרך השלילה
גורמים המשפיעים על יצירת הרגלים
•
•
•
•
אורך האימון
מרחק מהחיזוק
לוח החיזוקים (מהיר יותר בחיזוק חלקי ,מהיר יותר בלוחות
intervalבהשואה ל)ratio-
כמות הפעולות שמאמנים (שתי פעולות לשני חיזוקים שונים
– לא הופך להרגל)
סיבוך נוסף :התנהגות מונחית מטרה ולמידת תמריץ
• סיפור המסעדה בסוף הטיול
• התנהגות מונחית מטרה רגישה לערך המטרה רק בהנתן
אפשרות ל"-למידת תמריץ" ()incentive learning
incentive learning - למידת תמריץ
2. motivational
shift
use different food
Hungry
Sated
סיבוך נוסף :התנהגות מונחית מטרה ולמידת תמריץ
•
•
•
•
•
•
סיפור המסעדה בסוף הטיול
התנהגות מונחית מטרה רגישה לערך המטרה רק בהנתן
אפשרות ל"-למידת תמריץ" ()incentive learning
אולי זה הגיוני לגבי ( motivational shiftקשה להפריד בין
שני מרכיבי ערך החיזוק מדוגמא אחת) אבל – מה לגבי
התנית אברסיה?
סיפור האבטיח של טוני
ממצאים ניסויים מהתנית אברסיה בפעם אחת – Dickinson
מול Rescorla
ו ...הכי גרוע – כל זה לא תופס להתנהגות ,nose poke
שגם סווגה כמונחית מטרה
הפתרון של Dickinson + Balleine
• שלושה סוגי התנהגות:
.1הרגלית – לא רגישה לערך המטרה
.2מונחית מטרה – רגישה לערך המטרה רק אחרי למידת תמריץ
.3קלאסית – תמיד רגישה לערך המטרה ,ללא צורך בלמידת תמריץ
• אבל :תאוריה בעייתית
– חוסר קונסיסטנטיות בקבלת החלטות – אם המערכת הפבלובית
יודעת מה בדיוק ערך המטרה ,למה המערכת מונחית המטרה
'מתעלמת' מכך?
– לא ברור שבאמת התנהגות קלאסית רגישה ישירות לערך המטרה
– ניסוי שרשרת הפעולות האופרנטיות)1995( ...
Motivational control of heterogeneous instrumental
chains/ Balleine, Garner, Gonzalez and Dickinson 1995
•
•
•
•
חולדות רעבות מאומנות בקופסת סקינר ,ללא דלת על מחסנית המזון
לחיצה על דוושה ( )A1משיכת חבל ( )A2חיזוק ()O
לאחר האימון מחצית החולדות מועברות לשובע
:Test
• מוסיפים למידת תמריץ למחצית החולדות (ניסוי נפרד ,כולן נבחנות
שבעות)
• מה לגבי פשוט לחיצה על דוושה אבל בלי דלת על המחסנית?
לחיצה על דוושה – האם יש צורך בלמידת תמריץ?
• רגישות לערך המטרה תלויה
במיקום של הפעולה בשרשרת!
• שלושה הסברים במאמר:
– פרוקסימלי – S-Rרגיש ישירות
למוטיבציה (כמו הרגלים) (??)
– פרוקסימלי יותר פבלובי בשל
הקרבה ל( US-הדיסטלי מוצלל
ע"י גירויים פרוקסימלים ,ורחוק
מה ,US-ולכן פחות מותנה
קלאסית)
– ייצוג היררכי ) A1-(A2-Oכאשר
A1מהווה .SDהקרוב ( )A2רגיש
ישירות ,בעוד הרחוק היררכית אינו
הסבר אחרDaw, Niv, Dayan 2005 :
0
S3
2
4
S2
1
state
action
• מה תאוריות Reinforcement learningחישוביות אומרות על כל זה?
• הבעיה :קבלת החלטות אופטימלית
במקרה של שרשרת פעולות
Actor
(חיזוק בסוף השרשרת)
S A Policy
• דברנו רבות על שיטה אחת לפתרון
הבעיה :ללמוד ערכים למצבים/גירויים
TD
( )statesבעזרת טעויות ניבוי ,וללמוד
error
Critic
)δ(t
אסטרטגיה התנהגותית באמצעות אותן
S evaluation
Function
טעויות ניבוי .ממידע מקומי ניתן ללמוד
התנהגות אופטימלית לטווח רחוק.
r(t) - reward
Environment
S1
“If the only tool you have is a hammer, you tend to see every problem as a nail” - A. Maslow
Actor/Criticו TD-כלמידת S-R
מה יקרה אם:
• נשנה את ערך החיזוק?
• נשנה את מבנה המבוך?
0
S3
2
14
S1
S2
1
Actor/Criticו TD-כלמידת S-R
• למידת ערך Vלגירוי :מנותק מזהות ה US-עצמה
0
S3
2
4
S2
1
S1
• חשוב :ממיר הכל למטבע משותף בכדי להשוות ולבחור
אופצית פעולה אחת
• אבל :מאבד קשר ישיר ל .US/O-למשל ,אם החיה עכשיו
צמאה ולא רעבה ,איך תדע בכמה לשנות את הערכים
) ?V(S3) ,V(S2) ,V(S1ואיך תדע לשנות אסטרטגית
התנהגות?
אבל ...יש עוד דרכים לפתור את אותה בעיה
S0
• ניתן ללמוד מתוך נסיון ממש את
מבנה העץ
– One-step transitions
– Immediate outcomes
– Reward utilities
•
•
•
•
בזמן ההחלטה ניתן לעבור על העץ
('סימולציה') עד לנקודות הקצה ,כדי
לקבוע מה הערך (בטווח ארוך) של
כל פעולה
יתרון :גמיש ,רגיש לכל שינוי
חסרון :לרוב בלתי אפשרי בשל
הסיבוכיות של העץ (משחק שח)
פסיכולוגיה ,R-O :התנהגות מונחית
מטרה
initial
state
A2: approach
magazine
A1: press
lever
S2
S1
food
delivered
nothing
obtained
A1: press
lever
S2
food
delivered
A2: approach
magazine
food
obtained
r=1
שתי דרכים שונות לחישוב מה ערכה של פעולה
a Tree System
S0
b Cache System
S0
Initial state
Initial state
press
lever
approach
magazine
press
lever
Q=1
S1
S1
Food delivered
press
lever
S2
approach
magazine
R=0
Food delivered
press
lever
Q=0
No reward
S2
approach
magazine
Q=0
approach
magazine
Q=1
No reward
Q=0
S2
No reward
R=0
S3
Food obtained
R=1
S3
Food obtained
Q=1
לימוד העץ:
השוואה :פתרון בשיטת S-Rאו R-O
0
S3
2
4
1
S2
S1
S-R
• בחירת פעולה עם ערך מירבי:
)V(S1,L) = R(S1,L) + V(S2
)V(S1,R) = R(S1,R) + V(S3
• יתרונות :פשוט ללמוד את הערך
האופטימלי מתוך נסיון; קל מאוד
לבחור פעולה בהנתן הערכים
• חסרונות :גמישות מוגבלת (שינוי
ערך ה ,O-שינוי צורת המבוך)
R-O
R
L
R
L
S3
S2
R
L
S1
• יתרונות :גמישות מירבית
• חסרונות :קשה לחשב מה הערך
של כל פעולה בזמן אמת (מהר
מאוד יש יותר מדי אפשרויות)
באיזו דרך להשתמש מתי?
• הפתרון הנורמטיבי :להשתמש בכל שיטה במקום בו היא
טובה יותר = מדוייקת יותר
• עץ :טוב במצבים של מעט מידע (יעיל) וקרבה לחיזוק (ניתן
לחישוב)
• ערכים מאוחסנים :טובים לאחר למידה רבה ,ואז לא משנה
אם הם קרובים או רחוקים מהחיזוק (אין חיפוש איטרטיבי)
• ...מתאים לתוצאות של ניסויים לגבי התנהגות הרגלית
לעומת מונחית מטרה
שתי המערכות קיימות ופועלות במח במקביל
• פגיעות ב :dorsolateral striatum-התנהגות לא הופכת
להרגלית גם לאחר אימון ממושך (ממשיכה להיות רגישה
לערך החיזוק)
• פגיעות ב:dorsomedial striatum, prelimbic PFC-
התנהגות הרגלית כבר בתחילת האימון (לא רגישה לערך
החיזוק)
מעיד על שתי מערכות הפועלות במקביל ויכולות לשלוט
בהתנהגות בכל עת!
Killcross+Coutureau 2003
• אימון של שתי פעולות לשני חיזוקים (בנפרד) – אחד באימון
ארוך והשני בקצר
• Testלאחר שובע ספציפי
איך המח ידע מי המערכת המדוייקת יותר?
•
•
•
•
•
איך המח ידע על איזו מערכת לסמוך מתי?
הרעיון :כל מערכת תחשב ותדווח גם על מידת הבטחון שלה
()uncertainty
עץ :אי ודאות בשל רעש בחיפוש בעץ
ערכים מאוחסנים :אי ודאות בשל חוסר נסיון
המח יבחר להאמין למערכת בעלת
הבטחון הרב ביותר
tree
estimated
action
value
cache
• שימו לב:
– לא תמיד יבחר הערך הגבוה יותר
– (חוסר) קשר בין uncertaintyוrisk-
• בעבר uncertainty :שמש לקביעת קצב הלמידה (.)Kalman filter
כאן :שימוש נוסף – בחירה בין מערכות מקבילות
devaluation סימולציות של ניסויי
b
Cache
Tree
Rewarded
trials
Response rate
relative to non-devalued
Response rate
relative to non-devalued
Rewarded
trials
Non- Devalued
Non- Devalued
devalued
devalued
Proximal action
Uncertainty
Distal action
Uncertainty
a
Non- Devalued
devalued
Non- Devalued
devalued
מה לגבי למידת תמריץ?
•
•
•
•
שינוי ערך החיזוק :מעלה את אי הודאות של העץ (אך לא
את זו של המערכת ההרגלית)
אי ודאות גבוהה יותר בעץ המח בוחר במערכת ההרגלית
(אין רגישות לערך החדש של החיזוק)
אבל :בפעולות קרובות מאוד לחיזוק ( ,)nose pokeגם עם
אי הודאות הנוספת ,השליטה נותרת בידי העץ (המערכת
מונחית המטרה).
למידת תמריץ :מורידה חזרה את אי הודאות של העץ
המח בוחר במערכת מונחית המטרה גם בפעולות מרוחקות,
ורואים רגישות לערך החדש של החיזוק גם בלחיצת הדוושה
למידת תמריץ:סימולציה
Distal action
Proximal action
Cache
Tree
*
*
*
*
Action probability
*
*
Control
Shift
only
Shift +
Incentive
learning
Control
Shift
only
Shift +
Incentive
learning
Control
Shift
only
Shift +
Incentive
learning
הסבר חדש ללמידת תמריץ
• אין צורך להניח שלוש מערכות
• אין צורך להניח שהמערכת ה'חכמה' (מונחית המטרה) לא
יודעת מה ערך המטרה (בעוד מערכת אחרת כן יודעת!)
• אבל -מערכת אחת אכן מתעלמת ממשהו שהשניה יודעת
כתוצאה ממגבלות אלגוריתם החישוב!
התניה אופרנטית :איפה כל זה קורה?
• Balleineושות' – סדרת ניסויים נרחבת מונחית המודל של
שתי סוגי אסוסיאציות
• מבחנים :שינוי ערך החיזוק ,שינוי הסמיכות ,קצב הלמידה,
למידת אברסיה למזון ,למידה של שתי פעולות לשני
חיזוקים ,מבחן עם/בלי חיזוקים ,יכולת ללמוד שרשרת
פעולות
• פגיעות lesions :לפני ואחרי אימון ,אינאקטיבציה זמנית
בשלבי אימון/מבחן שונים...
הבסיס המוחי להתנהגות מונחית מטרה
• – pDMSקשור ללמידת ( A-Oפגיעה גוררת חוסר רגישות לערך החיזוק
וכן לסמיכות בין פעולה לחיזוק)
• אימון :שתי פעולות ושני חיזוקים ,לוח .ratioמבחן :שובע ספציפי ,סמיכות
)Yin et al (2005
הבסיס המוחי להתנהגות מונחית מטרה
• – mPFCקשור לרכישה (פגיעה לפני רכישה אך לא אחריה יוצרת
חוסר רגישות לערך המטרה)
• – BLAייצוג של ערך ה O-של פעולה
(רואים באימון של שני Aלשני )O
reacquisition
)Ostlund et al. (2005
הבסיס המוחי להתנהגות מונחית מטרה
•
•
•
•
•
היפוקמפוס – קשר סיבתי (דקלרטיבי?) בין פעולה לתוצאה (אין פגיעה
ברגישות לערך החיזוק ,אך כן ברגישות לסמיכות)
אימון של שתי פעולות לשני חיזוקים
מבחן שובע ספציפי
אימון בסמיכות מופחתת
מבחן בהכחדה
)Corbit + Balleine (2000
הבסיס המוחי להתנהגות הרגלית
• ( DLSאך לא – )DMSמעורב ביצירת אסוסיאצית S-R
–
–
–
–
–
קבוצותSham, DMS, DLS :
אימון VIממושך
CTA devaluation
כולם רוכשים לחיצה וCTA-
DLSמראים רגישות לערך
החיזוק בtest-
)Yin et al (2003
בסה"כ:
סיכום
• למידה אופרנטית אינה תופעה פשוטה עם מנגנון יחיד
• ההתנהגות נקבעת ע"י האינטראקציה בין מערכות למידה
וזכרון רבות ,חלקן משלימות וחלקן מתחרות
• שבוע הבא :האם המנגנונים האלו מתווכים גם למידה
קלאסית או שיש גם שם מנגנונים נפרדים נוספים?