PPT presentation
Download
Report
Transcript PPT presentation
התניה אופרנטית – חלק א'
מבוא ללמידה והתנהגות :התניה ומח
שעור 4
נושאים
• חובות מפעם קודמת:
– כמה מלים על חוק בייס וKalman filter-
– התניה קלאסית ובני אדם :טיפול בפוביות
•
•
•
•
•
ThorndikeוהLaw of Effect -
סוגי פרוצדורות בצעדים בדידים
Skinnerולוחות חיזוק
מודל – Actor Criticקשר ל ,TD-מימוש ברשת נוירונים
מימוש במח – תאוריה ,ומעשה (– fMRI
)Wightman+Phillips - FSCV ,O’Doherty+Dayan
אי ודאות והתניה קלאסית
• לכל ערך של גירוי מוצמד גם מידת בטחון ( )uncertaintyבערך.
הבטחון יורד ככל שעובר זמן מאז שהגירוי הוצג לאחרונה.
• מבחינת שילוב אופטימלי של מידע חדש עם ישן ,ככל שהבטחון
נמוך יותר ,נרצה להגביר את קצב הלמידה
• איך זה קשור לחוק בייס ולהסקה סטטיסטית אופטימלית?
חוק – Bayesהסקה סטטיסטית
• המטרה :לייצג אמונות על העולם
• אקסיומות :Coxאם מייצגים אמונות ע"י מספרים ממשיים,
הדרך היחידה לתפעל אותם ,שהיא סבירה וקונסיסטנטית,
היא ע"י חוק .Bayes
)P(b | a)P(a
P(a | b)
)P(b
)P( Vs | observatio ns ) P(observatio ns | Vs)P( Vs
• דרך אופטימלית (מבחינה סטטיסטית) לשלב בין הנחות
קודמות למידע חדש
• המון מחקר כיום מראה כי אנשים ובע"ח משתמשים בהסקה
בייסאנית (מע' מוטורית ,ויזואלית וכו') .עוד בסוף הקורס.
– Kalman filterהסקה סטטיסטית ותחרות
• במודל סטטיסטי מסויים של העולם (הילוך מקרי עם רעש
גאוסיאני של הערכים ,רעש גאוסיאני בתצפיות) ,ההסקה
הסטטיסטית האופטימלית (מהנצפה אל הערכים האמיתיים,
לפי חוק )Bayesהיא עפ"י :Kalman filter
) Vi ( t ) i ( t )( t
i2 Xi
i (t )
2
k Xk E
k
• כמודל של למידה קלאסית מגלם :קצב למידה תלוי בבטחון
היחסי; תחרות בין גירויים (לא כתוצאה ממחסור במשאבים!)
שימושי התניה קלאסית בבני אדם :טיפול בפוביות
•
•
•
•
•
•
•
רוב התגובות האמוציונליות שלנו נלמדות ,דרך התניה קלאסית
) – Watson+Rayner (1920בדקו תגובות של תינוקות לגירויים
שחשבו שהם מפחידים מלידה (אש ,חולדות ,כלבים) – אף אחד מהם
לא היה מפחיד .צליל חזק :כן.
ניסוי אלברט הקטן המפורסם (לא הגיע לסיומו)
פוביות :פחד בלתי פרופורציונלי לסכנה שבמצב .ל7-20% -
מהאוכלוסיה יש סימפטומים ,ב - 1% -פוביה חמורה הפוגעת בתפקוד.
תלמידה של Mary Jones :Watsonהשתמשה בהתניית נגד בכדי
לבטל התניית פחד.
התניית נגד :שילוב -CSים עם תגובות נוגדות .התהליך הדרגתי
כיום מקובל Systematic desensitization :במצב של רגיעה עמוקה
מעלים באופן הדרגתי גירויים יותר ויותר מפחידים
שימושים נוספים בהתניה קלאסית בבני אדם
•
•
•
•
מניעת אברסיה למזון בחולים המקבלים כמותרפיה ע"י
סוכריה מסויימת לפני הטיפול (תהיה אברסיה רק אליה)
פרסום :צימוד של המוצר ל US-המעורר תגובה רגשית
חיובית גורם ליחס חיובי יותר למוצר
:Conditioned immunosuppressionלטיפול בשלבקת
חוגרת ( ,)Lupusלמשל .התרופות גורמות לעיכוב מערכת
החיסון .צימוד של ( CSשמן עם טעם מסויים) עם התרופה
בהמשך ניתן לתת את השמן במקום התרופה ותתקבל
אותה תגובה חיסונית!
(אותו דבר אולי באלרגיות – אלרגיה נלמדת למראה פרחים,
ולא לאבקנים)
סיכום :התניה קלאסית
צימוד בין גירויים גורר (בתנאים מסויימים) למידה
ללא תלות בהתנהגות החיה – אך מתבטא בהתנהגות
(סרט)
נעבור עכשיו להתניה אופרנטית
תזכורת :שאלות חשובות
• באילו תנאים ישנה למידה (מה תפקיד החיזוק?)
• מה נכנס לאסוסיאציה הנוצרת?
• האם יש יותר מסוג אחד של למידה?
)Edward Thorndike (1874-1949
•
•
•
•
•
רקע :דרווין ,נסיונות להראות שבע"ח אינטליגנטים
הראשון שעשה זאת באופן סיסטמטי (לא אנקדוטות) .בגיל 23הגיש
תזת דוקטורטAnimal intelligence: An experimental study of :
the associative processes in animals
חתולים רעבים ב( Puzzle boxes-גם כלבים ,אפרוחים)
הגדרה אופרציונלית ללמידה :זמן עד
החלצות
עקומת למידה :הדרגתית .לא נראה
כמו insightאלא ניסוי וטעיה (הצלחה).
Law of Effect
• החיזוק "מקבע" ) (stamps inקשר בין הגירויים לפעולות
מסוימות ,ולא אחרות)satisfiers vs. annoyers( .
•
•
•
•
אין צורך להניח אינטליגנציה
נוספת (אין חיקוי) ,או למידה
מתוך תובנה/הבנת סיבתיות
תהליך אוטומטי (ברגע שיש
לחיה מטרה)
גם :ניסויי הכללה ,אבחנה
אנקדוטה (אבחנה):
”“I must feed those cats
”“I will not feed them
תפקיד החיזוק עפ"י Thorndike
• רק ,stamping inאך לא חלק מהאסוסיאציה S-R
• תפקיד רק בלמידה הופך בסוף להרגל ולא תלוי יותר
בחיזוק (לא חקר/הסביר הכחדה כלל)
• כנ"ל תפקיד המוטיבציה – חיונית ללמידה ,לא לביצוע
(סרט)
התניה אופרנטית/אינסטרומנטלית
• מקור השם (פעולה רצונית על הסביבה; משיגה מטרה)
• תגובות נחקרות :ריצה במבוך ,לחיצה על דוושה/מקש,key/
משיכת חבל ,וכו'
• סוגי פרוצדורות:
השמטה
Omission
חיזוק חיובי
Reward
אפטטיבי
עונש
חיזוק שלילי
Escape/
avoidance
אברסיבי
• ניתן עם כל USלהגביר או להוריד תגובה! בשונה מהתניה
קלאסית – לטבע החיזוק אין השפעה אוטומטית על התגובה
מספר גורמים המשפיעים על הביצוע
• מוטיבציה ( – )driveמשפיע גם על למידה וגם על ביצוע
(נפרט יותר בהמשך הקורס)
• גודל החיזוק (גם :אפקט קונטרסט וכו')
• עיכוב החיזוק .הסברים אפשריים:
– תגובות מתערבות בזמן הdelay-
– ערך החיזוק מוקטן (חיות מעדיפות חיזוק מיידי על מעוכב)
• חיזוק חלקי ( PRFלעומת – )CRFנפוץ מאוד בחיים .סדר
רנדומלי :ריצה מהירה אחרי צעד מחוזק ,איטית אחרי לא
מחוזק .בסדר קבוע (דוג' – לסירוגין) בהדרגה לומדים את
החוקיות.
(החיזוק גם יכול לספק מידע .איך נראה שהחיה
משתמשת בזכרון הצעד הקודם לקביעת תגובתה?)
Free operant training: B.F. Skinner
•
•
•
•
•
•
•
בהביוריסט1904-1990 ,
( – Watsonאבי הבהביוריזם – שלל מנטליזם)
(The behavior of organisms )1938
טען שפסיכולוגיה צריכה להתבסס רק על מה
שניתן למדוד .מדע תאורי ולא תאורטי.black box ,
האמין שמלבד מעט רפלקסים כל ההתנהגות היא נלמדת
דיבר על עיצוב התנהגות ע"י חיזוקים .הבנת התנהגות =
ניבוי ושליטה בה ( functional analysisשל התנהגות –
הסברים מנטליסטים חסרי ערך ניבויי ושליטתי).
נגד – S-Rלא ברור מה ה ,S-וכן – למה להניח שנוצרים
קשרים תאורטים היפותטים?
Schedules of reinforcement
בקופסת סקינרFree operant • אימון
:• לוחות חיזוק
Fixed ratio (FR)
Fixed interval (FI)
Variable ratio (VR)
Variable interval (VI)
RR/RI :תוספת מאוחרת
...DRL, DRH :לוחות מורכבים
–
–
–
–
–
–
) – עודoccasion setter( SD • כמו כן – גירוי מבחין
גירוי שאינו מעורר תגובה בעצמו אלא,S-R-התנגדות ל
מעיד על כדאיות של תגובה
מבחינה מעשית – אימון
•
•
•
•
•
•
•
•
Pretraining
Shaping
()superstitious behaviors
יש תגובות שקל יותר ללמד כי הסמיכות הקלאסית מסייעת
להם (ניקור ביונים) ויש להיפך.
מתחילים תמיד עם CRF
Ratioמייצר תגובות מהירות יותר מ)yoked( interval-
Intervalקל יותר ללמד מ( ratio-בייחוד גבוהים)
מסובך לנתח את ההתנהגות בלוחות אלו :הרבה התיאשו.
נחזור לכך בעוד שני שעורים.
הרחבת TDלהתניה אופרנטיתActor Critic :
0
S3
2
4
S2
1
S1
• - S3אם בוחרים חצי מהפעמים שמאל ,V(S3) = 1 ,אבל:
– בכל בחירה של שמאל תהיה טעות ניבוי חיובית (קבל יותר
מהצפוי)
– בכל בחירה של ימין תהיה טעות ניבוי שלילית (קבל פחות מהצפוי)
אם החיה תבחר יותר פעמים את הפעולה שיצרה טעות
ניבוי חיובית ,ההתנהגות תהיה יותר אופטימלית
אותו דבר בדיוק ב S2-ו – S1-תכנון אופטימלי לטווח ארוך!
לא רק למידת ניבוי אלא גם שליטה:TD
1s1 wsa
Actor
Critic
V(t) - Value
Function
TD
error
δ(t)
r(t) - reward
Environment
s2
a2
s3
a3
2
4
S3
S1
Positive prediction error: Things
are better than expected
action
state
Policy
a1 S
2
s1
s2
s3
wsv
→update value of state
V
→update
policy (prob. of action)
Negative prediction error: Things
are worse than expected
→update value of state
→update policy
0
: במחActor-Critic
דופמין:טעות ניבוי
dorsolateral striatum :Actor
ventral striatum (NAC) :Critic
)(שני מסלולים דופמינרגים
•
•
•
•
הרבה עדויות :דוגמא -
•
•
•
•
O’Doherty et al. 2004
שני סוגי צעדיםrewarding; neutral :
בכל צעד :שני גירויים ()High – 60%, Low – 30%
קבוצה – 1בוחרת גירויים (התניה אינסטרומנטלית) – אכן
רואים העדפה ל High-בצעדי ,rewardאך לא בצעדי
neutral
קבוצה ( Yoked – 2התניה קלאסית) ,מצביעים רק על הצד
שהמחשב בחר (מדד ללמידה – )RT
(מדוע תכננו כך את הניסוי ,מנקודת מבט של טעויות ניבוי?)
הרבה עדויות :דוגמא -
O’Doherty et al. 2004
• – (NAC) Ventral striatumקורלציה עם PEבשתי המטלות:
• – Dorsal striatumקורלציה עם PEרק במטלה
האינסטרומנטלית:
Roitman et al. 2004
- דוגמא:הרבה עדויות
Fast scan cyclic voltammetry in striatum
Cue elicited lever-pressing for sucrose at peak of DA burst
Cues elicit DA burst in trained but
not untrained rats
Corticostriatal synapses: 3 factor learning
Stimulus
Representation
X1
X2
X3
XN
V1
V2
V3
VN
Cortex
Adjustable
Connections
(“weights”)
PPTN?
R
P
VTA/SNc
Striatum
Prediction
Error (Dopamine)
:קריאה נוספת
דוגמאות לחיזוקים שליליים וללוחות חיזוק – באתר
-קיצור תולדות הבהביוריזם
http://www.biozentrum.uniwuerzburg.de/genetics/behavior/learning/behaviorism.html
מאמר קצר של סקינר על אמונות תפלות ביונים
http://psychclassics.yorku.ca/Skinner/Pigeon
- )ביוגרפיה קצרה של סקינר (נכתבה ע"י בתו
http://www.bfskinner.org/bio.asp
- סקינר על התנהגות אופרנטית
http://www.bfskinner.org/Operant.asp
- ועוד סיכום טוב על האיש ופועלו
http://www.ship.edu/~cgboeree/skinner.html
•
•
•
•
•
•