PPT presentation

Download Report

Transcript PPT presentation

‫התניה אופרנטית – חלק א'‬
‫מבוא ללמידה והתנהגות‪ :‬התניה ומח‬
‫שעור ‪4‬‬
‫נושאים‬
‫• חובות מפעם קודמת‪:‬‬
‫– כמה מלים על חוק בייס ו‪Kalman filter-‬‬
‫– התניה קלאסית ובני אדם‪ :‬טיפול בפוביות‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪ Thorndike‬וה‪Law of Effect -‬‬
‫סוגי פרוצדורות בצעדים בדידים‬
‫‪ Skinner‬ולוחות חיזוק‬
‫מודל ‪ – Actor Critic‬קשר ל‪ ,TD-‬מימוש ברשת נוירונים‬
‫מימוש במח – תאוריה‪ ,‬ומעשה (‪– fMRI‬‬
‫‪)Wightman+Phillips - FSCV ,O’Doherty+Dayan‬‬
‫אי ודאות והתניה קלאסית‬
‫• לכל ערך של גירוי מוצמד גם מידת בטחון (‪ )uncertainty‬בערך‪.‬‬
‫הבטחון יורד ככל שעובר זמן מאז שהגירוי הוצג לאחרונה‪.‬‬
‫• מבחינת שילוב אופטימלי של מידע חדש עם ישן‪ ,‬ככל שהבטחון‬
‫נמוך יותר‪ ,‬נרצה להגביר את קצב הלמידה‬
‫• איך זה קשור לחוק בייס ולהסקה סטטיסטית אופטימלית?‬
‫חוק ‪ – Bayes‬הסקה סטטיסטית‬
‫• המטרה‪ :‬לייצג אמונות על העולם‬
‫• אקסיומות ‪ :Cox‬אם מייצגים אמונות ע"י מספרים ממשיים‪,‬‬
‫הדרך היחידה לתפעל אותם‪ ,‬שהיא סבירה וקונסיסטנטית‪,‬‬
‫היא ע"י חוק ‪.Bayes‬‬
‫)‪P(b | a)P(a‬‬
‫‪P(a | b) ‬‬
‫)‪P(b‬‬
‫)‪P( Vs | observatio ns )  P(observatio ns | Vs)P( Vs‬‬
‫• דרך אופטימלית (מבחינה סטטיסטית) לשלב בין הנחות‬
‫קודמות למידע חדש‬
‫• המון מחקר כיום מראה כי אנשים ובע"ח משתמשים בהסקה‬
‫בייסאנית (מע' מוטורית‪ ,‬ויזואלית וכו')‪ .‬עוד בסוף הקורס‪.‬‬
‫‪ – Kalman filter‬הסקה סטטיסטית ותחרות‬
‫• במודל סטטיסטי מסויים של העולם (הילוך מקרי עם רעש‬
‫גאוסיאני של הערכים‪ ,‬רעש גאוסיאני בתצפיות)‪ ,‬ההסקה‬
‫הסטטיסטית האופטימלית (מהנצפה אל הערכים האמיתיים‪,‬‬
‫לפי חוק ‪ )Bayes‬היא עפ"י ‪:Kalman filter‬‬
‫) ‪Vi ( t )  i ( t )( t‬‬
‫‪i2 Xi‬‬
‫‪i (t ) ‬‬
‫‪2‬‬
‫‪  k Xk  E‬‬
‫‪k‬‬
‫• כמודל של למידה קלאסית מגלם‪ :‬קצב למידה תלוי בבטחון‬
‫היחסי; תחרות בין גירויים (לא כתוצאה ממחסור במשאבים!)‬
‫שימושי התניה קלאסית בבני אדם‪ :‬טיפול בפוביות‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫רוב התגובות האמוציונליות שלנו נלמדות‪ ,‬דרך התניה קלאסית‬
‫)‪ – Watson+Rayner (1920‬בדקו תגובות של תינוקות לגירויים‬
‫שחשבו שהם מפחידים מלידה (אש‪ ,‬חולדות‪ ,‬כלבים) – אף אחד מהם‬
‫לא היה מפחיד‪ .‬צליל חזק‪ :‬כן‪.‬‬
‫ניסוי אלברט הקטן המפורסם (לא הגיע לסיומו)‬
‫פוביות‪ :‬פחד בלתי פרופורציונלי לסכנה שבמצב‪ .‬ל‪7-20% -‬‬
‫מהאוכלוסיה יש סימפטומים‪ ,‬ב‪ - 1% -‬פוביה חמורה הפוגעת בתפקוד‪.‬‬
‫תלמידה של ‪ Mary Jones :Watson‬השתמשה בהתניית נגד בכדי‬
‫לבטל התניית פחד‪.‬‬
‫התניית נגד‪ :‬שילוב ‪-CS‬ים עם תגובות נוגדות‪ .‬התהליך הדרגתי‬
‫כיום מקובל‪ Systematic desensitization :‬במצב של רגיעה עמוקה‬
‫מעלים באופן הדרגתי גירויים יותר ויותר מפחידים‬
‫שימושים נוספים בהתניה קלאסית בבני אדם‬
‫•‬
‫•‬
‫•‬
‫•‬
‫מניעת אברסיה למזון בחולים המקבלים כמותרפיה ע"י‬
‫סוכריה מסויימת לפני הטיפול (תהיה אברסיה רק אליה)‬
‫פרסום‪ :‬צימוד של המוצר ל‪ US-‬המעורר תגובה רגשית‬
‫חיובית גורם ליחס חיובי יותר למוצר‬
‫‪ :Conditioned immunosuppression‬לטיפול בשלבקת‬
‫חוגרת (‪ ,)Lupus‬למשל‪ .‬התרופות גורמות לעיכוב מערכת‬
‫החיסון‪ .‬צימוד של ‪( CS‬שמן עם טעם מסויים) עם התרופה‬
‫‪ ‬בהמשך ניתן לתת את השמן במקום התרופה ותתקבל‬
‫אותה תגובה חיסונית!‬
‫(אותו דבר אולי באלרגיות – אלרגיה נלמדת למראה פרחים‪,‬‬
‫ולא לאבקנים)‬
‫סיכום‪ :‬התניה קלאסית‬
‫צימוד בין גירויים גורר (בתנאים מסויימים) למידה‬
‫ללא תלות בהתנהגות החיה – אך מתבטא בהתנהגות‬
‫(סרט)‬
‫נעבור עכשיו להתניה אופרנטית‬
‫תזכורת‪ :‬שאלות חשובות‬
‫• באילו תנאים ישנה למידה (מה תפקיד החיזוק?)‬
‫• מה נכנס לאסוסיאציה הנוצרת?‬
‫• האם יש יותר מסוג אחד של למידה?‬
‫)‪Edward Thorndike (1874-1949‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫רקע‪ :‬דרווין‪ ,‬נסיונות להראות שבע"ח אינטליגנטים‬
‫הראשון שעשה זאת באופן סיסטמטי (לא אנקדוטות)‪ .‬בגיל ‪ 23‬הגיש‬
‫תזת דוקטורט‪Animal intelligence: An experimental study of :‬‬
‫‪the associative processes in animals‬‬
‫חתולים רעבים ב‪( Puzzle boxes-‬גם כלבים‪ ,‬אפרוחים)‬
‫הגדרה אופרציונלית ללמידה‪ :‬זמן עד‬
‫החלצות‬
‫עקומת למידה‪ :‬הדרגתית‪ .‬לא נראה‬
‫כמו ‪ insight‬אלא ניסוי וטעיה (הצלחה)‪.‬‬
‫‪Law of Effect‬‬
‫• החיזוק "מקבע" )‪ (stamps in‬קשר בין הגירויים לפעולות‬
‫מסוימות‪ ,‬ולא אחרות‪)satisfiers vs. annoyers( .‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫אין צורך להניח אינטליגנציה‬
‫נוספת (אין חיקוי)‪ ,‬או למידה‬
‫מתוך תובנה‪/‬הבנת סיבתיות‬
‫תהליך אוטומטי (ברגע שיש‬
‫לחיה מטרה)‬
‫גם‪ :‬ניסויי הכללה‪ ,‬אבחנה‬
‫אנקדוטה (אבחנה)‪:‬‬
‫”‪“I must feed those cats‬‬
‫”‪“I will not feed them‬‬
‫תפקיד החיזוק עפ"י ‪Thorndike‬‬
‫• רק ‪ ,stamping in‬אך לא חלק מהאסוסיאציה ‪S-R ‬‬
‫• תפקיד רק בלמידה ‪ ‬הופך בסוף להרגל ולא תלוי יותר‬
‫בחיזוק (לא חקר‪/‬הסביר הכחדה כלל)‬
‫• כנ"ל תפקיד המוטיבציה – חיונית ללמידה‪ ,‬לא לביצוע‬
‫(סרט)‬
‫התניה אופרנטית‪/‬אינסטרומנטלית‬
‫• מקור השם (פעולה רצונית על הסביבה; משיגה מטרה)‬
‫• תגובות נחקרות‪ :‬ריצה במבוך‪ ,‬לחיצה על דוושה‪/‬מקש‪,key/‬‬
‫משיכת חבל‪ ,‬וכו'‬
‫• סוגי פרוצדורות‪:‬‬
‫‪‬‬
‫‪‬‬
‫השמטה‬
‫‪Omission‬‬
‫חיזוק חיובי‬
‫‪Reward‬‬
‫אפטטיבי‬
‫עונש‬
‫חיזוק שלילי‬
‫‪Escape/‬‬
‫‪avoidance‬‬
‫אברסיבי‬
‫• ניתן עם כל ‪ US‬להגביר או להוריד תגובה! בשונה מהתניה‬
‫קלאסית – לטבע החיזוק אין השפעה אוטומטית על התגובה‬
‫מספר גורמים המשפיעים על הביצוע‬
‫• מוטיבציה (‪ – )drive‬משפיע גם על למידה וגם על ביצוע‬
‫(נפרט יותר בהמשך הקורס)‬
‫• גודל החיזוק (גם‪ :‬אפקט קונטרסט וכו')‬
‫• עיכוב החיזוק‪ .‬הסברים אפשריים‪:‬‬
‫– תגובות מתערבות בזמן ה‪delay-‬‬
‫– ערך החיזוק מוקטן (חיות מעדיפות חיזוק מיידי על מעוכב)‬
‫• חיזוק חלקי (‪ PRF‬לעומת ‪ – )CRF‬נפוץ מאוד בחיים‪ .‬סדר‬
‫רנדומלי‪ :‬ריצה מהירה אחרי צעד מחוזק‪ ,‬איטית אחרי לא‬
‫מחוזק‪ .‬בסדר קבוע (דוג' – לסירוגין) בהדרגה לומדים את‬
‫החוקיות‪.‬‬
‫(‪‬החיזוק גם יכול לספק מידע‪ .‬איך נראה שהחיה‬
‫משתמשת בזכרון הצעד הקודם לקביעת תגובתה?)‬
‫‪Free operant training: B.F. Skinner‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫בהביוריסט‪1904-1990 ,‬‬
‫(‪ – Watson‬אבי הבהביוריזם – שלל מנטליזם)‬
‫(‪The behavior of organisms )1938‬‬
‫טען שפסיכולוגיה צריכה להתבסס רק על מה‬
‫שניתן למדוד‪ .‬מדע תאורי ולא תאורטי‪.black box ,‬‬
‫האמין שמלבד מעט רפלקסים כל ההתנהגות היא נלמדת‬
‫דיבר על עיצוב התנהגות ע"י חיזוקים‪ .‬הבנת התנהגות =‬
‫ניבוי ושליטה בה (‪ functional analysis‬של התנהגות –‬
‫הסברים מנטליסטים חסרי ערך ניבויי ושליטתי)‪.‬‬
‫נגד ‪ – S-R‬לא ברור מה ה‪ ,S-‬וכן – למה להניח שנוצרים‬
‫קשרים תאורטים היפותטים?‬
Schedules of reinforcement
‫ בקופסת סקינר‬Free operant ‫• אימון‬
:‫• לוחות חיזוק‬
Fixed ratio (FR)
Fixed interval (FI)
Variable ratio (VR)
Variable interval (VI)
RR/RI :‫תוספת מאוחרת‬
...DRL, DRH :‫לוחות מורכבים‬
–
–
–
–
–
–
‫) – עוד‬occasion setter( SD ‫• כמו כן – גירוי מבחין‬
‫ גירוי שאינו מעורר תגובה בעצמו אלא‬,S-R-‫התנגדות ל‬
‫מעיד על כדאיות של תגובה‬
‫מבחינה מעשית – אימון‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪Pretraining‬‬
‫‪Shaping‬‬
‫(‪)superstitious behaviors‬‬
‫יש תגובות שקל יותר ללמד כי הסמיכות הקלאסית מסייעת‬
‫להם (ניקור ביונים) ויש להיפך‪.‬‬
‫מתחילים תמיד עם ‪CRF‬‬
‫‪ Ratio‬מייצר תגובות מהירות יותר מ‪)yoked( interval-‬‬
‫‪ Interval‬קל יותר ללמד מ‪( ratio-‬בייחוד גבוהים)‬
‫מסובך לנתח את ההתנהגות בלוחות אלו‪ :‬הרבה התיאשו‪.‬‬
‫נחזור לכך בעוד שני שעורים‪.‬‬
‫הרחבת ‪ TD‬להתניה אופרנטית‪Actor Critic :‬‬
‫‪0‬‬
‫‪S3‬‬
‫‪2‬‬
‫‪4‬‬
‫‪S2‬‬
‫‪1‬‬
‫‪S1‬‬
‫• ‪ - S3‬אם בוחרים חצי מהפעמים שמאל‪ ,V(S3) = 1 ,‬אבל‪:‬‬
‫– בכל בחירה של שמאל תהיה טעות ניבוי חיובית (קבל יותר‬
‫מהצפוי)‬
‫– בכל בחירה של ימין תהיה טעות ניבוי שלילית (קבל פחות מהצפוי)‬
‫‪ ‬אם החיה תבחר יותר פעמים את הפעולה שיצרה טעות‬
‫ניבוי חיובית‪ ,‬ההתנהגות תהיה יותר אופטימלית‬
‫‪ ‬אותו דבר בדיוק ב‪ S2-‬ו‪ – S1-‬תכנון אופטימלי לטווח ארוך!‬
‫ לא רק למידת ניבוי אלא גם שליטה‬:TD
1s1 wsa
Actor
Critic
V(t) - Value
Function
TD
error
δ(t)
r(t) - reward
Environment
s2
a2
s3
a3
2
4
S3
S1
Positive prediction error: Things
are better than expected
action
state
Policy
a1 S
2
s1
s2
s3
wsv
→update value of state
V
→update
policy (prob. of action)
Negative prediction error: Things
are worse than expected
→update value of state
→update policy
0
:‫ במח‬Actor-Critic
‫ דופמין‬:‫טעות ניבוי‬
dorsolateral striatum :Actor
ventral striatum (NAC) :Critic
)‫(שני מסלולים דופמינרגים‬
•
•
•
•
‫הרבה עדויות‪ :‬דוגמא ‪-‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪O’Doherty et al. 2004‬‬
‫שני סוגי צעדים‪rewarding; neutral :‬‬
‫בכל צעד‪ :‬שני גירויים (‪)High – 60%, Low – 30%‬‬
‫קבוצה ‪ – 1‬בוחרת גירויים (התניה אינסטרומנטלית) – אכן‬
‫רואים העדפה ל‪ High-‬בצעדי ‪ ,reward‬אך לא בצעדי‬
‫‪neutral‬‬
‫קבוצה ‪( Yoked – 2‬התניה קלאסית)‪ ,‬מצביעים רק על הצד‬
‫שהמחשב בחר (מדד ללמידה – ‪)RT‬‬
‫(מדוע תכננו כך את הניסוי‪ ,‬מנקודת מבט של טעויות ניבוי?)‬
‫הרבה עדויות‪ :‬דוגמא ‪-‬‬
‫‪O’Doherty et al. 2004‬‬
‫• ‪ – (NAC) Ventral striatum‬קורלציה עם ‪ PE‬בשתי המטלות‪:‬‬
‫• ‪ – Dorsal striatum‬קורלציה עם ‪ PE‬רק במטלה‬
‫האינסטרומנטלית‪:‬‬
Roitman et al. 2004
- ‫ דוגמא‬:‫הרבה עדויות‬
Fast scan cyclic voltammetry in striatum
Cue elicited lever-pressing for sucrose at peak of DA burst
Cues elicit DA burst in trained but
not untrained rats
Corticostriatal synapses: 3 factor learning
Stimulus
Representation
X1
X2
X3
XN
V1
V2
V3
VN
Cortex
Adjustable
Connections
(“weights”)
PPTN?
R
P
VTA/SNc
Striatum
Prediction
Error (Dopamine)
:‫קריאה נוספת‬
‫דוגמאות לחיזוקים שליליים וללוחות חיזוק – באתר‬
-‫קיצור תולדות הבהביוריזם‬
http://www.biozentrum.uniwuerzburg.de/genetics/behavior/learning/behaviorism.html
‫מאמר קצר של סקינר על אמונות תפלות ביונים‬
http://psychclassics.yorku.ca/Skinner/Pigeon
- )‫ביוגרפיה קצרה של סקינר (נכתבה ע"י בתו‬
http://www.bfskinner.org/bio.asp
- ‫סקינר על התנהגות אופרנטית‬
http://www.bfskinner.org/Operant.asp
- ‫ועוד סיכום טוב על האיש ופועלו‬
http://www.ship.edu/~cgboeree/skinner.html
•
•
•
•
•
•