PPT presentation

Download Report

Transcript PPT presentation

‫התניה אופרנטית ‪ :II‬מטרות והרגלים‬
‫מבוא ללמידה והתנהגות‪ :‬התניה ומח‬
‫שעור ‪6‬‬
‫נושאים‬
‫• מה נכנס לאסוסיאציה אופרנטית? ‪ S-R‬מול ‪R-O‬‬
‫• המניפולציה הקריטית‪devaluation :‬‬
‫• סוגי ‪ devaluation‬והשפעתם על התנהגות‬
‫– התנהגות הרגלית‬
‫– התנהגות מונחית מטרה‬
‫• ‪Incentive learning‬‬
‫• מודל חישובי‪ :‬איך כל זה מסתדר עם ‪ ,RL‬ואיך המח מחליט‬
‫מתי לעבור ממערכת אחת לשניה?‬
‫• 'ניתוח מונחה מודל אסוציאטיבי'‪ :‬הבסיס המוחי ללמידה‬
‫אופרנטית‬
‫ניתוח תאורטי של התניה אופרנטית‬
‫• תאוריה של למידה‪ :‬מהן האסוסיאציות הנוצרות בעת‬
‫ההתניה? כיצד שינויים אלו משפיעים על ההתנהגות?‬
‫• שאלה חישובית 'מקבילה'‪ :‬מהו המבנה החישובי הנלמד‬
‫והמהווה בסיס לקבלת החלטות בהתניה אופרנטית?‬
‫• חשוב‪ :‬נרצה לבחון שאלה זו לגבי התניה אופרנטית‪ .‬בעיה‪:‬‬
‫לא תמיד ברור מתי הסמיכות האופרנטית היא זו ששולטת‬
‫בהתנהגות‪ .‬ריצה במבוך ‪ vs‬לחיצה על דוושה‪.‬‬
‫‪ S-R‬מול ‪( R-O‬קלאסית מול אופרנטית)‬
‫• התניה כרכישת ידע אודות העולם‪:‬‬
‫– קלאסית‪ :‬לימוד של אילו ארועים בעולם מנבאים חיזוקים‬
‫– אופרנטית‪ :‬לימוד של אילו פעולות בעולם קשורות להופעת חיזוקים‬
‫• תאורטיקנים ראשונים (‪ :)Gutherie 1952, Hull 1943‬תאוריה אחת‬
‫לשתי ההתניות – ‪S-R‬‬
‫‪ .1‬בשני המקרים התגובה מקושרת לגירוי המקדים אותה‬
‫• קלאסית‪ UR :‬מקושר ל‪CS-‬‬
‫• אופרנטית‪ R :‬מקושר ל‪ SD-‬או לגירויי קונטקסט סביבתיים‬
‫‪ .2‬בשני המקרים החיזוק עצמו אינו חלק מהאסוסיאציה‬
‫‪ .3‬אבל‪ :‬תאורית ‪ S-R‬של התניה אופרנטית מניחה שהארועים המקושרים ע"י‬
‫החיה שונים מאלו שבסמיכות הקריטית בניסוי‬
‫• אלטרנטיבה‪ :‬תאוריות ‪ R-O‬של התניה אופרנטית (וקלאסית?)‬
‫(‪)Tolman,Rescorla‬‬
‫‪ S-R‬מול ‪ :R-O‬איך נכריע?‬
‫• שאלה מרכזית‪ :‬האם החיזוק הוא חלק מההתניה או לא?‬
‫– שינוי ערך ה‪/O -‬המוטיבציה ל‪ O-‬לאחר ההתניה‬
‫– האם ההתנהגות תשתנה בהתאם?‬
‫• שינוי ערך ה‪ :O-‬שלוש שיטות (לפחות)‬
‫– שינוי המצב המוטיבציוני של החיה (רעב‪ ,‬צמא‪ ,‬חסך מלח‪ ,‬דחף מיני – ויש גם‬
‫אינטראקציות ביניהם)‬
‫– שובע ספציפי ‪specific satiety -‬‬
‫– התנית אברסיה לחיזוק (‪)LiCl‬‬
‫• מתקשר לשני מרכיבי ערכו של חיזוק‪:‬‬
‫– ‪ - primary value‬מושפע ממצב הדחפים‪/‬החסכים של החיה (הצרכים‬
‫הפנימיים)‬
‫– ‪" - incentive value‬ערך התמריץ"‪"/‬כח המשיכה" של החיזוק‬
‫• שימו לב‪ :‬מה שונה ומה דומה בין סוגי המניפולציות?‬
‫ הפרדיגמה‬:‫ לאחר האימון‬O-‫שינוי ערך ה‬
1 - Training:
3 – Test:
(extinction)
?
Unshifted
Non-devalued
2 – Pairing with illness:
2 – Motivational shift:
Hungry
?
Sated
?
‫ התוצאות‬:‫ לאחר האימון‬O-‫שינוי ערך ה‬
LP: Short
training
LP: Extensive
training
Magazine
approach
response
rate
control devalued
control devalued
control devalued
‫ אימון רב יוצר הרגלים‬
!‫ רק עבור פעולות רחוקות מהחיזוק‬..‫ אבל‬
‫‪ S-R‬מול ‪ :R-O‬שני סוגי התנהגות‬
‫• התנהגות מכוונת למטרה‪:‬‬
‫‪ .1‬מתווכת ע"י אסוסיאצית ‪( R-O‬או ‪)A-O‬‬
‫‪ .2‬ה‪ O-‬מהווה מטרה עבור החיה‬
‫– בעצם שני מבחנים‪ :‬שינוי ערך ה‪ O-‬או שינוי הסמיכות בין ‪ A‬ל‪O-‬‬
‫• התנהגות הרגלית‪ :‬לא תלויה בתוצאה אלא מבוצעת בגלל‬
‫נכחות הגירויים שהיו קיימים בעת שהפעולה נרכשה – ‪S-R‬‬
‫(דוגמאות?)‬
‫– הגדרה על דרך השלילה‬
‫גורמים המשפיעים על יצירת הרגלים‬
‫•‬
‫•‬
‫•‬
‫•‬
‫אורך האימון‬
‫מרחק מהחיזוק‬
‫לוח החיזוקים (מהיר יותר בחיזוק חלקי‪ ,‬מהיר יותר בלוחות‬
‫‪ interval‬בהשואה ל‪)ratio-‬‬
‫כמות הפעולות שמאמנים (שתי פעולות לשני חיזוקים שונים‬
‫– לא הופך להרגל)‬
‫סיבוך נוסף‪ :‬התנהגות מונחית מטרה ולמידת תמריץ‬
‫• סיפור המסעדה בסוף הטיול‬
‫• התנהגות מונחית מטרה רגישה לערך המטרה רק בהנתן‬
‫אפשרות ל‪"-‬למידת תמריץ" (‪)incentive learning‬‬
incentive learning - ‫למידת תמריץ‬
2. motivational
shift
use different food
Hungry
Sated
‫סיבוך נוסף‪ :‬התנהגות מונחית מטרה ולמידת תמריץ‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫סיפור המסעדה בסוף הטיול‬
‫התנהגות מונחית מטרה רגישה לערך המטרה רק בהנתן‬
‫אפשרות ל‪"-‬למידת תמריץ" (‪)incentive learning‬‬
‫אולי זה הגיוני לגבי ‪( motivational shift‬קשה להפריד בין‬
‫שני מרכיבי ערך החיזוק מדוגמא אחת) אבל – מה לגבי‬
‫התנית אברסיה?‬
‫סיפור האבטיח של טוני‬
‫ממצאים ניסויים מהתנית אברסיה בפעם אחת – ‪Dickinson‬‬
‫מול ‪Rescorla‬‬
‫ו‪ ...‬הכי גרוע – כל זה לא תופס להתנהגות ‪,nose poke‬‬
‫שגם סווגה כמונחית מטרה‬
‫הפתרון של ‪Dickinson + Balleine‬‬
‫• שלושה סוגי התנהגות‪:‬‬
‫‪ .1‬הרגלית – לא רגישה לערך המטרה‬
‫‪ .2‬מונחית מטרה – רגישה לערך המטרה רק אחרי למידת תמריץ‬
‫‪ .3‬קלאסית – תמיד רגישה לערך המטרה‪ ,‬ללא צורך בלמידת תמריץ‬
‫• אבל‪ :‬תאוריה בעייתית‬
‫– חוסר קונסיסטנטיות בקבלת החלטות – אם המערכת הפבלובית‬
‫יודעת מה בדיוק ערך המטרה‪ ,‬למה המערכת מונחית המטרה‬
‫'מתעלמת' מכך?‬
‫– לא ברור שבאמת התנהגות קלאסית רגישה ישירות לערך המטרה‬
‫– ניסוי שרשרת הפעולות האופרנטיות‪)1995( ...‬‬
‫‪Motivational control of heterogeneous instrumental‬‬
‫‪chains/ Balleine, Garner, Gonzalez and Dickinson 1995‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫חולדות רעבות מאומנות בקופסת סקינר‪ ,‬ללא דלת על מחסנית המזון‬
‫לחיצה על דוושה (‪  )A1‬משיכת חבל (‪  )A2‬חיזוק (‪)O‬‬
‫לאחר האימון מחצית החולדות מועברות לשובע‬
‫‪:Test‬‬
‫• מוסיפים למידת תמריץ למחצית החולדות (ניסוי נפרד‪ ,‬כולן נבחנות‬
‫שבעות)‬
‫• מה לגבי פשוט לחיצה על דוושה אבל בלי דלת על המחסנית?‬
‫לחיצה על דוושה – האם יש צורך בלמידת תמריץ?‬
‫• רגישות לערך המטרה תלויה‬
‫במיקום של הפעולה בשרשרת!‬
‫• שלושה הסברים במאמר‪:‬‬
‫– פרוקסימלי – ‪ S-R‬רגיש ישירות‬
‫למוטיבציה (כמו הרגלים) (??)‬
‫– פרוקסימלי יותר פבלובי בשל‬
‫הקרבה ל‪( US-‬הדיסטלי מוצלל‬
‫ע"י גירויים פרוקסימלים‪ ,‬ורחוק‬
‫מה‪ ,US-‬ולכן פחות מותנה‬
‫קלאסית)‬
‫– ייצוג היררכי )‪ A1-(A2-O‬כאשר‬
‫‪ A1‬מהווה ‪ .SD‬הקרוב (‪ )A2‬רגיש‬
‫ישירות‪ ,‬בעוד הרחוק היררכית אינו‬
‫הסבר אחר‪Daw, Niv, Dayan 2005 :‬‬
‫‪0‬‬
‫‪S3‬‬
‫‪2‬‬
‫‪4‬‬
‫‪S2‬‬
‫‪1‬‬
‫‪state‬‬
‫‪action‬‬
‫• מה תאוריות ‪ Reinforcement learning‬חישוביות אומרות על כל זה?‬
‫• הבעיה‪ :‬קבלת החלטות אופטימלית‬
‫במקרה של שרשרת פעולות‬
‫‪Actor‬‬
‫(חיזוק בסוף השרשרת)‬
‫‪S A Policy‬‬
‫• דברנו רבות על שיטה אחת לפתרון‬
‫הבעיה‪ :‬ללמוד ערכים למצבים‪/‬גירויים‬
‫‪TD‬‬
‫(‪ )states‬בעזרת טעויות ניבוי‪ ,‬וללמוד‬
‫‪error‬‬
‫‪Critic‬‬
‫)‪δ(t‬‬
‫אסטרטגיה התנהגותית באמצעות אותן‬
‫‪S evaluation‬‬
‫‪Function‬‬
‫טעויות ניבוי‪ .‬ממידע מקומי ניתן ללמוד‬
‫התנהגות אופטימלית לטווח רחוק‪.‬‬
‫‪r(t) - reward‬‬
‫‪Environment‬‬
‫‪S1‬‬
‫‪“If the only tool you have is a hammer, you tend to see every problem as a nail” - A. Maslow‬‬
‫‪ Actor/Critic‬ו‪ TD-‬כלמידת ‪S-R‬‬
‫מה יקרה אם‪:‬‬
‫• נשנה את ערך החיזוק?‬
‫• נשנה את מבנה המבוך?‬
‫‪0‬‬
‫‪S3‬‬
‫‪2‬‬
‫‪14‬‬
‫‪S1‬‬
‫‪S2‬‬
‫‪1‬‬
‫‪ Actor/Critic‬ו‪ TD-‬כלמידת ‪S-R‬‬
‫• למידת ערך ‪ V‬לגירוי‪ :‬מנותק מזהות ה‪ US-‬עצמה‬
‫‪0‬‬
‫‪S3‬‬
‫‪2‬‬
‫‪4‬‬
‫‪S2‬‬
‫‪1‬‬
‫‪S1‬‬
‫• חשוב‪ :‬ממיר הכל למטבע משותף בכדי להשוות ולבחור‬
‫אופצית פעולה אחת‬
‫• אבל‪ :‬מאבד קשר ישיר ל‪ .US/O-‬למשל‪ ,‬אם החיה עכשיו‬
‫צמאה ולא רעבה‪ ,‬איך תדע בכמה לשנות את הערכים‬
‫)‪ ?V(S3) ,V(S2) ,V(S1‬ואיך תדע לשנות אסטרטגית‬
‫התנהגות?‬
‫אבל‪ ...‬יש עוד דרכים לפתור את אותה בעיה‬
‫‪S0‬‬
‫• ניתן ללמוד מתוך נסיון ממש את‬
‫מבנה העץ‬
‫– ‪One-step transitions‬‬
‫– ‪Immediate outcomes‬‬
‫– ‪Reward utilities‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫בזמן ההחלטה ניתן לעבור על העץ‬
‫('סימולציה') עד לנקודות הקצה‪ ,‬כדי‬
‫לקבוע מה הערך (בטווח ארוך) של‬
‫כל פעולה‬
‫יתרון‪ :‬גמיש‪ ,‬רגיש לכל שינוי‬
‫חסרון‪ :‬לרוב בלתי אפשרי בשל‬
‫הסיבוכיות של העץ (משחק שח)‬
‫פסיכולוגיה‪ ,R-O :‬התנהגות מונחית‬
‫מטרה‬
‫‪initial‬‬
‫‪state‬‬
‫‪A2: approach‬‬
‫‪magazine‬‬
‫‪A1: press‬‬
‫‪lever‬‬
‫‪S2‬‬
‫‪S1‬‬
‫‪food‬‬
‫‪delivered‬‬
‫‪nothing‬‬
‫‪obtained‬‬
‫‪A1: press‬‬
‫‪lever‬‬
‫‪S2‬‬
‫‪food‬‬
‫‪delivered‬‬
‫‪A2: approach‬‬
‫‪magazine‬‬
‫‪food‬‬
‫‪obtained‬‬
‫‪r=1‬‬
‫שתי דרכים שונות לחישוב מה ערכה של פעולה‬
a Tree System
S0
b Cache System
S0
Initial state
Initial state
press
lever
approach
magazine
press
lever
Q=1
S1
S1
Food delivered
press
lever
S2
approach
magazine
R=0
Food delivered
press
lever
Q=0
No reward
S2
approach
magazine
Q=0
approach
magazine
Q=1
No reward
Q=0
S2
No reward
R=0
S3
Food obtained
R=1
S3
Food obtained
Q=1
‫לימוד העץ‪:‬‬
‫השוואה‪ :‬פתרון בשיטת ‪ S-R‬או ‪R-O‬‬
‫‪0‬‬
‫‪S3‬‬
‫‪2‬‬
‫‪4‬‬
‫‪1‬‬
‫‪S2‬‬
‫‪S1‬‬
‫‪S-R‬‬
‫• בחירת פעולה עם ערך מירבי‪:‬‬
‫)‪V(S1,L) = R(S1,L) + V(S2‬‬
‫)‪V(S1,R) = R(S1,R) + V(S3‬‬
‫• יתרונות‪ :‬פשוט ללמוד את הערך‬
‫האופטימלי מתוך נסיון; קל מאוד‬
‫לבחור פעולה בהנתן הערכים‬
‫• חסרונות‪ :‬גמישות מוגבלת (שינוי‬
‫ערך ה‪ ,O-‬שינוי צורת המבוך)‬
‫‪R-O‬‬
‫‪R‬‬
‫‪L‬‬
‫‪R‬‬
‫‪L‬‬
‫‪S3‬‬
‫‪S2‬‬
‫‪R‬‬
‫‪L‬‬
‫‪S1‬‬
‫• יתרונות‪ :‬גמישות מירבית‬
‫• חסרונות‪ :‬קשה לחשב מה הערך‬
‫של כל פעולה בזמן אמת (מהר‬
‫מאוד יש יותר מדי אפשרויות)‬
‫באיזו דרך להשתמש מתי?‬
‫• הפתרון הנורמטיבי‪ :‬להשתמש בכל שיטה במקום בו היא‬
‫טובה יותר = מדוייקת יותר‬
‫• עץ‪ :‬טוב במצבים של מעט מידע (יעיל) וקרבה לחיזוק (ניתן‬
‫לחישוב)‬
‫• ערכים מאוחסנים‪ :‬טובים לאחר למידה רבה‪ ,‬ואז לא משנה‬
‫אם הם קרובים או רחוקים מהחיזוק (אין חיפוש איטרטיבי)‬
‫• ‪...‬מתאים לתוצאות של ניסויים לגבי התנהגות הרגלית‬
‫לעומת מונחית מטרה‬
‫שתי המערכות קיימות ופועלות במח במקביל‬
‫• פגיעות ב‪ :dorsolateral striatum-‬התנהגות לא הופכת‬
‫להרגלית גם לאחר אימון ממושך (ממשיכה להיות רגישה‬
‫לערך החיזוק)‬
‫• פגיעות ב‪:dorsomedial striatum, prelimbic PFC-‬‬
‫התנהגות הרגלית כבר בתחילת האימון (לא רגישה לערך‬
‫החיזוק)‬
‫‪ ‬מעיד על שתי מערכות הפועלות במקביל ויכולות לשלוט‬
‫בהתנהגות בכל עת!‬
‫‪Killcross+Coutureau 2003‬‬
‫• אימון של שתי פעולות לשני חיזוקים (בנפרד) – אחד באימון‬
‫ארוך והשני בקצר‬
‫• ‪ Test‬לאחר שובע ספציפי‬
‫איך המח ידע מי המערכת המדוייקת יותר?‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫איך המח ידע על איזו מערכת לסמוך מתי?‬
‫הרעיון‪ :‬כל מערכת תחשב ותדווח גם על מידת הבטחון שלה‬
‫(‪)uncertainty‬‬
‫עץ‪ :‬אי ודאות בשל רעש בחיפוש בעץ‬
‫ערכים מאוחסנים‪ :‬אי ודאות בשל חוסר נסיון‬
‫המח יבחר להאמין למערכת בעלת‬
‫הבטחון הרב ביותר‬
‫‪tree‬‬
‫‪estimated‬‬
‫‪action‬‬
‫‪value‬‬
‫‪cache‬‬
‫• שימו לב‪:‬‬
‫– לא תמיד יבחר הערך הגבוה יותר‬
‫– (חוסר) קשר בין ‪ uncertainty‬ו‪risk-‬‬
‫• בעבר‪ uncertainty :‬שמש לקביעת קצב הלמידה (‪.)Kalman filter‬‬
‫כאן‪ :‬שימוש נוסף – בחירה בין מערכות מקבילות‬
devaluation ‫סימולציות של ניסויי‬
b
Cache
Tree
Rewarded
trials
Response rate
relative to non-devalued
Response rate
relative to non-devalued
Rewarded
trials
Non- Devalued
Non- Devalued
devalued
devalued
Proximal action
Uncertainty
Distal action
Uncertainty
a
Non- Devalued
devalued
Non- Devalued
devalued
‫מה לגבי למידת תמריץ?‬
‫•‬
‫•‬
‫•‬
‫•‬
‫שינוי ערך החיזוק‪ :‬מעלה את אי הודאות של העץ (אך לא‬
‫את זו של המערכת ההרגלית)‬
‫אי ודאות גבוהה יותר בעץ ‪ ‬המח בוחר במערכת ההרגלית‬
‫(אין רגישות לערך החדש של החיזוק)‬
‫אבל‪ :‬בפעולות קרובות מאוד לחיזוק (‪ ,)nose poke‬גם עם‬
‫אי הודאות הנוספת‪ ,‬השליטה נותרת בידי העץ (המערכת‬
‫מונחית המטרה)‪.‬‬
‫למידת תמריץ‪ :‬מורידה חזרה את אי הודאות של העץ ‪‬‬
‫המח בוחר במערכת מונחית המטרה גם בפעולות מרוחקות‪,‬‬
‫ורואים רגישות לערך החדש של החיזוק גם בלחיצת הדוושה‬
‫ למידת תמריץ‬:‫סימולציה‬
Distal action
Proximal action
Cache
Tree
*
*
*
*
Action probability
*
*
Control
Shift
only
Shift +
Incentive
learning
Control
Shift
only
Shift +
Incentive
learning
Control
Shift
only
Shift +
Incentive
learning
‫הסבר חדש ללמידת תמריץ‬
‫• אין צורך להניח שלוש מערכות‬
‫• אין צורך להניח שהמערכת ה'חכמה' (מונחית המטרה) לא‬
‫יודעת מה ערך המטרה (בעוד מערכת אחרת כן יודעת!)‬
‫• אבל ‪ -‬מערכת אחת אכן מתעלמת ממשהו שהשניה יודעת‬
‫כתוצאה ממגבלות אלגוריתם החישוב!‬
‫התניה אופרנטית‪ :‬איפה כל זה קורה?‬
‫• ‪ Balleine‬ושות' – סדרת ניסויים נרחבת מונחית המודל של‬
‫שתי סוגי אסוסיאציות‬
‫• מבחנים‪ :‬שינוי ערך החיזוק‪ ,‬שינוי הסמיכות‪ ,‬קצב הלמידה‪,‬‬
‫למידת אברסיה למזון‪ ,‬למידה של שתי פעולות לשני‬
‫חיזוקים‪ ,‬מבחן עם‪/‬בלי חיזוקים‪ ,‬יכולת ללמוד שרשרת‬
‫פעולות‬
‫• פגיעות‪ lesions :‬לפני ואחרי אימון‪ ,‬אינאקטיבציה זמנית‬
‫בשלבי אימון‪/‬מבחן שונים‪...‬‬
‫הבסיס המוחי להתנהגות מונחית מטרה‬
‫• ‪ – pDMS‬קשור ללמידת ‪( A-O‬פגיעה גוררת חוסר רגישות לערך החיזוק‬
‫וכן לסמיכות בין פעולה לחיזוק)‬
‫• אימון‪ :‬שתי פעולות ושני חיזוקים‪ ,‬לוח ‪ .ratio‬מבחן‪ :‬שובע ספציפי‪ ,‬סמיכות‬
‫)‪Yin et al (2005‬‬
‫הבסיס המוחי להתנהגות מונחית מטרה‬
‫• ‪ – mPFC‬קשור לרכישה (פגיעה לפני רכישה אך לא אחריה יוצרת‬
‫חוסר רגישות לערך המטרה)‬
‫• ‪ – BLA‬ייצוג של ערך ה‪ O-‬של פעולה‬
‫(רואים באימון של שני ‪ A‬לשני ‪)O‬‬
‫‪reacquisition‬‬
‫)‪Ostlund et al. (2005‬‬
‫הבסיס המוחי להתנהגות מונחית מטרה‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫היפוקמפוס – קשר סיבתי (דקלרטיבי?) בין פעולה לתוצאה (אין פגיעה‬
‫ברגישות לערך החיזוק‪ ,‬אך כן ברגישות לסמיכות)‬
‫אימון של שתי פעולות לשני חיזוקים‬
‫מבחן שובע ספציפי‬
‫אימון בסמיכות מופחתת‬
‫מבחן בהכחדה‬
‫)‪Corbit + Balleine (2000‬‬
‫הבסיס המוחי להתנהגות הרגלית‬
‫• ‪( DLS‬אך לא ‪ – )DMS‬מעורב ביצירת אסוסיאצית ‪S-R‬‬
‫–‬
‫–‬
‫–‬
‫–‬
‫–‬
‫קבוצות‪Sham, DMS, DLS :‬‬
‫אימון ‪ VI‬ממושך‬
‫‪CTA devaluation‬‬
‫כולם רוכשים לחיצה ו‪CTA-‬‬
‫‪ DLS‬מראים רגישות לערך‬
‫החיזוק ב‪test-‬‬
‫)‪Yin et al (2003‬‬
‫בסה"כ‪:‬‬
‫סיכום‬
‫• למידה אופרנטית אינה תופעה פשוטה עם מנגנון יחיד‬
‫• ההתנהגות נקבעת ע"י האינטראקציה בין מערכות למידה‬
‫וזכרון רבות‪ ,‬חלקן משלימות וחלקן מתחרות‬
‫• שבוע הבא‪ :‬האם המנגנונים האלו מתווכים גם למידה‬
‫קלאסית או שיש גם שם מנגנונים נפרדים נוספים?‬