מתאם קרמר - אוניברסיטת בר אילן

Download Report

Transcript מתאם קרמר - אוניברסיטת בר אילן

‫סטטיסטיקה‬
‫‪4‬‬
‫התפלגות נורמלית‬
‫מדדי קשר‬
‫ענבל שפירא לוץ‪ ,‬אריאל גלעד‪ ,‬אסנת בר שירה‪ ,‬המחלקה למדעי המוח אוניברסיטת בר אילן ©‬
‫לפני שנתחיל‪...‬‬
‫• את פרק ההסתברות למדתם כבר ועל כן לא נדון‬
‫בו‪ .‬אנו ממליצים בחום לעבור על החומר התאורטי‬
‫ואף לפתור את כל השאלות בפרק הנ"ל‬
‫• שבוע הבא בוחן על כל החומר שנלמד עד כה‬
‫התפלגות נורמלית‬
‫התפלגות נורמלית‬
‫• התפלגות נורמלית היא ככל הנראה ההתפלגות‬
‫החשובה ביותר בסטטיסטיקה תאורטית ובישומיה‬
‫בכל תחומי המדע‪.‬‬
‫– חשיבותה הרבה נובעת ממשפט הגבול המרכזי‪ ,‬לפיו‬
‫הממוצע של משתנים בלתי תלויים בעלי אותה‬
‫התפלגות‪ ,‬לאחר תקנון מתאים‪ ,‬מתכנס בהתפלגות אל‬
‫ההתפלגות הנורמלית‪ .‬לכן מופיעה התפלגות זו בכל‬
‫מקום בו לוקחים ממוצע של משתנים רבים‪ ,‬כגון‪:‬‬
‫• גובה ממוצע של אנשים באוכלוסייה‪.‬‬
‫• ממוצע טעויות מדידה מקריות במדידות חוזרות של אותו‬
‫גודל‪.‬‬
‫פונקציית הצפיפות )‪f(x‬‬
‫• פונקציה המתארת את צפיפות המשתנה בכל נקודה במרחב המדגם‪.‬‬
‫– לאחר שננרמל את שטח פונקציית הצפיפות ל ‪ 1‬נקבל כי‬
‫השטח בין טווח ערכים (בין ‪ a‬ל ‪ )b‬שקול לסיכוי לקבל ערך באותו הטווח‬
‫(כלומר לקבל ‪.(a≥x≥b‬‬
‫– הסיכוי לקבל ערך בודד הינו אפס שכן אנו עוסקים בפונקציה רציפה בה‬
‫קיימים כל הערכים עבור ‪.x‬‬
‫• בהתפלגות נורמלית נסמן (‪ X~N(μ,2‬ופונ' הצפיפות הינה‪:‬‬
‫–‬
‫–‬
‫–‬
‫–‬
‫פונקציה רציפה‬
‫סימטרית (‪(Md=Mode=μ‬‬
‫בתחום ‪ ,‬‬
‫צורת פעמון‬
‫‪‬‬
‫‪‬‬
‫• הערה ‪-‬לעיתים מסמנים (‪X~N(μ,‬‬
‫‪  x   2‬‬
‫‪2 2‬‬
‫‪e‬‬
‫‪1‬‬
‫‪2‬‬
‫‪2  ‬‬
‫‪f x  ‬‬
‫‪  x   2‬‬
‫‪2 2‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪e‬‬
‫‪1‬‬
‫‪2‬‬
‫‪2  ‬‬
‫‪ ‬הינה סטיית התקן‬
‫‪ μ‬הינו הממוצע‬
‫‪ e‬הינו הקבוע ‪2.71828...‬‬
‫‪ π‬הינו הקבוע ‪3.14159...‬‬
‫ישנן ‪ 2‬נקודות פיתול‬
‫בערך של סטיית תקן‬
‫אחת מהממוצע‬
‫‪f x  ‬‬
‫ערך סטיית התקן‬
‫והממוצע לבדם‬
‫קובעים את צורת‬
‫ההתפלגות‬
‫התפלגות נורמלית סטנדרטית (‪Z~N(0,1‬‬
‫• נעבור להתפלגות ציוני התקן‪:‬‬
‫• ‪ Z‬הינו בסולם רווח אף אם היינו בסולם מנה‬
‫– שכן יחס הרווחים המקוריים נשמר אך לא יחס‬
‫הערכים‪ ,‬שכן עבור ‪ Z‬אין אפס מוחלט‪.‬‬
‫טבלת ‪Z‬‬
‫• נותנת לנו את הסיכוי לקבל ערך הקטן או שווה‬
‫לערך המבוקש‬
‫התפלגות נורמלית – נושא ‪ 6‬בחוברת‬
‫• נפתור תרגילי כתה‬
‫• נפתור תרגילים מתוקשבים‬
‫מדדי קשר‬
‫מדדי קשר‬
‫• כימות קשר בין משתנה אחד למשתנה אחר‬
‫– לשם ניבוי אפשרי למשל‬
‫• הקשר יכול להיות לינארי (כלומר ניתן לתאור ע"י קו ישר) או‬
‫לא לינארי‪.‬‬
‫• קשר בין משתנים איננו מעיד על סיבתיות!‬
‫• המדד לחישוב הקשר בין משתנים מכונה מתאם (קורלציה)‬
‫– מתאם קרמר (משתנים שמיים)‬
‫– מתאם ספירמן (משתנים סידוריים)‬
‫– מתאם פירסון (משתני רווח או מנה)‬
‫מתאם קרמר ‪rc‬‬
‫• מבטא את השוני בין ההתפלגות המשותפת הנתונה‬
‫לבין ההתפלגות המשותפת בהעדר קשר‪.‬‬
‫• מתאים כאשר צמד המשתנים הינם‪ :‬משתנה שמי ‪+‬‬
‫משתנה נוסף שיוצג גם הוא בקטגוריות (שמי\סדר)‬
‫• ‪ χ2‬מסמן את עוצמת הקשר ותלוי במספר המחוברים‬
‫ועל כן מתאם קרמר יחושב מ ‪ χ2‬ויסומן ב ‪rc‬‬
‫‪1‬‬
‫‪ rc ‬‬
‫‪2‬‬
‫‪nL  1‬‬
‫‪Oi  Ei ‬‬
‫‪2‬‬
‫‪Ei‬‬
‫‪  i‬‬
‫‪2‬‬
‫דוגמא‬
‫• ‪ 100‬סטודנטים ענו על שאלון אישיות המסווג‬
‫אנשים ל‬
‫– שלושה טיפוסים‪ :‬א' ב' ג' (משתנה ‪)x‬‬
‫– תחום הלימוד (משתנה ‪)y‬‬
‫)‪f(x‬‬
‫אחר‬
‫מדעי‬
‫הרוח‬
‫מדעי‬
‫הטבע‬
‫מדעי‬
‫החברה‬
‫‪x\y‬‬
‫‪50‬‬
‫‪1‬‬
‫‪35‬‬
‫‪5‬‬
‫‪9‬‬
‫א‬
‫‪25‬‬
‫‪5‬‬
‫‪3‬‬
‫‪2‬‬
‫‪15‬‬
‫ב‬
‫‪25‬‬
‫‪9‬‬
‫‪2‬‬
‫‪8‬‬
‫‪6‬‬
‫ג‬
‫‪100‬‬
‫‪15‬‬
‫‪40‬‬
‫‪15‬‬
‫‪30‬‬
‫)‪f(y‬‬
‫הטבלה‬
‫הנצפית‬
‫‪Observed‬‬
‫‪=O‬‬
‫• אילו לא היה קשר בין ‪ x‬ל ‪ , y‬היינו מצפים כי‬
‫החלוקה לטיפוסים תהיה זהה בכל תחומי הלימוד‬
‫)‪f(x‬‬
‫אחר‬
‫מדעי‬
‫הרוח‬
‫מדעי‬
‫הטבע‬
‫מדעי‬
‫החברה‬
‫‪x\y‬‬
‫‪50‬‬
‫‪7.5‬‬
‫‪20‬‬
‫‪7.5‬‬
‫‪15‬‬
‫א‬
‫‪25‬‬
‫‪3.75‬‬
‫‪10‬‬
‫‪3.75‬‬
‫‪7.5‬‬
‫ב‬
‫‪25‬‬
‫‪3.75‬‬
‫‪10‬‬
‫‪3.75‬‬
‫‪7.5‬‬
‫ג‬
‫‪100‬‬
‫‪15‬‬
‫‪40‬‬
‫‪15‬‬
‫‪30‬‬
‫)‪f(y‬‬
‫• כל מספר בטבלה הינו‬
‫‪f  xi   f  yi ‬‬
‫‪N‬‬
‫הטבלה‬
‫הצפויה‬
‫לחוסר קשר‬
‫‪Expected‬‬
‫‪=E‬‬
‫מתאם קרמר ‪rc‬‬
‫• מתאם קרמר מבוסס על ההשוואה בין שתי‬
‫הטבלאות‬
‫– ככל שההפרש בינהן קטן יותר‪ ,‬כך חלש הקשר בין שני‬
‫‪2‬‬
‫המשתנים (עד שנקבל אפס עבור ‪)rc‬‬
‫‪‬‬
‫‪‬‬
‫‪O‬‬
‫‪‬‬
‫‪E‬‬
‫‪2‬‬
‫‪i‬‬
‫‪i‬‬
‫‪  i‬‬
‫– ‪ i‬עובר על כל תאי הטבלה‬
‫‪Ei‬‬
‫– ‪ L‬הינו המספר הקטן יותר מבין מספר הטורים ומספר‬
‫השורות‬
‫– ‪ n‬הינו סך המקרים בטבלה‪.‬‬
‫‪1‬‬
‫‪‬‬
‫‪2‬‬
‫‪nL  1‬‬
‫‪Oi  Ei 2  r‬‬
‫‪c‬‬
‫‪Ei‬‬
‫‪  i‬‬
‫‪2‬‬
‫נחזור לדוגמא‪...‬‬
‫)‪f(x‬‬
‫אחר‬
‫מדעי‬
‫הרוח‬
‫מדעי מדעי‬
‫הטבע החבר‬
‫ה‬
‫‪x\y‬‬
‫)‪f(x‬‬
‫אחר‬
‫מדעי‬
‫הרוח‬
‫מדעי מדעי‬
‫הטבע החבר‬
‫ה‬
‫‪x\y‬‬
‫‪50‬‬
‫‪7.5‬‬
‫‪20‬‬
‫‪7.5‬‬
‫‪15‬‬
‫א‬
‫‪50‬‬
‫‪1‬‬
‫‪35‬‬
‫‪5‬‬
‫‪9‬‬
‫א‬
‫‪25‬‬
‫‪3.75‬‬
‫‪10‬‬
‫‪3.75‬‬
‫‪7.5‬‬
‫ב‬
‫‪25‬‬
‫‪5‬‬
‫‪3‬‬
‫‪2‬‬
‫‪15‬‬
‫ב‬
‫‪25‬‬
‫‪3.75‬‬
‫‪10‬‬
‫‪3.75‬‬
‫‪7.5‬‬
‫ג‬
‫‪25‬‬
‫‪9‬‬
‫‪2‬‬
‫‪8‬‬
‫‪6‬‬
‫ג‬
‫‪100‬‬
‫‪15‬‬
‫‪40‬‬
‫‪15‬‬
‫‪30‬‬
‫)‪f(y‬‬
‫‪100‬‬
‫‪15‬‬
‫‪40‬‬
‫‪15‬‬
‫‪30‬‬
‫)‪f(y‬‬
‫‪n=100, L=3‬‬
‫‪Oi  Ei 2‬‬
‫‪Ei‬‬
‫‪  i‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪9  15 5  7.5 35  20‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ ...‬‬
‫לכן מתאם קרמר‬
‫הינו ‪0.513‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪15‬‬
‫‪7.5‬‬
‫‪20‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪8  3.75 2  10 9  3.75‬‬
‫‪... ‬‬
‫‪‬‬
‫‪‬‬
‫‪ 52.62‬‬
‫‪3.75‬‬
‫‪10‬‬
‫‪3.75‬‬
‫‪52.62‬‬
‫‪ rc ‬‬
‫‪ 0.513‬‬
‫‪1003  1‬‬
‫מתאם ספירמן ‪rs‬‬
‫• שימושי עבור משתני סדר (כשיש משמעות לסדר‬
‫הערכים המספריים)‪.‬‬
‫– ניתן להעביר משתני רווח או מנה למדורגים‪.‬‬
‫• נע בין ‪ 1‬ל ‪ -1‬ומעיד גם על כיוון הקשר‪.‬‬
‫• ערכו המוחלט של המתאם מעיד על עוצמתו‪.‬‬
‫• בודק קשרים לינאריים בלבד‪.‬‬
‫דוגמא ‪1‬‬
‫• מהו המתאם בין דרוגי השופטים?‬
‫פתרון דוגמא ‪1‬‬
‫דוגמא ‪2‬‬
‫נשים לב ‪ -‬בסולמות שונים‪...‬‬
‫נחזור לדוגמא ‪2‬‬
‫דוגמא ‪3‬‬
‫• תחילה נוודא ששני המשתנים‬
‫מדורגים באותו סולם‪.‬‬
‫• ניתן דרוג ממוצע לכל מי‬
‫שמופיע יותר מפעם בודדת‪.‬‬
‫• נחשב‪...‬‬
‫‪2‬‬
‫‪d‬‬
‫‪i ‬‬
‫‪0.5  22  1 22  5‬‬
‫‪65‬‬
‫‪ 0.9697‬‬
‫‪10100 1‬‬
‫‪rs  1 ‬‬
‫דוגמא ‪4‬‬
‫טרנספורמציות‬
‫• מותרות רק אלו האפשריות בסולם סדר‬
‫– טרנספורמציה שומרת סדר (מונוטונית עולה) כלומר‬
‫הכפלה או הוספה של קבוע חיובי‬
‫• לא ישנו את מתאם ספירמן‬
‫מתאם פירסון ‪r‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫שימושי עבור משתני רווח ומעלה‪.‬‬
‫לפני השימוש בו יש לבדוק האם הנתונים מראים נטייה‬
‫קווית‬
‫נע בין ‪ 1‬ל ‪ -1‬ומעיד גם על כיוון הקשר‪.‬‬
‫ערכו המוחלט של המתאם מעיד על עוצמתו‪.‬‬
‫– מקסימלי כשכל התצפיות ממוקמות על גבי קו ישר‬
‫• בודק קשרים לינאריים בלבד ‪.y=bx+a‬‬
‫– ‪ b>0‬הינו קשר חיובי וההפך‪.‬‬
‫‪x  x  y  y ‬‬
‫‪‬‬
‫‪r‬‬
‫‪n‬‬
‫‪i‬‬
‫‪i 1‬‬
‫‪i‬‬
‫‪sx  s y  n‬‬
‫‪z z yi‬‬
‫‪‬‬
‫‪r‬‬
‫‪n‬‬
‫‪i 1 xi‬‬
‫‪n‬‬
covariance
,‫• זוהי הנוסחא לשונות המשותפת בין המשתנים‬
.‫עליה מבוסס מתאם פירסון‬
x  x  y  y 

covx, y  
n
i 1
i
i
n
covx, y  i 1 z xi z yi
r

sx  s y
n
n
cov(x,x)=var(x) •
x  x  y  y 

r
n
i 1
i
sx  s y  n
cov(x, y )
r
sx  s y
i
‫דוגמא‬
‫• חשב את מקדם המתאם של פירסון‬
‫מקדם המתאם )‪(correlation coefficient‬‬
‫סיכום קצר‬
‫• ערך מספר בין ‪ 1‬ל ‪ -1‬המתאר את הקשר הלינארי‬
‫בין המשתנים‪ 1  r  1 .‬‬
‫• עוצמת הקשר הינה הערך המוחלט |‪.|r‬‬
‫– קשר מירבי הינו כאשר ‪|r|=1‬‬
‫– העדר קשר לינארי כאשר ‪|r|=0‬‬
‫• כיוון הקשר‬
‫– עולים\יורדים יחד‪ ,‬קשר חיובי )‪(r>0‬‬
‫– כשאחד עולה השני יורד‪ ,‬קשר שלילי )‪(r<0‬‬
‫מדדי קשר – נושא ‪ 8‬בחוברת‬
‫• נפתור תרגילי כתה‬
‫• נפתור תרגילים מתוקשבים‬