רגרסיה לינארית

Download Report

Transcript רגרסיה לינארית

1
2
‫אופי הקשר בין המשתנים ‪-‬‬
‫‪33‬‬
‫חוזק הקשר בין המשתנים‬
‫‪-‬‬
‫‪44‬‬
‫ככל שענן ההתפלגות מרוכז יותר‪ ,‬הקשר חזק יותר‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪5‬‬
‫כאשר ידוע לנו שקיים קשר בין שני משתנים והקשר‬
‫הוא לינארי (קו ישר)‪ ,‬אנחנו יכולים לבנות מודל של‬
‫רגרסיה‬
‫משוואת הרגרסיה מאפשרת לנו לנבא את הערך של‬
‫המשתנה התלוי מתוך הערך של המשתנה הבלתי‪-‬תלוי‪.‬‬
‫או במילים פשוטות ‪ -‬בכמה יחידות עולה ‪ Y‬כאשר ‪X‬‬
‫עולה ביחידה אחת‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫רגרסיה‪ :‬מחפשים מהי הנוסחה המתמטית שמבטאת את דפוס‬
‫הקשר בין שני המשתנים‬
‫כאשר המטרה הראשונה שלנו היא ניבוי‬
‫לדוגמא – רוצים לנבא את ציונו‬
‫הסופי של תלמיד תואר ראשון על‬
‫סמך ציון הפסיכומטרי שלו‬
‫איך?‬
‫בונים קו רגרסיה על סמך הנתונים‬
‫הידועים‬
‫עבור מועמד חדש –‬
‫מציבים ציון פסיכו' וחוזים ערך ‪BA‬‬
‫ניתן ללמוד מרגרסיה מספר דברים‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪7‬‬
‫מידת ההשפעה של ‪ X‬על ‪Y‬‬
‫ניבוי ‪ Y‬על פי ‪( X‬או להפך)‬
‫אחוז שונות מוסברת – מהי התרומה של המשתנה הבלתי תלוי‬
‫להסבר השונות בתופעה הנחקרת [המשתנה התלוי]‪.‬‬
‫עד כמה המשתנה המנבא יכול להסביר הבדלים במשתנה המנובא‬
‫‪‬‬
‫כאשר הקשר בין ‪ X‬ל‪Y-‬‬
‫הוא קשר קווי מלא‪,‬‬
‫ניתן לנבא במדויק את‬
‫‪ Y‬מתוך ‪ – X‬בעזרת‬
‫משוואת הרגרסיה‬
‫הליניארית‪.‬‬
‫‪yˆ  a  bx‬‬
‫‪8‬‬
‫‪‬‬
‫‪9‬‬
‫מה קורה כאשר הקשר הקווי אינו מלא?‬
‫גם במקרים אלו נשתמש במודל של רגרסיה ליניארית‬
‫שתתאר‪ ,‬בצורה הטובה ביותר‪ ,‬את הקשר בין ‪ X‬ל‪Y-‬‬
‫שלב ראשון ‪ -‬הצגה גראפית של ההתפלגויות‬
‫המשותפות של המשתנים כדי לוודא שאנחנו‬
‫עומדים מול קשר ליניארי‪.‬‬
‫הדרך הטובה ביותר להצגה גראפית של קשר בין‬
‫משתנים אינטרוווליים ומעלה‪:‬‬
‫‪.scatterplots‬‬
‫‪10 10‬‬
‫גרף המתאר קשר בין שני המשתנים –‬
‫מה מראה גרף שכזה?‬
‫ ערכי המשתנה הבלתי תלוי מופיעים על הציר האופקי‬‫(‪)X‬‬
‫ ערכי המשתנה התלוי מופיעים על הציר האנכי (‪)Y‬‬‫ כל המקרים מוצגים על הגרף כנקודות על פי ערכיהם על שני‬‫המשתנים‬
‫‪11‬‬
‫קשר בין ‪ X‬ל‪Y-‬‬
‫‪80‬‬
‫סביר להתייחס‬
‫אל הקשר כאל‬
‫קשר ליניארי‬
‫‪70‬‬
‫‪60‬‬
‫‪50‬‬
‫‪Drug‬‬
‫‪40‬‬
‫‪Y‬‬
‫‪30‬‬
‫‪9‬‬
‫‪8‬‬
‫‪7‬‬
‫‪6‬‬
‫‪5‬‬
‫‪4‬‬
‫‪Height‬‬
‫‪X‬‬
‫‪12‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
14
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪15‬‬
‫הקו המבוקש הוא מעין קו "ממוצע"‪.‬‬
‫הוא קו שסך המרחקים ממנו הוא קטן ביותר בהשוואה‬
‫לכל קו ישר אחר‬
‫כאשר המרחק נמדד כריבוע מסטיות הקו‬
‫אם נעלה בריבוע את כל הסטיות של הנקודות מהקו‪.‬‬
‫ונסכם את כל ריבועי הסטיות – )’‪- (‘Sum of squares‬‬
‫נוכל לקבוע את מידת ההתאמה של הקו לנקודות‬
‫ככל שהמספר שקיבלנו גדול יותר‪ ,‬כך ההתאמה גרועה‬
‫יותר‪.‬‬
‫קו הרגרסיה מוגדר כקו הישר הטוב ביותר לפי קריטריון‬
‫הריבועים הפחותים‪.‬‬
‫‪16‬‬
‫ניבוי בעזרת הקו הישר פירושו שלכל ‪ X‬ננבא ‪ Y‬מסוים‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫לכל תצפית שאיננה על הקו הישר‪ ,‬אנו טועים בניבוי‪.‬‬
‫יש לנו את ערכי ה‪ Y-‬הנתונים‪ ,‬הערכים האמיתיים‪.‬‬
‫יש לנו את ערכי ה‪ Y-‬המנובאים‪ ,‬שהם ערכי ‪ Y‬על הקו הישר‬
‫‪.Y = a + bX‬‬
‫ההפרש בין ‪ Y‬האמיתי ל‪ Y-‬המנובא‪ ,‬היא הסטייה‪ ,‬הטעות‪.‬‬
‫‪‬‬
‫‪‬‬
‫אנו מחפשים את אותו קו ניבוי שעבורו סך ריבועי הסטיות‬
‫של הערכים האמיתיים מהניבויים‪ ,‬יהיה מינימאלי‪.‬‬
‫בעית אופטימיזציה – שכבר פתרו בעבורנו‬
Dependent variable (Y)
‫משוואת‬
:‫הרגרסיה‬
‫ = שיפוע‬b
Y = a + bX
Y = ‫ = נקודת החיתוך על ציר ה‬a
Independent variable (X)
20
‫‪‬‬
‫‪‬‬
‫קו הניבוי הטוב ביותר הוא כאשר אין הפרשים בין התצפית‬
‫האמיתית של ‪ Y‬לבין התצפית שניבאנו‪.‬‬
‫אם נצייר ‪ 2‬קוים‪ :‬קו ניבוי וקו של התצפיות‪ ,‬הם יהיו‬
‫חופפים‪...‬אך מאוד לא סביר שבמציאות שאנו חוקרים נגיע‬
‫לדבר כזה‪...‬‬
‫‪‬‬
‫‪‬‬
‫‪22‬‬
‫מודל הרגרסיה זוהי משוואת הניבוי‪ .‬אם ‪ X‬נתון אפשר לנבא את ‪Y‬‬
‫ואם ‪ Y‬נתון אפשר לנבא את ‪.X‬‬
‫על מנת לחשב את הרגרסיה הליניארית המשתנים צריכים להיות‬
‫על סולם אינטרוולי ומעלה‬
‫‪‬‬
‫‪yˆ  a  bx‬‬
‫משוואת קו הרגרסיה‬
‫ערך מנובא של ‪ Y‬עבור כל ‪ X‬נתון ‪-‬‬
‫ˆ‪y‬‬
‫החותך‪ :‬המקום בו קו הרגרסיה חותך את ציר ‪a - Y‬‬
‫אופציה נוספת לחישוב ‪: b‬‬
‫השונות של המשתנה‬
‫הבלתי תלוי‬
‫‪23‬‬
‫‪‬‬
‫שיפוע קו הרגרסיה ‪b -‬‬
‫‪‬‬
‫‪‬‬
‫‪ xi  x yi  y‬‬
‫‪n‬‬
‫‪b‬‬
‫‪2‬‬
‫)‪( x‬‬
‫‪‬‬
‫‪a  y b x‬‬
‫השיפוע יכול להיות חיובי )‪ (b>0‬או שלילי )‪.(b<0‬‬
‫‪24 24‬‬
:)Y( ‫) ובמתמטיקה‬X(‫ תלמידים בלשון‬6 ‫להלן ציוני‬
( yi  y)2
0.25
2.25
0.25
0.25
6.25
0.25
( xi  x)2 ( xi  x)( yi  y)
4
1
1
1
1
4
  9.5   12
1
1.5
0.5
-0.5
2.5
1
6
yi  y
-0.5
-1.5
-0.5
-0.5
2.5
0.5
xi  x
-2
-1
-1
1
1
2
y
5
4
5
5
8
6
X
6
7
7
9
9
10
y  5.5
x 8

25
- x ‫ על פי‬y ‫משוואת הרגרסיה של‬

yˆ  a  bx



 xi  x yi  y
6
n
6 1
b

12 2
 2( x)
6

2
 ( x  x)

2
i
n
a  y b x
 5.5  0.5  8  1.5
:‫ במשוואת הרגרסיה‬b-‫ ואת ה‬a-‫כעת נציב את ה‬
yˆ  1.5  0.5x
26
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪27‬‬
‫ניבוי (מתמטיקה)‪ Y‬על ידי ‪( X‬לשון)‬
‫כאשר ‪7 = x‬‬
‫‪ Y‬יהיה שווה ל‪????-‬‬
‫‪1.5 + 0.5 * 7= 5‬‬
‫‪yˆ  1.5  0.5x‬‬
‫‪‬‬
‫משוואת הרגרסיה לניבוי ‪ X‬על פי ‪( – Y‬בדיוק אותו‬
‫עיקרון!!!)‬
‫‪xˆ  a  by‬‬
‫‪2‬‬
‫)‪ ( y  y‬‬
‫‪‬‬
‫‪i‬‬
‫‪n‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ xi  x yi  y‬‬
‫‪6‬‬
‫‪n‬‬
‫‪6  1  0.631‬‬
‫‪b‬‬
‫‪‬‬
‫‪9.5 1.583‬‬
‫)‪ 2( y‬‬
‫‪6‬‬
‫‪a  x b y‬‬
‫‪ 8  0.631 5.5  0.452‬‬
‫כעת נציב במשוואת הרגרסיה‪:‬‬
‫‪xˆ  0.452 0.631 y‬‬
‫‪28‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪29‬‬
‫ניבוי ‪( X‬לשון) על ידי (מתמטיקה)‪Y‬‬
‫כאשר ‪4 = Y‬‬
‫‪ X‬יהיה שווה ל‪????-‬‬
‫‪xˆ  0.452 0.631 y‬‬
‫‪0.452+ 0.631 * 4= 2.97‬‬
30
31
32
‫‪‬‬
‫‪33‬‬
‫בציוני תקן ממוצע שני המשתנים הוא אפס ולכן חיתוך עם‬
‫ציר ‪ X‬יהיה –‬
‫‪‬‬
‫בערכים גולמיים שיפוע הקו הושפע גם ממידת‬
‫הפיזור –‬
‫‪‬‬
‫בציוני תקן שיפוע הקו מושפע אך ורק מעצמת‬
‫הקשר בין המשתנים‬
‫ככל שהקו תלול יותר – הקשר חזק יותר‬
‫ב‪ 45-‬מעלות ‪r=1‬‬
‫‪‬‬
‫‪‬‬
‫‪34‬‬
‫שונות מוסברת‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫לאובייקטים שונים ערכי ‪ Y‬שונים‬
‫מה קובע את המרחק שלהם מהממוצע?‬
‫אם אין קשר בין ‪ X‬ל –‪– Y‬‬
‫‪‬‬
‫‪‬‬
‫‪ X‬לא מסביר את הפיזור של ‪Y‬‬
‫ננבא את הממוצע של ‪ Y‬לכל ערך ‪X‬‬
‫‪‬‬
‫‪‬‬
‫אם יש קשר – אפשר יהיה להסביר באמצעות‬
‫השונות של ‪ X‬את הפיזור של ‪Y‬‬
‫מטרה שניה של הרגרסיה –‬
‫הסבר השונות במשתנה המנובא באמצעות‬
‫המשתנה המנבא‬
38
‫‪ - R 2 ‬אחוז השונות המוסברת מאפשר לנו לדעת כמה מהשונות‬
‫של המשתנה התלוי מוסברת ע"י המשתנה‪ /‬משתנים בלתי‬
‫תלויים‪.‬‬
‫‪ ‬ככל שאחוז השונות המוסברת גבוה יותר‪ ,‬פירושו של דבר ש‪X-‬‬
‫עוזר לנו בניבוי ‪Y‬‬
‫‪39‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪40‬‬
‫מה זה ‪ ?r2‬זהו ריבוע המתאם‪.‬‬
‫השונות המוסברת (‪ )explained variance‬מתוך השונות‬
‫הכללית‪.‬‬
‫טווח הערכים של ‪ r2‬בין אפס לאחד‬
‫אפשר להכפיל פי ‪ 100‬ולקבל אחוז השונות המוסברת‬
‫החלק היחסי של השונות הלא מוסברת ‪1 - r2 -‬‬
41
42
43
44
45
46
‫‪‬‬
‫אם נוציא שורש נקבל את מקדם המתאם‬
‫‪r2= 0.3157‬‬
‫‪r= 0.56‬‬
‫‪‬‬
‫לדוגמא‪ :‬ידוע לנו כי הקשר בין השכלה (בלתי תלוי)‬
‫לעמדות ליברליות (תלוי) הוא ‪.0.7‬‬
‫‪‬‬
‫‪‬‬
‫אחוז השונות המוסברת הוא ‪ .49%‬כך שהשכלה מסבירה‬
‫‪ 49%‬מהשוני בעמדות הליברליות בין נחקרים‪(.‬את יתר‬
‫‪ 51%‬מסבירים משתנים אחרים‪ :‬אולי גיל‪ ,‬אולי מידת‬
‫מסורתיות וכו')‪.‬‬
‫‪47‬‬
48
49
‫‪‬‬
‫נתון כי ציוני הקורס מתפלגים נורמאלית עם ממוצע ‪90‬‬
‫וסטיית תקן של ‪ ,5‬ושעות הנוכחות של הסטודנטים בתרגול‬
‫מתפלגים נורמאלית עם ממוצע ‪ 35‬וסטיית תקן ‪ .5‬המתאם‬
‫בין הציון בקורס לבין שעות הנוכחות בתרגול הינו ‪0.8‬‬
‫‪‬‬
‫‪‬‬
‫‪50‬‬
‫מה יהיה ציונו המנובא של סטודנט שנכח ‪ 40‬שעות?‬
‫מהם הגבולות בהם צפוי להימצא ציונו האמיתי של הסטודנט‬
‫הנ"ל‪ ,‬ברמת בטחון של ‪? 95%‬‬
‫‪‬‬
‫נסמן ‪ X :‬הם שעות הנוכחות‪ Y ,‬הינו הציון‪.‬‬
‫‪‬‬
‫מה יהיה ציונו המנובא של סטודנט שנכח ‪ 40‬שעות?‬
‫‪x  35, S x  5‬‬
‫‪y  90, S y  5‬‬
‫‪r  0.8‬‬
‫‪‬‬
‫‪5  ‬‬
‫‪5‬‬
‫‪‬‬
‫‪yˆ  90   0.8    35  0.8   x‬‬
‫‪5  ‬‬
‫‪5‬‬
‫‪‬‬
‫‪‬‬
‫‪yˆ  62  0.8 x‬‬
‫‪yˆ  62  0.8  40  94‬‬
‫‪51‬‬
‫‪x  35, S x  5‬‬
‫‪y  90, S y  5‬‬
‫‪‬‬
‫‪r  0.8‬‬
‫נסמן ‪ X :‬הם שעות הנוכחות‪ Y ,‬הינו הציון‪.‬‬
‫‪yˆ  62  0.8  40  94‬‬
‫‪‬‬
‫מהם הגבולות בהם צפוי להימצא ציונו האמיתי של הסטודנט הנ"ל‪,‬‬
‫ברמת בטחון של ‪ ? 95%‬כלומר נחפש את הערכים של סימני‬
‫השאלה‪ ...‬ע"י מעבר לציוני תקן אבל לא נשתמש בסטיית‬
‫התקן הכללית ולא בממוצע‪...‬‬
‫ציציון‬
‫?‬
‫)‪(40,94‬‬
‫?‬
‫נוכחות‬
‫‪52‬‬
‫‪x  35, S x  5‬‬
‫‪y  90, S y  5‬‬
‫‪r  0.8‬‬
‫‪yˆ  62  0.8  40  94‬‬
‫‪‬‬
‫נחשב את שגיאת התקן של הניבוי ‪ Syx‬ואיתה נחשב את ציון‬
‫התקן סביב ‪ .94‬נשים לב שאת הערכים ‪ 1.96‬ו ‪ -1.96‬קיבלנו‬
‫מטבלת ‪Z‬‬
‫‪2‬‬
‫‪S yx  S y 1  r‬‬
‫‪S yx  5 1  0.8  3‬‬
‫‪2‬‬
‫‪y  94‬‬
‫‪ 1.96 ‬‬
‫‪3‬‬
‫‪y  1.96  3  94‬‬
‫‪99.88 y  88.12‬‬
‫‪53‬‬
‫?‬
‫?‬
‫‪‬‬
‫‪54‬‬
‫כדאי לבוא לתרגולים!‬