רגרסיה לינארית
Download
Report
Transcript רגרסיה לינארית
1
2
אופי הקשר בין המשתנים -
33
חוזק הקשר בין המשתנים
-
44
ככל שענן ההתפלגות מרוכז יותר ,הקשר חזק יותר
5
כאשר ידוע לנו שקיים קשר בין שני משתנים והקשר
הוא לינארי (קו ישר) ,אנחנו יכולים לבנות מודל של
רגרסיה
משוואת הרגרסיה מאפשרת לנו לנבא את הערך של
המשתנה התלוי מתוך הערך של המשתנה הבלתי-תלוי.
או במילים פשוטות -בכמה יחידות עולה Yכאשר X
עולה ביחידה אחת
רגרסיה :מחפשים מהי הנוסחה המתמטית שמבטאת את דפוס
הקשר בין שני המשתנים
כאשר המטרה הראשונה שלנו היא ניבוי
לדוגמא – רוצים לנבא את ציונו
הסופי של תלמיד תואר ראשון על
סמך ציון הפסיכומטרי שלו
איך?
בונים קו רגרסיה על סמך הנתונים
הידועים
עבור מועמד חדש –
מציבים ציון פסיכו' וחוזים ערך BA
ניתן ללמוד מרגרסיה מספר דברים:
7
מידת ההשפעה של Xעל Y
ניבוי Yעל פי ( Xאו להפך)
אחוז שונות מוסברת – מהי התרומה של המשתנה הבלתי תלוי
להסבר השונות בתופעה הנחקרת [המשתנה התלוי].
עד כמה המשתנה המנבא יכול להסביר הבדלים במשתנה המנובא
כאשר הקשר בין XלY-
הוא קשר קווי מלא,
ניתן לנבא במדויק את
Yמתוך – Xבעזרת
משוואת הרגרסיה
הליניארית.
yˆ a bx
8
9
מה קורה כאשר הקשר הקווי אינו מלא?
גם במקרים אלו נשתמש במודל של רגרסיה ליניארית
שתתאר ,בצורה הטובה ביותר ,את הקשר בין XלY-
שלב ראשון -הצגה גראפית של ההתפלגויות
המשותפות של המשתנים כדי לוודא שאנחנו
עומדים מול קשר ליניארי.
הדרך הטובה ביותר להצגה גראפית של קשר בין
משתנים אינטרוווליים ומעלה:
.scatterplots
10 10
גרף המתאר קשר בין שני המשתנים –
מה מראה גרף שכזה?
ערכי המשתנה הבלתי תלוי מופיעים על הציר האופקי()X
ערכי המשתנה התלוי מופיעים על הציר האנכי ()Y כל המקרים מוצגים על הגרף כנקודות על פי ערכיהם על שניהמשתנים
11
קשר בין XלY-
80
סביר להתייחס
אל הקשר כאל
קשר ליניארי
70
60
50
Drug
40
Y
30
9
8
7
6
5
4
Height
X
12
3
2
1
14
15
הקו המבוקש הוא מעין קו "ממוצע".
הוא קו שסך המרחקים ממנו הוא קטן ביותר בהשוואה
לכל קו ישר אחר
כאשר המרחק נמדד כריבוע מסטיות הקו
אם נעלה בריבוע את כל הסטיות של הנקודות מהקו.
ונסכם את כל ריבועי הסטיות – )’- (‘Sum of squares
נוכל לקבוע את מידת ההתאמה של הקו לנקודות
ככל שהמספר שקיבלנו גדול יותר ,כך ההתאמה גרועה
יותר.
קו הרגרסיה מוגדר כקו הישר הטוב ביותר לפי קריטריון
הריבועים הפחותים.
16
ניבוי בעזרת הקו הישר פירושו שלכל Xננבא Yמסוים
לכל תצפית שאיננה על הקו הישר ,אנו טועים בניבוי.
יש לנו את ערכי ה Y-הנתונים ,הערכים האמיתיים.
יש לנו את ערכי ה Y-המנובאים ,שהם ערכי Yעל הקו הישר
.Y = a + bX
ההפרש בין Yהאמיתי ל Y-המנובא ,היא הסטייה ,הטעות.
אנו מחפשים את אותו קו ניבוי שעבורו סך ריבועי הסטיות
של הערכים האמיתיים מהניבויים ,יהיה מינימאלי.
בעית אופטימיזציה – שכבר פתרו בעבורנו
Dependent variable (Y)
משוואת
:הרגרסיה
= שיפועb
Y = a + bX
Y = = נקודת החיתוך על ציר הa
Independent variable (X)
20
קו הניבוי הטוב ביותר הוא כאשר אין הפרשים בין התצפית
האמיתית של Yלבין התצפית שניבאנו.
אם נצייר 2קוים :קו ניבוי וקו של התצפיות ,הם יהיו
חופפים...אך מאוד לא סביר שבמציאות שאנו חוקרים נגיע
לדבר כזה...
22
מודל הרגרסיה זוהי משוואת הניבוי .אם Xנתון אפשר לנבא את Y
ואם Yנתון אפשר לנבא את .X
על מנת לחשב את הרגרסיה הליניארית המשתנים צריכים להיות
על סולם אינטרוולי ומעלה
yˆ a bx
משוואת קו הרגרסיה
ערך מנובא של Yעבור כל Xנתון -
ˆy
החותך :המקום בו קו הרגרסיה חותך את ציר a - Y
אופציה נוספת לחישוב : b
השונות של המשתנה
הבלתי תלוי
23
שיפוע קו הרגרסיה b -
xi x yi y
n
b
2
)( x
a y b x
השיפוע יכול להיות חיובי ) (b>0או שלילי ).(b<0
24 24
:)Y( ) ובמתמטיקהX( תלמידים בלשון6 להלן ציוני
( yi y)2
0.25
2.25
0.25
0.25
6.25
0.25
( xi x)2 ( xi x)( yi y)
4
1
1
1
1
4
9.5 12
1
1.5
0.5
-0.5
2.5
1
6
yi y
-0.5
-1.5
-0.5
-0.5
2.5
0.5
xi x
-2
-1
-1
1
1
2
y
5
4
5
5
8
6
X
6
7
7
9
9
10
y 5.5
x 8
25
- x על פיy משוואת הרגרסיה של
yˆ a bx
xi x yi y
6
n
6 1
b
12 2
2( x)
6
2
( x x)
2
i
n
a y b x
5.5 0.5 8 1.5
: במשוואת הרגרסיהb- ואת הa-כעת נציב את ה
yˆ 1.5 0.5x
26
27
ניבוי (מתמטיקה) Yעל ידי ( Xלשון)
כאשר 7 = x
Yיהיה שווה ל????-
1.5 + 0.5 * 7= 5
yˆ 1.5 0.5x
משוואת הרגרסיה לניבוי Xעל פי ( – Yבדיוק אותו
עיקרון!!!)
xˆ a by
2
) ( y y
i
n
2
xi x yi y
6
n
6 1 0.631
b
9.5 1.583
) 2( y
6
a x b y
8 0.631 5.5 0.452
כעת נציב במשוואת הרגרסיה:
xˆ 0.452 0.631 y
28
29
ניבוי ( Xלשון) על ידי (מתמטיקה)Y
כאשר 4 = Y
Xיהיה שווה ל????-
xˆ 0.452 0.631 y
0.452+ 0.631 * 4= 2.97
30
31
32
33
בציוני תקן ממוצע שני המשתנים הוא אפס ולכן חיתוך עם
ציר Xיהיה –
בערכים גולמיים שיפוע הקו הושפע גם ממידת
הפיזור –
בציוני תקן שיפוע הקו מושפע אך ורק מעצמת
הקשר בין המשתנים
ככל שהקו תלול יותר – הקשר חזק יותר
ב 45-מעלות r=1
34
שונות מוסברת
לאובייקטים שונים ערכי Yשונים
מה קובע את המרחק שלהם מהממוצע?
אם אין קשר בין Xל –– Y
Xלא מסביר את הפיזור של Y
ננבא את הממוצע של Yלכל ערך X
אם יש קשר – אפשר יהיה להסביר באמצעות
השונות של Xאת הפיזור של Y
מטרה שניה של הרגרסיה –
הסבר השונות במשתנה המנובא באמצעות
המשתנה המנבא
38
- R 2 אחוז השונות המוסברת מאפשר לנו לדעת כמה מהשונות
של המשתנה התלוי מוסברת ע"י המשתנה /משתנים בלתי
תלויים.
ככל שאחוז השונות המוסברת גבוה יותר ,פירושו של דבר שX-
עוזר לנו בניבוי Y
39
40
מה זה ?r2זהו ריבוע המתאם.
השונות המוסברת ( )explained varianceמתוך השונות
הכללית.
טווח הערכים של r2בין אפס לאחד
אפשר להכפיל פי 100ולקבל אחוז השונות המוסברת
החלק היחסי של השונות הלא מוסברת 1 - r2 -
41
42
43
44
45
46
אם נוציא שורש נקבל את מקדם המתאם
r2= 0.3157
r= 0.56
לדוגמא :ידוע לנו כי הקשר בין השכלה (בלתי תלוי)
לעמדות ליברליות (תלוי) הוא .0.7
אחוז השונות המוסברת הוא .49%כך שהשכלה מסבירה
49%מהשוני בעמדות הליברליות בין נחקרים(.את יתר
51%מסבירים משתנים אחרים :אולי גיל ,אולי מידת
מסורתיות וכו').
47
48
49
נתון כי ציוני הקורס מתפלגים נורמאלית עם ממוצע 90
וסטיית תקן של ,5ושעות הנוכחות של הסטודנטים בתרגול
מתפלגים נורמאלית עם ממוצע 35וסטיית תקן .5המתאם
בין הציון בקורס לבין שעות הנוכחות בתרגול הינו 0.8
50
מה יהיה ציונו המנובא של סטודנט שנכח 40שעות?
מהם הגבולות בהם צפוי להימצא ציונו האמיתי של הסטודנט
הנ"ל ,ברמת בטחון של ? 95%
נסמן X :הם שעות הנוכחות Y ,הינו הציון.
מה יהיה ציונו המנובא של סטודנט שנכח 40שעות?
x 35, S x 5
y 90, S y 5
r 0.8
5
5
yˆ 90 0.8 35 0.8 x
5
5
yˆ 62 0.8 x
yˆ 62 0.8 40 94
51
x 35, S x 5
y 90, S y 5
r 0.8
נסמן X :הם שעות הנוכחות Y ,הינו הציון.
yˆ 62 0.8 40 94
מהם הגבולות בהם צפוי להימצא ציונו האמיתי של הסטודנט הנ"ל,
ברמת בטחון של ? 95%כלומר נחפש את הערכים של סימני
השאלה ...ע"י מעבר לציוני תקן אבל לא נשתמש בסטיית
התקן הכללית ולא בממוצע...
ציציון
?
)(40,94
?
נוכחות
52
x 35, S x 5
y 90, S y 5
r 0.8
yˆ 62 0.8 40 94
נחשב את שגיאת התקן של הניבוי Syxואיתה נחשב את ציון
התקן סביב .94נשים לב שאת הערכים 1.96ו -1.96קיבלנו
מטבלת Z
2
S yx S y 1 r
S yx 5 1 0.8 3
2
y 94
1.96
3
y 1.96 3 94
99.88 y 88.12
53
?
?
54
כדאי לבוא לתרגולים!