Transcript Lecture3
המחלקה לניהול תעשייתי
סמסטר א' ,תשע"ב
רגרסיה לינארית ,ניתוח שונות ותכנון
ניסויים סטטיסטיים
הרצאה 3
רגרסיה פשוטה :בדיקת השערות
(המשך) וניתוח פלט אקסל
בדיקת השערות למקדמים באמצעות ניתוח שונות
ומבחן F
השאיפה שלנו שמודל רגרסיה הנבנה יהיה כמה שיותר מדויק.
הואיל וישר הרגרסיה (הישר המותאם) של המדגם עובר דרך הנקודה
אזי קיימת סטייה בין התצפיות לממוצע שנוכל לבטאה:
סטייה מסביב לקו
הרגרסיה ,סטייה
מדגמית ()ei
סטייה כוללת של y
מהממוצע שלו
סטייה של הערך המותאם
מסביב לממוצע .הסטייה
המוסברת ע"י קו רגרסיה
השאיפה :היינו רוצים שקו
רגרסיה יהיה כזה כך שהסטייה
הריבועית המדגמית תהיה
קטנה ככל האפשר (קטנה
מהסטייה מסביב לממוצע)
2
y i y yˆ i y y i yˆ i
b0 b1 x
y i yˆ i e i
yˆ i y
yi
yˆ i
y
b0
xi
x
x, y
הגדרות
n
SST
yi
:סכום ריבועי הסטיות הכולל
Sum of Squares Total
y SSR SSE
2
i 1
n
SSE
n
y i yˆ i
2
i 1
ei
2
:סכום ריבועי הסטיות המדגמיות
Sum of Squares of Errors
i 1
:סכום ריבועי הסטיות הנובעות מקו הרגרסיה
Sum of Squares of Regression
n
SSR
i 1
n
yˆ i y
2
2
b1
xi
x
2
i 1
3
SSE נוסחאות חליפיות לחישוב
n
SSE
e
n
2
i
i 1
y
i
i 1
xi x y i y
i 1
n
n
SSE
y
y
2
i
yˆ i
n
x
i 1
2
i
x
2
2
S yy
2
S xy
S xx
i 1
b1
S yy b S xx S yy b1 S xy
2
1
n
SSE
y
i
i 1
2
n
n
i 1
i 1
S xy
S xx
b0 y i b1 x i y i
4
הגדרות (המשך)
תכונה מדגמית שקו רגרסיה שנבנה ע"י ריבועים הפחותים מייצר:
SST SSR SSE
הטעות הריבועית הממוצעת של קו רגרסיה:
SSR
MSR
1
(מחלקים במספר דרגות חופש ,ברגרסיה פשוטה ישנו רק משתנה ב"ת
אחד ,לכן מספר דרגות חופש שווה ל)1-
הטעות הריבועית הממוצעת של הסטייה המדגמית מסביב לקו הרגרסיה:
SSE
n2
5
MSE
בדיקת השערות באמצעות ניתוח שונות ומבחן F
ברגרסיה פשוטה דרך נוספת לבדיקת השערות בקשר לשיפוע היא
באמצעות ניתוח שונות ומבחן .F
מבחן Fשקול למבחן tשבנינו עבור השערהH 0 : 1 0 :
1 0
H1 :
משמעות של השערת האפס :אין קשר בין המשתנה הב"ת למשתנה התלוי.
טענה :אם מבחן Fדוחה את השערת האפס ברמת מובהקות ,αאזי גם
מבחן tידחה את השערת האפס באותה רמת המובהקות .ואם מבחן לא
דוחה את השערת האפס ,אזי גם מבחן tלא ידחה באותה רמת המובהקות.
ברגרסיה ליניארית פשוטה שני מבחנים מתלכדים.
ברגרסיה ליניארית מרובה (לא פשוטה) קודם מבצעים את מבחן Fלבדוק
השערה על מקדמי המודל (חוץ מחיתוך) מסוג:
1 2 3 ... k 0
H0 :
at least one j 0
H1 :
ואם השערת האפס נדחית אז עוברים למבחני tלבדיקת השערות חלקיות
לגבי כל מקדם.
6
F טבלת ניתוח שונות עבור מבחן
)ANalysis Of VAriance -ANOVA(
סכומי מקור
ריבועים השונות
)Source( SS
רגרסיהSSR
דרגותMS=SS/df
חופש
)df(
1
טעותSSE
מדגמית
n-2
- סה"כSST
Total
n-1
MSR=SSR/1
ססטיסטיF
MSR/MSE
קריטיF P-Value
F1, n 2 ,
pH
0
F1, n 2 ,
F stat
MSE=SSE/(n-2)
F stat F1, n 2 ,
:איזור דחייה
P V a lu e
7
מבחן ( Fהמשך)
מבחן Fנעשה תוך שימוש בהתפלגות ( Fהתפלגות לא סימטרית המוגדרת
ע"י שני פרמטרים :דרגות חופש של מונה ,דרגות חופש של מכנה).
סטטיסטי של מבחן Fהינו מנה של שני סטטיסטיים בלתי תלויים שכל אחד
MSR
מתפלג התפלגות חי בריבוע:
Fstat
~ F
1, n 2
דרגות חופש
של מכנה
דרגות חופש
של מונה
MSE
MSR ~ 1
2
MSE ~ n 2
2
קשר בין משתנה המתפלג Fומשתנה המתפלג :t
2
~ F
1, n 2 ,
t
n 2 ,1
2
ברגרסיה פשוטה מבחן Fשקול למבחן ,tכלומר אם במבחן Fדחינו את השערת האפס,
8
אזי נדחה גם ב.t-
נחזור לדוגמה ונבדוק השערות בעזרת ניתוח שונות
yˆ i 10 2 x i
נבדוק השערות הבאות
לשיפוע באמצעות מבחן :F
1 0
H0 :
1 0
H1 :
yi y y y 2
i
1369
3600
324
3600
529
4
625
1681
1444
484
13660
חישוב סכומי הריבעים (:)SS
y 13660
n
2
i
y
SST
i 1
x i x 2 3400 13600
2
2
n
SSR b1
2
i 1
SSE SST SSR 13660 13600 60
9
-37
-60
18
60
-23
-2
25
-41
38
22
0
2
yi x i x x i x
73
-20
400
50
-30
900
128
10
100
170
30
900
87
-10
100
108
0
0
135
10
100
69
-20
400
148
20
400
132
10
100
1100
0
3400
110
1366
xi
30
20
60
80
40
50
60
30
70
60
500
50
340
i
1
2
3
4
5
6
7
8
9
10
סכומים
ממוצע
שונות
נבנה טבלת ניתוח שונות עבור דוגמה
Fקריטי
F1,8 ,0.05 5.317
Fססטיסטי
MS=SS/dfדרגות
חופש
()df
=MSR/MSE
=13600/7.5
1813.333
סכומי מקור
ריבועים השונות
)Source( SS
=MSR=13600/1
=13600
1
13600רגרסיה
MSE=60/8=7.5
n-2=8
60טעות
מדגמית
n-1=9
איזור דחייה:
13660סה"כ -
Total
F stat F1, n 2 ,
1 8 1 3 .3 3 3 5 .3 1 7
מסקנה :ניתן לראות שערך הסטטיסטי גדול מערך קריטי ,לכן נדחה את
10השערת האפס ונאמר כי שיפוע אינו שווה ל 0-ברמת המובהקות .5%
מקדם המתאם מדגמי – Rנוסחא חלופית
R2כפי למדנו בהרצאה קודמת ,הינו מדד סטטיסטי מבוסס על נתוני
המדגם המודד את החלק היחסי של הסטייה המוסברת ע"י רגרסיה ביחס
לסטייה הכוללת.
לכן ניתן לחשב מקדם המתאם גם בצורה הבאה:
SSR
SST
SST SSE
2
R
SST
2
0 R 1
1 R 1
ככל ש R2 -גבוה יותר ,כך מודל הרגרסיה הנבנה יותר טוב וקשר בין
משתנה הב"ת למשתנה התלוי חזק יותר.
11
בדיקת השערות לגבי מקדם המתאם
כאשר מקדם המתאם שווה ל ,0-אזי גם שיפוע שווה ל.0-
לכן במקום לבדוק השערות לגבי שיפועH 0 : 1 0 :
1 0
H1 :
ניתן לבצע בדיקת השערות לגבי מקדם המתאם של אוכלוסיה:
0
H0 :
0
H1 :
משמעות של השערת האפס :לא קיים קשר ליניארי בין משתנה הב"ת
למשתנה התלוי.
ניתן לבדוק את ההשערות הנ"ל או באמצעות מבחן Tאו באמצעות ניתוח
שונות ומבחן .F
מבחן T
R n2
t stat
ססטיסטי המבחן:
2
1 R
איזור דחייה (דו-זנבי):
12
2
n 2 ,1
t stat t crit t
נחזור לדוגמה ונבדוק השערות למקדם המתאם
yˆ i 10 2 x i
נבדוק השערות הבאות:
0
H0 :
0
H1 :
yi y y y 2
i
מקדם מתאם מדגמי:
0.9956
13600
13660
0.9978
x
y
b1
SSR
R
2
SST
2
R
R
נבצע בדיקת השערות במבחן :T
42.58
0.9978 8
1 0.9956
R n2
2
1 R
42.58 t crit t 8 ,0.975 2.306
13
1369
3600
324
3600
529
4
625
1681
1444
484
13660
t stat
-37
-60
18
60
-23
-2
25
-41
38
22
0
2
yi x i x x i x
73
-20
400
50
-30
900
128
10
100
170
30
900
87
-10
100
108
0
0
135
10
100
69
-20
400
148
20
400
132
10
100
1100
0
3400
110
1366
xi
30
20
60
80
40
50
60
30
70
60
500
50
340
i
1
2
3
4
5
6
7
8
9
10
סכומים
ממוצע
שונות
מסקנה :נדחה את השערת האפס
ברמת מובהקות 5%ונאמר שיש
קשר ליניארי בין משתנה הב"ת
למשתנה התלוי ושיפוע שונה מ.0-