Transcript Lecture4
המחלקה לניהול תעשייתי
סמסטר א' ,תשע"ב
רגרסיה לינארית ,ניתוח שונות ותכנון
ניסויים סטטיסטיים
הרצאה 4
רגרסיה פשוטה :בדיקת השערות על
מקדם המתאם ,בדיקת הנחות המודל
רווח סמך לתחזית
מקדם המתאם מדגמי – Rנוסחא חלופית
R2כפי למדנו בהרצאה קודמת ,הינו מדד סטטיסטי מבוסס על נתוני
המדגם המודד את החלק היחסי של הסטייה המוסברת ע"י רגרסיה ביחס
לסטייה הכוללת.
לכן ניתן לחשב מקדם המתאם גם בצורה הבאה:
SST SSE SSR
R
SST
SST
2
0 R2 1
1 R 1
ככל ש R2 -גבוה יותר ,כך מודל הרגרסיה הנבנה יותר טוב וקשר בין
משתנה הב"ת למשתנה התלוי חזק יותר.
2
הגדרות:תזכורת
n
SST
:סכום ריבועי הסטיות הכולל
Sum of Squares Total
yi y SSR SSE
2
i 1
n
SSE
i 1
yi yˆ i 2
n
ei 2
:סכום ריבועי הסטיות המדגמיות
Sum of Squares of Errors
i 1
:סכום ריבועי הסטיות הנובעות מקו הרגרסיה
Sum of Squares of Regression
n
SSR
i 1
yˆ i y 2 b12
n
xi x 2
i 1
3
בדיקת השערות לגבי מקדם המתאם
כאשר מקדם המתאם שווה ל ,0-אזי גם שיפוע שווה ל.0-
לכן במקום לבדוק השערות לגבי שיפועH 0 : 1 0 :
H1 : 1 0
ניתן לבצע בדיקת השערות לגבי מקדם המתאם של אוכלוסיה:
H0 : 0
H1 : 0
משמעות של השערת האפס :לא קיים קשר ליניארי בין משתנה הב"ת
למשתנה התלוי.
ניתן לבדוק את ההשערות הנ"ל או באמצעות מבחן Tאו באמצעות ניתוח
שונות ומבחן .F
מבחן T
R n2
tstat
ססטיסטי המבחן:
2
1 R
איזור דחייה (דו-זנבי):
4
2
n 2,1
tstat tcrit t
תזכורת :דוגמה
בוחנים את הקשר בין גודל מנת הייצור לשעות העבודה שיש
להשקיע כדי לייצר מנה זו.
נתונים נתוני המדגם ( 10תצפיות):
yi
73
50
128
170
87
108
135
69
148
132
5
xi
30
20
60
80
40
50
60
30
70
60
i
1
2
3
4
5
6
7
8
9
10
נחזור לדוגמה ונבדוק השערות למקדם המתאם
yˆi 10 2 xi
נבדוק השערות הבאות:
H0 : 0
H1 : 0
מקדם מתאם מדגמי:
yi y yi y 2
SSR 13600
0.9956
SST 13660
R2
x
R R b1
0.9978
y
2
נבצע בדיקת השערות במבחן :T
0.9978 8
42.58
1 0.9956
R n2
1 R2
42.58 tcrit t8,0.975 2.306
6
1369
3600
324
3600
529
4
625
1681
1444
484
13660
tstat
-37
-60
18
60
-23
-2
25
-41
38
22
0
2
xi x
400
900
100
900
100
0
100
400
400
100
3400
yi xi x
73
-20
50
-30
128
10
170
30
87
-10
108
0
135
10
69
-20
148
20
132
10
1100
0
110
1366
xi
30
20
60
80
40
50
60
30
70
60
500
50
340
i
1
2
3
4
5
6
7
8
9
10
סכומים
ממוצע
שונות
מסקנה :נדחה את השערת האפס
ברמת מובהקות 5%ונאמר שיש
קשר ליניארי בין משתנה הב"ת
למשתנה התלוי ושיפוע שונה מ.0-
מקדם המתאם מדגמי – Rנוסחא חלופית
R2כפי למדנו בהרצאה קודמת ,הינו מדד סטטיסטי מבוסס על נתוני
המדגם המודד את החלק היחסי של הסטייה המוסברת ע"י רגרסיה ביחס
לסטייה הכוללת.
לכן ניתן לחשב מקדם המתאם גם בצורה הבאה:
SST SSE SSR
R
SST
SST
2
0 R2 1
1 R 1
ככל ש R2 -גבוה יותר ,כך מודל הרגרסיה הנבנה יותר טוב וקשר בין
משתנה הב"ת למשתנה התלוי חזק יותר.
7
תזכורת :הנחות המודל
, V xi 0, i .1כלומר xiהינו קבוע או משתנה מקרי
מנוון εi ,סופג את כל הרעש.
.2
.3
8
i
εהינו משתנה מקרי מפולג נורמלית , i
i , j i j
2
בלתי מתואמים (.)cov=0
i ~ N 0,
בדיקת הנחות המודל ברגרסיה פשוטה
בהינתן משתנה תלוי ומשתנה בלתי תלוי ,נבחר מכל אחד מהם
מדגם מקרי בגודל .nעל מנת שנוכל לבחון באופן מדויק ונכון
האם קיים קשר ליניארי בין שני משתנים אלו באמצאות מודל
רגרסיה ,צריכות להתקיים ההנחות כי nתצפיות הן בלתי
מתואמות (הנחה )3ומפולגות בהתפלגות נורמלית (הנחה .)2
9
בדיקת הנחות המודל :בדיקת נורמליות
על מנת לבדוק הנחה i ~ N 0, 2נצטרך לבנות גראף הנקרא
2
.Normal Probability-Probability (P-P) Plotלשם כך נבצע
צעדים הבאים:
(1נחשב שאריות (שגיאות) ei yi yˆi
(2נסדר שאריות בסדר עולה (נסמן שאריות מסודרת ב) ei -
(3ננרמל את השגיאות המסודרות בסדר עולה ע"י חישובMSE :
(4נמצא בטבלת Zהסתברות נורמלית המצטברת התיאורטית:
ei MSE
ei
(5נחשב הסתברות נורמלית מצטברת האמפירית המתקבלת מהנתונים:
i 0.5
n
(6נשרטט גרף של הסתברות מצטברת אמפירית בציר Xוהסתברות
מצטברת תיאורטית בציר .Y
(7קו ישר של 45מעלות (בקירוב) יעיד כי הנתונים באים מהתפלגות
נורמלית.
10
נחזור לדוגמה ונבדוק האם הנחת נורמליות מתקיימת
yˆi 10 2 xi
MSE 7.5, MSE 2.7386, n 10
נחשב מצטברת אמפירית ומצטברת תיאורטית עבור גראף :Normal P-P
ei
שאריות בסדר
מצטברת i 0.5מצטברת ei
i
ˆ
ei
xi y i y i
אמפירית 10תיאורטית 7.5 7.5 עולה ei
11
0.13666
-1.09545
-3
3
70
73
30
1
0.15
0.2326
-0.7303
-2
0
50
50
20
2
0.25
0.2326
-0.7303
-2
-2
130
128
60
3
0.35
0.2326
-0.7303
-2
0
170
170
80
4
0.45
0.3575
-0.36515
-1
-3
90
87
40
5
0.55
0.5
0
0
-2
110
108
50
6
0.65
0.5
0
0
5
130
135
60
7
0.75
0.7674
0.730297
2
-1
70
69
30
8
0.85
0.86334
1.095445
3
-2
150
148
70
9
0.95
0.96606
1.825742
5
2
130
132
60
10
0.05
נחזור לדוגמה ונבדוק האם הנחת נורמליות מתקיימת
נשרטט גראף :Normal P-P
מסקנה :ניתן לראות שערכים מסתדרים בקירוב על קו של 45מעלות ,לכן
נאמר שהנחת נורמליות מתקיימת בדוגמה שלנו.
12
בדיקת הנחות המודל :בדיקת אי-תלות
גם בדיקה של הנחה 3נעשית באופן גראפי .לשם בניית גראף זה
נבצע צעדים הבאים:
(1נחשב שאריות (שגיאות) ei yi yˆi
(2נשרטט גרף של שגיאות בציר Xוערך החזוי ע"י מודל
מרגרסיה ( yˆiישר המותאם) בציר .Y
(3במידה ונראה כי שגיאות מסודרות באופן מקרי ולא על פי
תבנית מסודרת ,ניתן לומר כי מתקיימת הנחת אי-תלות.
מגראף זה נוכל להסיק גם על אחידות שונות השגיאות.
13
נחזור לדוגמה ונבדוק האם הנחת אי-תלות מתקיימת
yˆi 10 2 xi
נחשב שגיאות ונבנה גראף:
בדיקת אי-תלות
ei
180
160
3
yˆ i
70
yi
73
xi
30
i
1
140
חיזוי ע"י רגרסיה
120
100
80
60
40
20
0
5
6
4
3
2
1
0
-1
-2
-3
שגיאות
מסקנה מגראף :אין תבניות בסידור
השגיאות ,לכן ניתן לומר כי הנחת אי-תלות
מתקיימת בניסוי זה.
14
-4
0
50
50
20
2
-2
130
128
60
3
0
170
170
80
4
-3
90
87
40
5
-2
110
108
50
6
5
130
135
60
7
-1
70
69
30
8
-2
150
148
70
9
2
130
132
60
10
חיזוי בעזרת משוואת רגרסיה ורווח סמך
לתחזית
מטרותינו:
.1לחשב רווח בר סמך ברמת הביטחון 1-αלמספר אינסופי של
תצפיות עבור ערך xhנתון ,כלומר עבור תוחלת ).E(yh
(בדוגמה שלנו ,תוחלת שעות עבודה המושקעות בייצור מנה
בגודל .)xh
.2לחשב רווח בר סמך לתצפית בודדת ברמת הביטחון 1-α
עבור ערך xhנתון ,כלומר רווח סמך עבור ( .yhבדוגמה שלנו,
עבור שעות עבודה המושקעות בייצור מנה בגודל מסויים
אשר יכול להשתנות כל יום).
הערה :לאינסוף תצפיות מחפשים רווח בר סמך לקו רגרסיה של
אוכלוסיהyh 0 1 xh h :
15
רווח בר סמך עבור תוחלת התחזית
E yˆh 0 1xh E yh
yˆh b0 b1xh
- yˆhסטטיסטי שבעזרתו נאמוד רווח בר סמך ברמת הביטחון
1-αלתוחלת ).E(yh
- S y2ˆhשונות מדגמית (אמד חסר הטיה לשונות):
2
1
xh x
2
S yˆh MSE n
2
n
xi x
i 1
רווח סמך לתוחלת התחזית:
ˆ
ˆ
P yˆ h t
S yˆ h E yh yh t
S yˆ h 1
n 2,1
n 2,1
2
2
16
נחזור לדוגמה
שאלה :בנה רווח סמך ברמת ביטחון של 90%עבור תוחלת שעות
2
העבודה שידרשו לייצור מנה בגודל 55יחידות.
xi yi xi x
30
73
400
yˆi 10 2 xi
MSE 7.5, n 10
1
900
50
20
2
100
128
60
3
900
170
80
4
100
87
40
5
0
108
50
6
100
135
60
7
400
69
30
8
400
148
70
9
100
132
60
10
xh 55
נחשב E yˆh 0 1xh 0 1 55 : E yˆh
נחשב : yˆh
yˆh b0 b1xh 10 2 55 120
נחשב אומד לסטיית תקן של תחזית ˆ: S y
h
1 55 50 2
0.80515
3400
10
2
1
xh x
7.5
MSE n
2
n
xi x
i 1
ˆS y2
h
S yˆ S y2ˆ 0.80515 0.8973
h
נמצא בטבלת Tערך : tn2,1
17
2
t8,0.95 1.86
h
3400
500 1100
110
50
i
סכומים
ממוצעים
נחזור לדוגמה
נבנה רווח סמך ברמת ביטחון של 90%עבור תוחלת שעות העבודה
שידרשו לייצור מנה בגודל 55יחידות:
P 120 1.86 0.8973 E yˆh 120 1.86 0.8973 0.9
P 118.3 0 1 55 121.27 0.9
אורך רווח סמך121.27-118.3=3.4 :
18
נחזור לדוגמה
שאלה נוספת :כעת בנה רווח סמך ברמת ביטחון של 90%עבור תוחלת
2
שעות העבודה שידרשו לייצור מנה בגודל 80יחידותxi yi xi x .
30
73
400
xh 80
נחשב E yˆh 0 1xh 0 1 80 : E yˆh
נחשב : yˆh
yˆh b0 b1xh 10 2 80 170
נחשב אומד לסטיית תקן של תחזית ˆ: S y
h
1 80 50 2
2.7353
3400
10
2
1
xh x
7.5
MSE n
2
n
xi x
i 1
ˆS y2
h
S yˆ S y2ˆ 2.7353 1.65387
h
נמצא בטבלת Tערך : tn2,1
2
19
t8,0.95 1.86
h
i
1
900
50
20
2
100
128
60
3
900
170
80
4
100
87
40
5
0
108
50
6
100
135
60
7
400
69
30
8
400
148
70
9
100
132
60
10
3400
500 1100
110
50
סכומים
ממוצעים
נחזור לדוגמה
נבנה רווח סמך ברמת ביטחון של 90%עבור תוחלת שעות העבודה
שידרשו לייצור מנה בגודל 80יחידות:
P 170 1.86 1.65387 E yˆh 170 1.86 1.65387 0.9
P 166.9 0 1 80 173.1 0.9
אורך רווח סמך173.1-166.9=6.2 :
20
)yh רווח בר סמך עבור התחזית (תצפית בודדת
סטטיסטי שבעזרתו נאמוד רווח בר סמך ברמת הביטחון- yh yˆ h
לתחזית של תצפית בודדת1-α
yh 0 1 xh h
yˆ h b0 b1 xh
E yˆh 0 1xh E yh E yh yˆ h 0
:)שונות מדגמית (אמד חסר הטיה לשונות
2
1
x
x
MSE S y2ˆ
S 2 yh yˆ h MSE 1 n h
h
2
n
xi x
i 1
:)רווח סמך לתחזית (תצפית בודדת
ˆ
ˆ
ˆ
P yˆ h t
S yh yh yh yh t
S yh y h 1
n 2,1
n 2,1
21
2
2
נחזור לדוגמה
שאלה :בנה רווח סמך ברמת ביטחון של 90%עבור שעות העבודה
2
שידרשו לייצור מנה בגודל 55יחידות.
xi yi xi x
30
73
400
yˆi 10 2 xi
MSE 7.5, n 10
1
xh 55
900
50
20
2
נחשב yh 0 1 xh h 0 1 55 h : yh
100
128
60
3
900
170
80
4
100
87
40
5
0
108
50
6
100
135
60
7
400
69
30
8
400
148
70
9
100
132
60
10
3400
500 1100
נחשב : yˆh
yˆh b0 b1xh 10 2 55 120
נחשב אומד לסטיית תקן לתחזית של תצפית בודדת:
S 2 yh yˆ h MSE S y2ˆ 7.5 0.80515 8.30515
h
S yh yˆ h S 2 yh yˆ h 8.30515 2.88187
נמצא בטבלת Tערך : tn2,1
2
22
t8,0.95 1.86
110
50
i
סכומים
ממוצעים
נחזור לדוגמה
נבנה רווח סמך ברמת ביטחון של 90%עבור שעות העבודה שידרשו
לייצור מנה בגודל 55יחידות:
P 120 1.86 2.88187 yh 120 1.86 2.88187 0.9
P 114.6 yh 0 1 55 h 125.4 0.9
אורך רווח סמך125.4-114.6=10.8 :
ניתן לראות שעבור תחזית בודדת מתקבל רווח סמך הרבה יותר רחב
לעומת אורך רווח סמך לתוחלת התחזית לאותו מקרה .xh=55
הערה :באופן כללי ,סביר להניח שאורך רווח סמך לתחזית של תצפית
בודדת יגדל בהשוואה לתחזית של אינסוף תצפיות (תוחלת התחזית).
23
סוף נושא "רגרסיה פשוטה"
24