Transcript Lecture4
המחלקה לניהול תעשייתי סמסטר א' ,תשע"ב רגרסיה לינארית ,ניתוח שונות ותכנון ניסויים סטטיסטיים הרצאה 4 רגרסיה פשוטה :בדיקת השערות על מקדם המתאם ,בדיקת הנחות המודל רווח סמך לתחזית מקדם המתאם מדגמי – Rנוסחא חלופית R2כפי למדנו בהרצאה קודמת ,הינו מדד סטטיסטי מבוסס על נתוני המדגם המודד את החלק היחסי של הסטייה המוסברת ע"י רגרסיה ביחס לסטייה הכוללת. לכן ניתן לחשב מקדם המתאם גם בצורה הבאה: SST SSE SSR R SST SST 2 0 R2 1 1 R 1 ככל ש R2 -גבוה יותר ,כך מודל הרגרסיה הנבנה יותר טוב וקשר בין משתנה הב"ת למשתנה התלוי חזק יותר. 2 הגדרות:תזכורת n SST :סכום ריבועי הסטיות הכולל Sum of Squares Total yi y SSR SSE 2 i 1 n SSE i 1 yi yˆ i 2 n ei 2 :סכום ריבועי הסטיות המדגמיות Sum of Squares of Errors i 1 :סכום ריבועי הסטיות הנובעות מקו הרגרסיה Sum of Squares of Regression n SSR i 1 yˆ i y 2 b12 n xi x 2 i 1 3 בדיקת השערות לגבי מקדם המתאם כאשר מקדם המתאם שווה ל ,0-אזי גם שיפוע שווה ל.0- לכן במקום לבדוק השערות לגבי שיפועH 0 : 1 0 : H1 : 1 0 ניתן לבצע בדיקת השערות לגבי מקדם המתאם של אוכלוסיה: H0 : 0 H1 : 0 משמעות של השערת האפס :לא קיים קשר ליניארי בין משתנה הב"ת למשתנה התלוי. ניתן לבדוק את ההשערות הנ"ל או באמצעות מבחן Tאו באמצעות ניתוח שונות ומבחן .F מבחן T R n2 tstat ססטיסטי המבחן: 2 1 R איזור דחייה (דו-זנבי): 4 2 n 2,1 tstat tcrit t תזכורת :דוגמה בוחנים את הקשר בין גודל מנת הייצור לשעות העבודה שיש להשקיע כדי לייצר מנה זו. נתונים נתוני המדגם ( 10תצפיות): yi 73 50 128 170 87 108 135 69 148 132 5 xi 30 20 60 80 40 50 60 30 70 60 i 1 2 3 4 5 6 7 8 9 10 נחזור לדוגמה ונבדוק השערות למקדם המתאם yˆi 10 2 xi נבדוק השערות הבאות: H0 : 0 H1 : 0 מקדם מתאם מדגמי: yi y yi y 2 SSR 13600 0.9956 SST 13660 R2 x R R b1 0.9978 y 2 נבצע בדיקת השערות במבחן :T 0.9978 8 42.58 1 0.9956 R n2 1 R2 42.58 tcrit t8,0.975 2.306 6 1369 3600 324 3600 529 4 625 1681 1444 484 13660 tstat -37 -60 18 60 -23 -2 25 -41 38 22 0 2 xi x 400 900 100 900 100 0 100 400 400 100 3400 yi xi x 73 -20 50 -30 128 10 170 30 87 -10 108 0 135 10 69 -20 148 20 132 10 1100 0 110 1366 xi 30 20 60 80 40 50 60 30 70 60 500 50 340 i 1 2 3 4 5 6 7 8 9 10 סכומים ממוצע שונות מסקנה :נדחה את השערת האפס ברמת מובהקות 5%ונאמר שיש קשר ליניארי בין משתנה הב"ת למשתנה התלוי ושיפוע שונה מ.0- מקדם המתאם מדגמי – Rנוסחא חלופית R2כפי למדנו בהרצאה קודמת ,הינו מדד סטטיסטי מבוסס על נתוני המדגם המודד את החלק היחסי של הסטייה המוסברת ע"י רגרסיה ביחס לסטייה הכוללת. לכן ניתן לחשב מקדם המתאם גם בצורה הבאה: SST SSE SSR R SST SST 2 0 R2 1 1 R 1 ככל ש R2 -גבוה יותר ,כך מודל הרגרסיה הנבנה יותר טוב וקשר בין משתנה הב"ת למשתנה התלוי חזק יותר. 7 תזכורת :הנחות המודל , V xi 0, i .1כלומר xiהינו קבוע או משתנה מקרי מנוון εi ,סופג את כל הרעש. .2 .3 8 i εהינו משתנה מקרי מפולג נורמלית , i i , j i j 2 בלתי מתואמים (.)cov=0 i ~ N 0, בדיקת הנחות המודל ברגרסיה פשוטה בהינתן משתנה תלוי ומשתנה בלתי תלוי ,נבחר מכל אחד מהם מדגם מקרי בגודל .nעל מנת שנוכל לבחון באופן מדויק ונכון האם קיים קשר ליניארי בין שני משתנים אלו באמצאות מודל רגרסיה ,צריכות להתקיים ההנחות כי nתצפיות הן בלתי מתואמות (הנחה )3ומפולגות בהתפלגות נורמלית (הנחה .)2 9 בדיקת הנחות המודל :בדיקת נורמליות על מנת לבדוק הנחה i ~ N 0, 2נצטרך לבנות גראף הנקרא 2 .Normal Probability-Probability (P-P) Plotלשם כך נבצע צעדים הבאים: (1נחשב שאריות (שגיאות) ei yi yˆi (2נסדר שאריות בסדר עולה (נסמן שאריות מסודרת ב) ei - (3ננרמל את השגיאות המסודרות בסדר עולה ע"י חישובMSE : (4נמצא בטבלת Zהסתברות נורמלית המצטברת התיאורטית: ei MSE ei (5נחשב הסתברות נורמלית מצטברת האמפירית המתקבלת מהנתונים: i 0.5 n (6נשרטט גרף של הסתברות מצטברת אמפירית בציר Xוהסתברות מצטברת תיאורטית בציר .Y (7קו ישר של 45מעלות (בקירוב) יעיד כי הנתונים באים מהתפלגות נורמלית. 10 נחזור לדוגמה ונבדוק האם הנחת נורמליות מתקיימת yˆi 10 2 xi MSE 7.5, MSE 2.7386, n 10 נחשב מצטברת אמפירית ומצטברת תיאורטית עבור גראף :Normal P-P ei שאריות בסדר מצטברת i 0.5מצטברת ei i ˆ ei xi y i y i אמפירית 10תיאורטית 7.5 7.5 עולה ei 11 0.13666 -1.09545 -3 3 70 73 30 1 0.15 0.2326 -0.7303 -2 0 50 50 20 2 0.25 0.2326 -0.7303 -2 -2 130 128 60 3 0.35 0.2326 -0.7303 -2 0 170 170 80 4 0.45 0.3575 -0.36515 -1 -3 90 87 40 5 0.55 0.5 0 0 -2 110 108 50 6 0.65 0.5 0 0 5 130 135 60 7 0.75 0.7674 0.730297 2 -1 70 69 30 8 0.85 0.86334 1.095445 3 -2 150 148 70 9 0.95 0.96606 1.825742 5 2 130 132 60 10 0.05 נחזור לדוגמה ונבדוק האם הנחת נורמליות מתקיימת נשרטט גראף :Normal P-P מסקנה :ניתן לראות שערכים מסתדרים בקירוב על קו של 45מעלות ,לכן נאמר שהנחת נורמליות מתקיימת בדוגמה שלנו. 12 בדיקת הנחות המודל :בדיקת אי-תלות גם בדיקה של הנחה 3נעשית באופן גראפי .לשם בניית גראף זה נבצע צעדים הבאים: (1נחשב שאריות (שגיאות) ei yi yˆi (2נשרטט גרף של שגיאות בציר Xוערך החזוי ע"י מודל מרגרסיה ( yˆiישר המותאם) בציר .Y (3במידה ונראה כי שגיאות מסודרות באופן מקרי ולא על פי תבנית מסודרת ,ניתן לומר כי מתקיימת הנחת אי-תלות. מגראף זה נוכל להסיק גם על אחידות שונות השגיאות. 13 נחזור לדוגמה ונבדוק האם הנחת אי-תלות מתקיימת yˆi 10 2 xi נחשב שגיאות ונבנה גראף: בדיקת אי-תלות ei 180 160 3 yˆ i 70 yi 73 xi 30 i 1 140 חיזוי ע"י רגרסיה 120 100 80 60 40 20 0 5 6 4 3 2 1 0 -1 -2 -3 שגיאות מסקנה מגראף :אין תבניות בסידור השגיאות ,לכן ניתן לומר כי הנחת אי-תלות מתקיימת בניסוי זה. 14 -4 0 50 50 20 2 -2 130 128 60 3 0 170 170 80 4 -3 90 87 40 5 -2 110 108 50 6 5 130 135 60 7 -1 70 69 30 8 -2 150 148 70 9 2 130 132 60 10 חיזוי בעזרת משוואת רגרסיה ורווח סמך לתחזית מטרותינו: .1לחשב רווח בר סמך ברמת הביטחון 1-αלמספר אינסופי של תצפיות עבור ערך xhנתון ,כלומר עבור תוחלת ).E(yh (בדוגמה שלנו ,תוחלת שעות עבודה המושקעות בייצור מנה בגודל .)xh .2לחשב רווח בר סמך לתצפית בודדת ברמת הביטחון 1-α עבור ערך xhנתון ,כלומר רווח סמך עבור ( .yhבדוגמה שלנו, עבור שעות עבודה המושקעות בייצור מנה בגודל מסויים אשר יכול להשתנות כל יום). הערה :לאינסוף תצפיות מחפשים רווח בר סמך לקו רגרסיה של אוכלוסיהyh 0 1 xh h : 15 רווח בר סמך עבור תוחלת התחזית E yˆh 0 1xh E yh yˆh b0 b1xh - yˆhסטטיסטי שבעזרתו נאמוד רווח בר סמך ברמת הביטחון 1-αלתוחלת ).E(yh - S y2ˆhשונות מדגמית (אמד חסר הטיה לשונות): 2 1 xh x 2 S yˆh MSE n 2 n xi x i 1 רווח סמך לתוחלת התחזית: ˆ ˆ P yˆ h t S yˆ h E yh yh t S yˆ h 1 n 2,1 n 2,1 2 2 16 נחזור לדוגמה שאלה :בנה רווח סמך ברמת ביטחון של 90%עבור תוחלת שעות 2 העבודה שידרשו לייצור מנה בגודל 55יחידות. xi yi xi x 30 73 400 yˆi 10 2 xi MSE 7.5, n 10 1 900 50 20 2 100 128 60 3 900 170 80 4 100 87 40 5 0 108 50 6 100 135 60 7 400 69 30 8 400 148 70 9 100 132 60 10 xh 55 נחשב E yˆh 0 1xh 0 1 55 : E yˆh נחשב : yˆh yˆh b0 b1xh 10 2 55 120 נחשב אומד לסטיית תקן של תחזית ˆ: S y h 1 55 50 2 0.80515 3400 10 2 1 xh x 7.5 MSE n 2 n xi x i 1 ˆS y2 h S yˆ S y2ˆ 0.80515 0.8973 h נמצא בטבלת Tערך : tn2,1 17 2 t8,0.95 1.86 h 3400 500 1100 110 50 i סכומים ממוצעים נחזור לדוגמה נבנה רווח סמך ברמת ביטחון של 90%עבור תוחלת שעות העבודה שידרשו לייצור מנה בגודל 55יחידות: P 120 1.86 0.8973 E yˆh 120 1.86 0.8973 0.9 P 118.3 0 1 55 121.27 0.9 אורך רווח סמך121.27-118.3=3.4 : 18 נחזור לדוגמה שאלה נוספת :כעת בנה רווח סמך ברמת ביטחון של 90%עבור תוחלת 2 שעות העבודה שידרשו לייצור מנה בגודל 80יחידותxi yi xi x . 30 73 400 xh 80 נחשב E yˆh 0 1xh 0 1 80 : E yˆh נחשב : yˆh yˆh b0 b1xh 10 2 80 170 נחשב אומד לסטיית תקן של תחזית ˆ: S y h 1 80 50 2 2.7353 3400 10 2 1 xh x 7.5 MSE n 2 n xi x i 1 ˆS y2 h S yˆ S y2ˆ 2.7353 1.65387 h נמצא בטבלת Tערך : tn2,1 2 19 t8,0.95 1.86 h i 1 900 50 20 2 100 128 60 3 900 170 80 4 100 87 40 5 0 108 50 6 100 135 60 7 400 69 30 8 400 148 70 9 100 132 60 10 3400 500 1100 110 50 סכומים ממוצעים נחזור לדוגמה נבנה רווח סמך ברמת ביטחון של 90%עבור תוחלת שעות העבודה שידרשו לייצור מנה בגודל 80יחידות: P 170 1.86 1.65387 E yˆh 170 1.86 1.65387 0.9 P 166.9 0 1 80 173.1 0.9 אורך רווח סמך173.1-166.9=6.2 : 20 )yh רווח בר סמך עבור התחזית (תצפית בודדת סטטיסטי שבעזרתו נאמוד רווח בר סמך ברמת הביטחון- yh yˆ h לתחזית של תצפית בודדת1-α yh 0 1 xh h yˆ h b0 b1 xh E yˆh 0 1xh E yh E yh yˆ h 0 :)שונות מדגמית (אמד חסר הטיה לשונות 2 1 x x MSE S y2ˆ S 2 yh yˆ h MSE 1 n h h 2 n xi x i 1 :)רווח סמך לתחזית (תצפית בודדת ˆ ˆ ˆ P yˆ h t S yh yh yh yh t S yh y h 1 n 2,1 n 2,1 21 2 2 נחזור לדוגמה שאלה :בנה רווח סמך ברמת ביטחון של 90%עבור שעות העבודה 2 שידרשו לייצור מנה בגודל 55יחידות. xi yi xi x 30 73 400 yˆi 10 2 xi MSE 7.5, n 10 1 xh 55 900 50 20 2 נחשב yh 0 1 xh h 0 1 55 h : yh 100 128 60 3 900 170 80 4 100 87 40 5 0 108 50 6 100 135 60 7 400 69 30 8 400 148 70 9 100 132 60 10 3400 500 1100 נחשב : yˆh yˆh b0 b1xh 10 2 55 120 נחשב אומד לסטיית תקן לתחזית של תצפית בודדת: S 2 yh yˆ h MSE S y2ˆ 7.5 0.80515 8.30515 h S yh yˆ h S 2 yh yˆ h 8.30515 2.88187 נמצא בטבלת Tערך : tn2,1 2 22 t8,0.95 1.86 110 50 i סכומים ממוצעים נחזור לדוגמה נבנה רווח סמך ברמת ביטחון של 90%עבור שעות העבודה שידרשו לייצור מנה בגודל 55יחידות: P 120 1.86 2.88187 yh 120 1.86 2.88187 0.9 P 114.6 yh 0 1 55 h 125.4 0.9 אורך רווח סמך125.4-114.6=10.8 : ניתן לראות שעבור תחזית בודדת מתקבל רווח סמך הרבה יותר רחב לעומת אורך רווח סמך לתוחלת התחזית לאותו מקרה .xh=55 הערה :באופן כללי ,סביר להניח שאורך רווח סמך לתחזית של תצפית בודדת יגדל בהשוואה לתחזית של אינסוף תצפיות (תוחלת התחזית). 23 סוף נושא "רגרסיה פשוטה" 24