Transcript Lecture3
המחלקה לניהול תעשייתי סמסטר א' ,תשע"ב רגרסיה לינארית ,ניתוח שונות ותכנון ניסויים סטטיסטיים הרצאה 3 רגרסיה פשוטה :בדיקת השערות (המשך) וניתוח פלט אקסל בדיקת השערות למקדמים באמצעות ניתוח שונות ומבחן F השאיפה שלנו שמודל רגרסיה הנבנה יהיה כמה שיותר מדויק. הואיל וישר הרגרסיה (הישר המותאם) של המדגם עובר דרך הנקודה אזי קיימת סטייה בין התצפיות לממוצע שנוכל לבטאה: סטייה מסביב לקו הרגרסיה ,סטייה מדגמית ()ei סטייה כוללת של y מהממוצע שלו סטייה של הערך המותאם מסביב לממוצע .הסטייה המוסברת ע"י קו רגרסיה השאיפה :היינו רוצים שקו רגרסיה יהיה כזה כך שהסטייה הריבועית המדגמית תהיה קטנה ככל האפשר (קטנה מהסטייה מסביב לממוצע) 2 y i y yˆ i y y i yˆ i b0 b1 x y i yˆ i e i yˆ i y yi yˆ i y b0 xi x x, y הגדרות n SST yi :סכום ריבועי הסטיות הכולל Sum of Squares Total y SSR SSE 2 i 1 n SSE n y i yˆ i 2 i 1 ei 2 :סכום ריבועי הסטיות המדגמיות Sum of Squares of Errors i 1 :סכום ריבועי הסטיות הנובעות מקו הרגרסיה Sum of Squares of Regression n SSR i 1 n yˆ i y 2 2 b1 xi x 2 i 1 3 SSE נוסחאות חליפיות לחישוב n SSE e n 2 i i 1 y i i 1 xi x y i y i 1 n n SSE y y 2 i yˆ i n x i 1 2 i x 2 2 S yy 2 S xy S xx i 1 b1 S yy b S xx S yy b1 S xy 2 1 n SSE y i i 1 2 n n i 1 i 1 S xy S xx b0 y i b1 x i y i 4 הגדרות (המשך) תכונה מדגמית שקו רגרסיה שנבנה ע"י ריבועים הפחותים מייצר: SST SSR SSE הטעות הריבועית הממוצעת של קו רגרסיה: SSR MSR 1 (מחלקים במספר דרגות חופש ,ברגרסיה פשוטה ישנו רק משתנה ב"ת אחד ,לכן מספר דרגות חופש שווה ל)1- הטעות הריבועית הממוצעת של הסטייה המדגמית מסביב לקו הרגרסיה: SSE n2 5 MSE בדיקת השערות באמצעות ניתוח שונות ומבחן F ברגרסיה פשוטה דרך נוספת לבדיקת השערות בקשר לשיפוע היא באמצעות ניתוח שונות ומבחן .F מבחן Fשקול למבחן tשבנינו עבור השערהH 0 : 1 0 : 1 0 H1 : משמעות של השערת האפס :אין קשר בין המשתנה הב"ת למשתנה התלוי. טענה :אם מבחן Fדוחה את השערת האפס ברמת מובהקות ,αאזי גם מבחן tידחה את השערת האפס באותה רמת המובהקות .ואם מבחן לא דוחה את השערת האפס ,אזי גם מבחן tלא ידחה באותה רמת המובהקות. ברגרסיה ליניארית פשוטה שני מבחנים מתלכדים. ברגרסיה ליניארית מרובה (לא פשוטה) קודם מבצעים את מבחן Fלבדוק השערה על מקדמי המודל (חוץ מחיתוך) מסוג: 1 2 3 ... k 0 H0 : at least one j 0 H1 : ואם השערת האפס נדחית אז עוברים למבחני tלבדיקת השערות חלקיות לגבי כל מקדם. 6 F טבלת ניתוח שונות עבור מבחן )ANalysis Of VAriance -ANOVA( סכומי מקור ריבועים השונות )Source( SS רגרסיהSSR דרגותMS=SS/df חופש )df( 1 טעותSSE מדגמית n-2 - סה"כSST Total n-1 MSR=SSR/1 ססטיסטיF MSR/MSE קריטיF P-Value F1, n 2 , pH 0 F1, n 2 , F stat MSE=SSE/(n-2) F stat F1, n 2 , :איזור דחייה P V a lu e 7 מבחן ( Fהמשך) מבחן Fנעשה תוך שימוש בהתפלגות ( Fהתפלגות לא סימטרית המוגדרת ע"י שני פרמטרים :דרגות חופש של מונה ,דרגות חופש של מכנה). סטטיסטי של מבחן Fהינו מנה של שני סטטיסטיים בלתי תלויים שכל אחד MSR מתפלג התפלגות חי בריבוע: Fstat ~ F 1, n 2 דרגות חופש של מכנה דרגות חופש של מונה MSE MSR ~ 1 2 MSE ~ n 2 2 קשר בין משתנה המתפלג Fומשתנה המתפלג :t 2 ~ F 1, n 2 , t n 2 ,1 2 ברגרסיה פשוטה מבחן Fשקול למבחן ,tכלומר אם במבחן Fדחינו את השערת האפס, 8 אזי נדחה גם ב.t- נחזור לדוגמה ונבדוק השערות בעזרת ניתוח שונות yˆ i 10 2 x i נבדוק השערות הבאות לשיפוע באמצעות מבחן :F 1 0 H0 : 1 0 H1 : yi y y y 2 i 1369 3600 324 3600 529 4 625 1681 1444 484 13660 חישוב סכומי הריבעים (:)SS y 13660 n 2 i y SST i 1 x i x 2 3400 13600 2 2 n SSR b1 2 i 1 SSE SST SSR 13660 13600 60 9 -37 -60 18 60 -23 -2 25 -41 38 22 0 2 yi x i x x i x 73 -20 400 50 -30 900 128 10 100 170 30 900 87 -10 100 108 0 0 135 10 100 69 -20 400 148 20 400 132 10 100 1100 0 3400 110 1366 xi 30 20 60 80 40 50 60 30 70 60 500 50 340 i 1 2 3 4 5 6 7 8 9 10 סכומים ממוצע שונות נבנה טבלת ניתוח שונות עבור דוגמה Fקריטי F1,8 ,0.05 5.317 Fססטיסטי MS=SS/dfדרגות חופש ()df =MSR/MSE =13600/7.5 1813.333 סכומי מקור ריבועים השונות )Source( SS =MSR=13600/1 =13600 1 13600רגרסיה MSE=60/8=7.5 n-2=8 60טעות מדגמית n-1=9 איזור דחייה: 13660סה"כ - Total F stat F1, n 2 , 1 8 1 3 .3 3 3 5 .3 1 7 מסקנה :ניתן לראות שערך הסטטיסטי גדול מערך קריטי ,לכן נדחה את 10השערת האפס ונאמר כי שיפוע אינו שווה ל 0-ברמת המובהקות .5% מקדם המתאם מדגמי – Rנוסחא חלופית R2כפי למדנו בהרצאה קודמת ,הינו מדד סטטיסטי מבוסס על נתוני המדגם המודד את החלק היחסי של הסטייה המוסברת ע"י רגרסיה ביחס לסטייה הכוללת. לכן ניתן לחשב מקדם המתאם גם בצורה הבאה: SSR SST SST SSE 2 R SST 2 0 R 1 1 R 1 ככל ש R2 -גבוה יותר ,כך מודל הרגרסיה הנבנה יותר טוב וקשר בין משתנה הב"ת למשתנה התלוי חזק יותר. 11 בדיקת השערות לגבי מקדם המתאם כאשר מקדם המתאם שווה ל ,0-אזי גם שיפוע שווה ל.0- לכן במקום לבדוק השערות לגבי שיפועH 0 : 1 0 : 1 0 H1 : ניתן לבצע בדיקת השערות לגבי מקדם המתאם של אוכלוסיה: 0 H0 : 0 H1 : משמעות של השערת האפס :לא קיים קשר ליניארי בין משתנה הב"ת למשתנה התלוי. ניתן לבדוק את ההשערות הנ"ל או באמצעות מבחן Tאו באמצעות ניתוח שונות ומבחן .F מבחן T R n2 t stat ססטיסטי המבחן: 2 1 R איזור דחייה (דו-זנבי): 12 2 n 2 ,1 t stat t crit t נחזור לדוגמה ונבדוק השערות למקדם המתאם yˆ i 10 2 x i נבדוק השערות הבאות: 0 H0 : 0 H1 : yi y y y 2 i מקדם מתאם מדגמי: 0.9956 13600 13660 0.9978 x y b1 SSR R 2 SST 2 R R נבצע בדיקת השערות במבחן :T 42.58 0.9978 8 1 0.9956 R n2 2 1 R 42.58 t crit t 8 ,0.975 2.306 13 1369 3600 324 3600 529 4 625 1681 1444 484 13660 t stat -37 -60 18 60 -23 -2 25 -41 38 22 0 2 yi x i x x i x 73 -20 400 50 -30 900 128 10 100 170 30 900 87 -10 100 108 0 0 135 10 100 69 -20 400 148 20 400 132 10 100 1100 0 3400 110 1366 xi 30 20 60 80 40 50 60 30 70 60 500 50 340 i 1 2 3 4 5 6 7 8 9 10 סכומים ממוצע שונות מסקנה :נדחה את השערת האפס ברמת מובהקות 5%ונאמר שיש קשר ליניארי בין משתנה הב"ת למשתנה התלוי ושיפוע שונה מ.0-