Transcript Lecture3

‫המחלקה לניהול תעשייתי‬
‫סמסטר א'‪ ,‬תשע"ב‬
‫רגרסיה לינארית‪ ,‬ניתוח שונות ותכנון‬
‫ניסויים סטטיסטיים‬
‫הרצאה ‪3‬‬
‫רגרסיה פשוטה‪ :‬בדיקת השערות‬
‫(המשך) וניתוח פלט אקסל‬
‫בדיקת השערות למקדמים באמצעות ניתוח שונות‬
‫ומבחן ‪F‬‬
‫השאיפה שלנו שמודל רגרסיה הנבנה יהיה כמה שיותר מדויק‪.‬‬
‫הואיל וישר הרגרסיה (הישר המותאם) של המדגם עובר דרך הנקודה‬
‫אזי קיימת סטייה בין התצפיות לממוצע שנוכל לבטאה‪:‬‬
‫‪‬‬
‫סטייה מסביב לקו‬
‫הרגרסיה‪ ,‬סטייה‬
‫מדגמית (‪)ei‬‬
‫‪ ‬‬
‫סטייה כוללת של ‪y‬‬
‫מהממוצע שלו‬
‫סטייה של הערך המותאם‬
‫מסביב לממוצע‪ .‬הסטייה‬
‫המוסברת ע"י קו רגרסיה‬
‫השאיפה‪ :‬היינו רוצים שקו‬
‫רגרסיה יהיה כזה כך שהסטייה‬
‫הריבועית המדגמית תהיה‬
‫קטנה ככל האפשר (קטנה‬
‫מהסטייה מסביב לממוצע)‬
‫‪2‬‬
‫‪‬‬
‫‪y i  y  yˆ i  y  y i  yˆ i‬‬
‫‪b0  b1 x‬‬
‫‪y i  yˆ i  e i‬‬
‫‪yˆ i  y‬‬
‫‪yi‬‬
‫‪yˆ i‬‬
‫‪y‬‬
‫‪b0‬‬
‫‪xi‬‬
‫‪x‬‬
‫‪x, y‬‬
‫הגדרות‬
n
SST 

yi
:‫סכום ריבועי הסטיות הכולל‬
Sum of Squares Total
 y   SSR  SSE
2
i 1
n
SSE 

n

y i  yˆ i

2
i 1


ei
2
:‫סכום ריבועי הסטיות המדגמיות‬
Sum of Squares of Errors
i 1
:‫סכום ריבועי הסטיות הנובעות מקו הרגרסיה‬
Sum of Squares of Regression
n
SSR 

i 1
n

yˆ i  y

2
2
 b1

xi
 x
2
i 1
3
SSE ‫נוסחאות חליפיות לחישוב‬
n
SSE 
e
n
2
i

i 1
y
i
i 1


   xi  x   y i  y  
 i 1

n
n
SSE 
y
 y 
2
i
 yˆ i 
n
 x
i 1
2
i
 x
2
2
 S yy
2


 S xy 


S xx
i 1
 b1 
 S yy  b S xx  S yy  b1 S xy
2
1
n
SSE 
y 
i
i 1
2
n
n
i 1
i 1
S xy
S xx
 b0  y i  b1  x i y i
4
‫הגדרות (המשך)‬
‫תכונה מדגמית שקו רגרסיה שנבנה ע"י ריבועים הפחותים מייצר‪:‬‬
‫‪SST  SSR  SSE‬‬
‫הטעות הריבועית הממוצעת של קו רגרסיה‪:‬‬
‫‪SSR‬‬
‫‪MSR ‬‬
‫‪1‬‬
‫(מחלקים במספר דרגות חופש‪ ,‬ברגרסיה פשוטה ישנו רק משתנה ב"ת‬
‫אחד‪ ,‬לכן מספר דרגות חופש שווה ל‪)1-‬‬
‫הטעות הריבועית הממוצעת של הסטייה המדגמית מסביב לקו הרגרסיה‪:‬‬
‫‪SSE‬‬
‫‪n2‬‬
‫‪5‬‬
‫‪MSE ‬‬
‫בדיקת השערות באמצעות ניתוח שונות ומבחן ‪F‬‬
‫ברגרסיה פשוטה דרך נוספת לבדיקת השערות בקשר לשיפוע היא‬
‫באמצעות ניתוח שונות ומבחן ‪.F‬‬
‫מבחן ‪ F‬שקול למבחן ‪ t‬שבנינו עבור השערה‪H 0 :  1  0 :‬‬
‫‪1  0‬‬
‫‪H1 :‬‬
‫משמעות של השערת האפס‪ :‬אין קשר בין המשתנה הב"ת למשתנה התלוי‪.‬‬
‫טענה‪ :‬אם מבחן ‪ F‬דוחה את השערת האפס ברמת מובהקות ‪ ,α‬אזי גם‬
‫מבחן ‪ t‬ידחה את השערת האפס באותה רמת המובהקות‪ .‬ואם מבחן לא‬
‫דוחה את השערת האפס‪ ,‬אזי גם מבחן ‪ t‬לא ידחה באותה רמת המובהקות‪.‬‬
‫ברגרסיה ליניארית פשוטה שני מבחנים מתלכדים‪.‬‬
‫ברגרסיה ליניארית מרובה (לא פשוטה) קודם מבצעים את מבחן ‪ F‬לבדוק‬
‫השערה על מקדמי המודל (חוץ מחיתוך) מסוג‪:‬‬
‫‪ 1   2   3  ...   k  0‬‬
‫‪H0 :‬‬
‫‪at least one  j  0‬‬
‫‪H1 :‬‬
‫ואם השערת האפס נדחית אז עוברים למבחני ‪ t‬לבדיקת השערות חלקיות‬
‫לגבי כל מקדם‪.‬‬
‫‪6‬‬
F ‫טבלת ניתוח שונות עבור מבחן‬
)ANalysis Of VAriance -ANOVA(
‫סכומי מקור‬
‫ריבועים השונות‬
)Source( SS
‫ רגרסיה‬SSR
‫ דרגות‬MS=SS/df
‫חופש‬
)df(
1
‫ טעות‬SSE
‫מדגמית‬
n-2
- ‫ סה"כ‬SST
Total
n-1
MSR=SSR/1
‫ ססטיסטי‬F
MSR/MSE
‫ קריטי‬F P-Value
F1, n  2 ,
pH
0
F1, n  2 ,
 F stat
MSE=SSE/(n-2)
F stat  F1, n  2 ,
:‫איזור דחייה‬
P  V a lu e  
7

‫מבחן ‪( F‬המשך)‬
‫מבחן ‪ F‬נעשה תוך שימוש בהתפלגות ‪( F‬התפלגות לא סימטרית המוגדרת‬
‫ע"י שני פרמטרים‪ :‬דרגות חופש של מונה‪ ,‬דרגות חופש של מכנה)‪.‬‬
‫סטטיסטי של מבחן ‪ F‬הינו מנה של שני סטטיסטיים בלתי תלויים שכל אחד‬
‫‪MSR‬‬
‫מתפלג התפלגות חי בריבוע‪:‬‬
‫‪Fstat ‬‬
‫‪~ F‬‬
‫‪1, n  2‬‬
‫דרגות חופש‬
‫של מכנה‬
‫דרגות חופש‬
‫של מונה‬
‫‪MSE‬‬
‫‪MSR ~  1‬‬
‫‪2‬‬
‫‪MSE ~  n  2‬‬
‫‪2‬‬
‫קשר בין משתנה המתפלג ‪ F‬ומשתנה המתפלג ‪:t‬‬
‫‪2‬‬
‫‪‬‬
‫‪ ~ F‬‬
‫‪1, n  2 ,‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪t‬‬
‫‪ n  2 ,1 ‬‬
‫‪2‬‬
‫‪‬‬
‫ברגרסיה פשוטה מבחן ‪ F‬שקול למבחן ‪ ,t‬כלומר אם במבחן ‪ F‬דחינו את השערת האפס‪,‬‬
‫‪8‬‬
‫אזי נדחה גם ב‪.t-‬‬
‫נחזור לדוגמה ונבדוק השערות בעזרת ניתוח שונות‬
‫‪yˆ i  10  2 x i‬‬
‫נבדוק השערות הבאות‬
‫לשיפוע באמצעות מבחן ‪:F‬‬
‫‪1  0‬‬
‫‪H0 :‬‬
‫‪1  0‬‬
‫‪H1 :‬‬
‫‪yi  y  y  y  2‬‬
‫‪i‬‬
‫‪1369‬‬
‫‪3600‬‬
‫‪324‬‬
‫‪3600‬‬
‫‪529‬‬
‫‪4‬‬
‫‪625‬‬
‫‪1681‬‬
‫‪1444‬‬
‫‪484‬‬
‫‪13660‬‬
‫חישוב סכומי הריבעים (‪:)SS‬‬
‫‪ y   13660‬‬
‫‪n‬‬
‫‪2‬‬
‫‪i‬‬
‫‪y‬‬
‫‪SST ‬‬
‫‪i 1‬‬
‫‪ x i  x   2 3400  13600‬‬
‫‪2‬‬
‫‪2‬‬
‫‪n‬‬
‫‪‬‬
‫‪SSR  b1‬‬
‫‪2‬‬
‫‪i 1‬‬
‫‪SSE  SST  SSR  13660  13600  60‬‬
‫‪9‬‬
‫‪-37‬‬
‫‪-60‬‬
‫‪18‬‬
‫‪60‬‬
‫‪-23‬‬
‫‪-2‬‬
‫‪25‬‬
‫‪-41‬‬
‫‪38‬‬
‫‪22‬‬
‫‪0‬‬
‫‪2‬‬
‫‪yi x i  x  x i  x ‬‬
‫‪73‬‬
‫‪-20‬‬
‫‪400‬‬
‫‪50‬‬
‫‪-30‬‬
‫‪900‬‬
‫‪128‬‬
‫‪10‬‬
‫‪100‬‬
‫‪170‬‬
‫‪30‬‬
‫‪900‬‬
‫‪87‬‬
‫‪-10‬‬
‫‪100‬‬
‫‪108‬‬
‫‪0‬‬
‫‪0‬‬
‫‪135‬‬
‫‪10‬‬
‫‪100‬‬
‫‪69‬‬
‫‪-20‬‬
‫‪400‬‬
‫‪148‬‬
‫‪20‬‬
‫‪400‬‬
‫‪132‬‬
‫‪10‬‬
‫‪100‬‬
‫‪1100‬‬
‫‪0‬‬
‫‪3400‬‬
‫‪110‬‬
‫‪1366‬‬
‫‪xi‬‬
‫‪30‬‬
‫‪20‬‬
‫‪60‬‬
‫‪80‬‬
‫‪40‬‬
‫‪50‬‬
‫‪60‬‬
‫‪30‬‬
‫‪70‬‬
‫‪60‬‬
‫‪500‬‬
‫‪50‬‬
‫‪340‬‬
‫‪i‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪6‬‬
‫‪7‬‬
‫‪8‬‬
‫‪9‬‬
‫‪10‬‬
‫סכומים‬
‫ממוצע‬
‫שונות‬
‫נבנה טבלת ניתוח שונות עבור דוגמה‬
‫‪ F‬קריטי‬
‫‪F1,8 ,0.05  5.317‬‬
‫‪ F‬ססטיסטי‬
‫‪ MS=SS/df‬דרגות‬
‫חופש‬
‫(‪)df‬‬
‫=‪MSR/MSE‬‬
‫=‪13600/7.5‬‬
‫‪1813.333‬‬
‫סכומי מקור‬
‫ריבועים השונות‬
‫‪)Source( SS‬‬
‫=‪MSR=13600/1‬‬
‫‪=13600‬‬
‫‪1‬‬
‫‪ 13600‬רגרסיה‬
‫‪MSE=60/8=7.5‬‬
‫‪n-2=8‬‬
‫‪ 60‬טעות‬
‫מדגמית‬
‫‪n-1=9‬‬
‫איזור דחייה‪:‬‬
‫‪ 13660‬סה"כ ‪-‬‬
‫‪Total‬‬
‫‪F stat  F1, n  2 ,‬‬
‫‪1 8 1 3 .3 3 3  5 .3 1 7‬‬
‫מסקנה‪ :‬ניתן לראות שערך הסטטיסטי גדול מערך קריטי‪ ,‬לכן נדחה את‬
‫‪ 10‬השערת האפס ונאמר כי שיפוע אינו שווה ל‪ 0-‬ברמת המובהקות ‪.5%‬‬
‫מקדם המתאם מדגמי ‪ – R‬נוסחא חלופית‬
‫‪ R2‬כפי למדנו בהרצאה קודמת‪ ,‬הינו מדד סטטיסטי מבוסס על נתוני‬
‫המדגם המודד את החלק היחסי של הסטייה המוסברת ע"י רגרסיה ביחס‬
‫לסטייה הכוללת‪.‬‬
‫לכן ניתן לחשב מקדם המתאם גם בצורה הבאה‪:‬‬
‫‪SSR‬‬
‫‪SST‬‬
‫‪‬‬
‫‪SST  SSE‬‬
‫‪‬‬
‫‪2‬‬
‫‪R‬‬
‫‪SST‬‬
‫‪2‬‬
‫‪0  R 1‬‬
‫‪1 R 1‬‬
‫ככל ש‪ R2 -‬גבוה יותר‪ ,‬כך מודל הרגרסיה הנבנה יותר טוב וקשר בין‬
‫משתנה הב"ת למשתנה התלוי חזק יותר‪.‬‬
‫‪11‬‬
‫בדיקת השערות לגבי מקדם המתאם‬
‫כאשר מקדם המתאם שווה ל‪ ,0-‬אזי גם שיפוע שווה ל‪.0-‬‬
‫לכן במקום לבדוק השערות לגבי שיפוע‪H 0 :  1  0 :‬‬
‫‪1  0‬‬
‫‪H1 :‬‬
‫ניתן לבצע בדיקת השערות לגבי מקדם המתאם של אוכלוסיה‪:‬‬
‫‪ 0‬‬
‫‪H0 :‬‬
‫‪ 0‬‬
‫‪H1 :‬‬
‫משמעות של השערת האפס‪ :‬לא קיים קשר ליניארי בין משתנה הב"ת‬
‫למשתנה התלוי‪.‬‬
‫ניתן לבדוק את ההשערות הנ"ל או באמצעות מבחן ‪ T‬או באמצעות ניתוח‬
‫שונות ומבחן ‪.F‬‬
‫מבחן ‪T‬‬
‫‪R n2‬‬
‫‪t stat ‬‬
‫ססטיסטי המבחן‪:‬‬
‫‪2‬‬
‫‪1 R‬‬
‫איזור דחייה (דו‪-‬זנבי)‪:‬‬
‫‪12‬‬
‫‪‬‬
‫‪2‬‬
‫‪n  2 ,1 ‬‬
‫‪t stat  t crit  t‬‬
‫נחזור לדוגמה ונבדוק השערות למקדם המתאם‬
‫‪yˆ i  10  2 x i‬‬
‫נבדוק השערות הבאות‪:‬‬
‫‪ 0‬‬
‫‪H0 :‬‬
‫‪ 0‬‬
‫‪H1 :‬‬
‫‪yi  y  y  y  2‬‬
‫‪i‬‬
‫מקדם מתאם מדגמי‪:‬‬
‫‪ 0.9956‬‬
‫‪13600‬‬
‫‪‬‬
‫‪13660‬‬
‫‪ 0.9978‬‬
‫‪x‬‬
‫‪y‬‬
‫‪ b1‬‬
‫‪SSR‬‬
‫‪R ‬‬
‫‪2‬‬
‫‪SST‬‬
‫‪2‬‬
‫‪R ‬‬
‫‪R‬‬
‫נבצע בדיקת השערות במבחן ‪:T‬‬
‫‪ 42.58‬‬
‫‪0.9978 8‬‬
‫‪1  0.9956‬‬
‫‪‬‬
‫‪R n2‬‬
‫‪2‬‬
‫‪1 R‬‬
‫‪42.58  t crit  t 8 ,0.975  2.306‬‬
‫‪13‬‬
‫‪1369‬‬
‫‪3600‬‬
‫‪324‬‬
‫‪3600‬‬
‫‪529‬‬
‫‪4‬‬
‫‪625‬‬
‫‪1681‬‬
‫‪1444‬‬
‫‪484‬‬
‫‪13660‬‬
‫‪t stat ‬‬
‫‪-37‬‬
‫‪-60‬‬
‫‪18‬‬
‫‪60‬‬
‫‪-23‬‬
‫‪-2‬‬
‫‪25‬‬
‫‪-41‬‬
‫‪38‬‬
‫‪22‬‬
‫‪0‬‬
‫‪2‬‬
‫‪yi x i  x  x i  x ‬‬
‫‪73‬‬
‫‪-20‬‬
‫‪400‬‬
‫‪50‬‬
‫‪-30‬‬
‫‪900‬‬
‫‪128‬‬
‫‪10‬‬
‫‪100‬‬
‫‪170‬‬
‫‪30‬‬
‫‪900‬‬
‫‪87‬‬
‫‪-10‬‬
‫‪100‬‬
‫‪108‬‬
‫‪0‬‬
‫‪0‬‬
‫‪135‬‬
‫‪10‬‬
‫‪100‬‬
‫‪69‬‬
‫‪-20‬‬
‫‪400‬‬
‫‪148‬‬
‫‪20‬‬
‫‪400‬‬
‫‪132‬‬
‫‪10‬‬
‫‪100‬‬
‫‪1100‬‬
‫‪0‬‬
‫‪3400‬‬
‫‪110‬‬
‫‪1366‬‬
‫‪xi‬‬
‫‪30‬‬
‫‪20‬‬
‫‪60‬‬
‫‪80‬‬
‫‪40‬‬
‫‪50‬‬
‫‪60‬‬
‫‪30‬‬
‫‪70‬‬
‫‪60‬‬
‫‪500‬‬
‫‪50‬‬
‫‪340‬‬
‫‪i‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪6‬‬
‫‪7‬‬
‫‪8‬‬
‫‪9‬‬
‫‪10‬‬
‫סכומים‬
‫ממוצע‬
‫שונות‬
‫מסקנה‪ :‬נדחה את השערת האפס‬
‫ברמת מובהקות ‪ 5%‬ונאמר שיש‬
‫קשר ליניארי בין משתנה הב"ת‬
‫למשתנה התלוי ושיפוע שונה מ‪.0-‬‬