Document 7735330

Download Report

Transcript Document 7735330

‫פרק ה‪1-‬‬
‫מודל הרגרסיה הלוגיסטית‪.‬‬
‫‪1‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫מודל רגרסיה לוגיסטית (‪)logistic regression model‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫מודל הרגרסיה הלוגיסטית מאפשר לתאר את‬
‫ההסתברות למחלה תוך התייחסות בו זמנית למספר‬
‫משתנים מסבירים‪.‬‬
‫גישה זו היא יעילה ונוחה‪.‬‬
‫המודל מציג את פונקצית ‪( Logit‬הלוג'יט) של‬
‫ההסתברות למחלה (תוצאה בינרית) כפונקציה‬
‫לינארית של המשתנים המסבירים‪.‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫מודל רגרסיה לוגיסטית (‪)logistic regression model‬‬
‫‪‬‬
‫‪3‬‬
‫דוגמא‪ :‬הקובץ ‪( heart_attack‬ד"ר ניצה ברקן)‬
‫מעוניינים לבדוק האם קיים קשר בין מקרים של התקף‬
‫לב לבין טיפול מסוים ורמת החרדה של מטופל‪.‬‬
‫משתנה תלוי‪ =1 :attack :‬יקבל התקף לב‪ =0 ,‬לא‬
‫יקבל התקף לב‪ .‬משתנה בלתי תלוי‪:‬‬
‫‪( anxiety‬רמת החרדה)‪ :‬ככל שהערך גבוה‪ ,‬רמת‬
‫החרדה גדלה‪.‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫מודל רגרסיה לוגיסטית (‪)logistic regression model‬‬
‫‪‬‬
‫‪4‬‬
‫הצגה גרפית של הנתונים‪ :‬משתנה תלוי‪attack :‬‬
‫משתנה בלתי תלוי‪anxiety :‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫מודל רגרסיה לוגיסטית (‪)logistic regression model‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪5‬‬
‫קיימת מגמה מסוימת עבור אותם האנשים שלא קיבלו‬
‫התקף לב‪ ,‬ניתן לראות שרמת החרדה שלהם יותר‬
‫קטנה מאשר אלה שכן קיבלו התקף לב‪.‬‬
‫אבל הגרף הנה"ל אינו מספק תמונה ברורה לגבי‬
‫מהות היחסים בין התקפי לב (‪ )attack‬לבין רמת‬
‫החרדה (‪.)anxiety‬‬
‫אחת השיטות להצגה ברורה יותר של הקשר בין‬
‫התוצאה לבין משתנה בלתי תלוי‪ ,‬היא ליצור‬
‫אינטרוולים עבור המשתנה הבלתי תלוי ולחשב‬
‫ממוצעים של המשתנה התלוי בתוך כל אחד‬
‫מהקטעים‪ .‬הגרף המתקבל הינו מהצורה של אות ‪.S‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫משמעות גרפית של המודל‬
‫‪6‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫הגדרת מודל הרגרסיה הלוגיסטית‬
‫‪‬‬
‫המודל המתאים לצורה כזו של עקומה הינו המודל‬
‫הלוגיסטי (‪:)logistic model‬‬
‫) ‪e( 0  1x‬‬
‫‪E (Y )   ( x) ‬‬
‫) ‪1  e( 0  1x‬‬
‫‪ ‬נפעיל ‪ logit transformation‬ונקבל‬
‫‪  ( x) ‬‬
‫‪ln ‬‬
‫‪   0  1 x‬‬
‫‪ 1   ( x) ‬‬
‫‪ ‬כאשר הביטוי‬
‫‪7‬‬
‫)‪ ( x‬‬
‫)‪1   ( x‬‬
‫נקרא ‪ odds‬של ) ‪.  ( x‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫אינטרפרטציה של הפרמטרים‬
‫‪‬‬
‫הגדרה‪ odds ratio :‬מסומן ב‪ OR-‬ומוגדר כיחס בין‬
‫‪ odds‬עבור ‪ x=1‬לבין ‪ odds‬עבור ‪ x=0‬כדלקמן‬
‫))‪ (1) /(1   (1‬‬
‫‪OR ‬‬
‫))‪ (0) /(1   (0‬‬
‫‪‬‬
‫‪‬‬
‫טענה‪ :‬עבור המשתנה המסביר הבינארי ‪,x‬‬
‫הוכחה‪:‬‬
‫‪ln(OR)  1‬‬
‫‪‬‬
‫‪OR  e 1‬‬
‫‪  (1) /(1   (1)) ‬‬
‫‪  (1) ‬‬
‫‪  (0) ‬‬
‫‪ln(OR)  ln ‬‬
‫‪  ln ‬‬
‫‪  ln ‬‬
‫‪  1‬‬
‫‪  (0) /(1   (0)) ‬‬
‫‪ (1   (1) ‬‬
‫‪ (1   (0) ‬‬
‫‪8‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫אומדי נראות מכסימלית למקדמים ברגרסיה לוגיסטית‬
‫‪‬‬
‫עבור תוצאה בינארית שנסמנה באופן כללי על ידי‬
‫) ‪E[Yi ]   ( xi‬‬
‫‪ ‬המודל‬
‫‪1‬‬
‫‪Yi  ‬‬
‫‪0‬‬
‫‪  ( xi ) ‬‬
‫‪T‬‬
‫‪ln ‬‬
‫‪  0  1 xi1  2 xi 2  ...   p xip  xi  , i  1,..., n‬‬
‫‪ 1   ( xi ) ‬‬
‫‪ ‬כאשר‬
‫‪  (0 , 1,...,  p )T‬‬
‫‪ ‬כך שמתקיים‬
‫‪9‬‬
‫; ‪xi  (1, xi1...xip )T‬‬
‫) ‪exp( xi ‬‬
‫‪E[Yi ]   ( xi ) ‬‬
‫) ‪1  exp( xiT ‬‬
‫‪T‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫אומדי נראות מכסימלית למקדמים ברגרסיה לוגיסטית‬
‫‪‬‬
‫האמידה היא בשיטת הנראות המכסימלית עם תוצאה‬
‫המתפלגת ברנולית‪ ,‬בהינתן הערכים של המשתנים‬
‫המסבירים‪ .‬פונקצית הנראות המלאה היא‪:‬‬
‫‪n‬‬
‫) ‪L   P(Yi  yi | X i  xi ) P( X i  xi‬‬
‫‪i 1‬‬
‫‪‬‬
‫כיוון שההתפלגות של גורמי הסיכון ‪ X i‬אינה תלויה‬
‫בפרמטרים של המודל‪ ,‬מספיק למצוא את המכסימום‬
‫של‬
‫‪n‬‬
‫) ‪L*   P (Yi  yi | X i  xi‬‬
‫‪i 1‬‬
‫‪10‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫אומדי נראות מכסימלית למקדמים ברגרסיה לוגיסטית‬
‫‪‬‬
‫נמצא בדרך הרגילה את אמדי הנראות המכסימלית‬
‫עבור הפרמטרים ‪ , ‬את האומדים לטעויות התקן דרך‬
‫מטריצת האינפורמציה ומכאן מבחני מובהקות ורווחי‬
‫סמך למקדמים‪ .‬פונקצית הנראות הינה‬
‫‪1 yi‬‬
‫‪ ‬לוג פונקצית הנראות‪:‬‬
‫‪yi‬‬
‫‪ exp( xi  )  ‬‬
‫‪exp( xi  ) ‬‬
‫‪L* (  )   ‬‬
‫‪1‬‬
‫‪‬‬
‫‪ ‬‬
‫‪‬‬
‫‪T‬‬
‫‪1  exp( xiT  ) ‬‬
‫‪i 1  1  exp( xi  )  ‬‬
‫‪T‬‬
‫‪T‬‬
‫‪n‬‬
‫‪‬‬
‫‪ exp( xi '  ) ‬‬
‫‪‬‬
‫‪exp( xi '  )  ‬‬
‫‪l (  )    yi ln ‬‬
‫‪  (1  yi ) ln 1 ‬‬
‫‪‬‬
‫‪1‬‬
‫‪‬‬
‫(‪exp‬‬
‫‪x‬‬
‫'‬
‫‪‬‬
‫)‬
‫‪1‬‬
‫‪‬‬
‫(‪exp‬‬
‫‪x‬‬
‫'‬
‫‪‬‬
‫)‬
‫‪i 1 ‬‬
‫‪‬‬
‫‪i‬‬
‫‪i‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ ‬‬
‫‪n‬‬
‫‪ ‬את פונ' ) ‪ l (‬נגזור לפי ‪ ‬ונקבל ‪ p  1‬משוואות ה‪score-‬‬
‫) ‪l ( ‬‬
‫‪0‬‬
‫‪‬‬
‫‪11‬‬
‫‪U ( ) ‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫אומדי נראות מכסימלית למקדמים ברגרסיה לוגיסטית‬
‫‪‬‬
‫‪‬‬
‫את מערכת משוואות הנ"ל לא ניתן לפתור אנליטית‬
‫וניתן לחשב רק פתרונות נומריים כדי לקבל את אומדי‬
‫הנראות המכסימלית ˆ‪ ‬למקדמי הרגרסיה (למשל‬
‫דרך שיטת ‪.)Newton-Raphson‬‬
‫מטריצת האינפורמציה ( ‪Fisher Information‬‬
‫‪ )Matrix‬ממימד )‪ ( p  1)  ( p  1‬מתקבלת על ידי‬
‫הנגזרות החלקיות השניות של ) ‪ l ( ‬ביחס ל‪ -‬‬
‫והמטריצה ההופכית נותנת את מטריצת השונות של ˆ‪.‬‬
‫) ‪Var ( ˆ )  I 1 ( ‬‬
‫‪12‬‬
‫‪‬‬
‫מודלים סטטיסטים ב'‬
‫‪  2l (  ) ‬‬
‫‪I ( )  E ‬‬
‫‪2 ‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
‫אומדי נראות מכסימלית ומטריצת השונות‬
‫‪‬‬
‫דוגמא‪ :‬הקובץ ‪heart_attack‬‬
‫‪‬‬
‫‪logistic ← regression ← Analysis‬‬
‫‪ ,dependent=attack‬מימין לשנות את ה‪response -‬‬
‫‪ variable‬ל‪ ← 1-‬להעביר ל‪quantitative variables-‬‬
‫את ‪ ← anxiety‬בלשונית ‪ statistics‬נסמן‬
‫‪ ,covariance matrix‬על מנת לקבל את מטריצת‬
‫השונויות ← ‪finish‬‬
‫‪13‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
SAS ‫פלט‬
Model Information
Data Set
ECLIB000.HEART_ATTACK
Response Variable
attack
Number of Response Levels
2
Number of Observations
20
Model
binary logit
Optimization Technique
Fisher's scoring
Analysis of Maximum Likelihood Estimates
Response Profile
Ordered
Value
attack
attack
Total
Frequency
Parameter
DF
Estimate
Standard
Error
Wald
Chi-Square
Pr > ChiSq
1
0
10
Intercept
1
-7.0925
3.1710
5.0027
0.0253
2
1
10
Anxiety
1
0.1246
0.0553
5.0791
0.0242
Odds Ratio Estimates
Effect
Anxiety
Point Estimate
1.133
Estimated Covariance Matrix
95% Wald
Confidence
Limits
1.016
‫ יוני נצרתי‬,‫ארתור צ'ירגייב‬
1.262
Variable
Intercept
Anxiety
Intercept
10.05521
-0.17262
Anxiety
-0.17262
0.003058
'‫מודלים סטטיסטים ב‬
14
‫אומדי נראות מכסימלית ומטריצת השונות‬
‫‪‬‬
‫דוגמא‪ :‬הקובץ ‪heart_attack‬‬
‫‪‬‬
‫‪logistic ← regression ← Analysis‬‬
‫‪ ,dependent=attack‬מימין לשנות את ה‪response -‬‬
‫‪ variable‬ל‪ ← 1-‬להעביר ל‪quantitative variables-‬‬
‫את ‪ treat‬ואת ‪ ← anxiety‬בלשונית ‪statistics‬‬
‫נסמן ‪ ,covariance matrix‬על מנת לקבל את‬
‫מטריצת השונויות ← ‪finish‬‬
‫‪15‬‬
‫מודלים סטטיסטים ב'‬
‫ארתור צ'ירגייב‪ ,‬יוני נצרתי‬
SAS ‫פלט‬
Model Information
Data Set
ECLIB000.HEART_ATTACK
Response Variable
attack
Number of Response Levels
2
Number of Observations
20
Model
binary logit
Optimization Technique
Fisher's scoring
Response Profile
Ordered
Value
attack
attack
Analysis of Maximum Likelihood Estimates
Total
Frequency
Parameter
DF
Estimate
Standard
Error
Wald
Chi-Square
Pr > ChiSq
1
0
10
Intercept
1
-6.3634
3.2139
3.9203
0.0477
2
1
10
Anxiety
1
0.1190
0.0550
4.6884
0.0304
treat
1
-1.0241
1.1711
0.7647
0.3818
Estimated Covariance Matrix
Odds Ratio Estimates
Effect
Point Estimate
95% Wald
Confidence Limits
Variable
Intercept
Anxiety
1.126
1.011
1.255
Anxiety
treat
0.359
0.036
3.565
treat
‫ יוני נצרתי‬,‫ארתור צ'ירגייב‬
Intercept
Anxiety
treat
10.32914
-0.172
-0.4743
-0.172
0.003023
-0.0012
-0.4743
-0.0012
1.371425
'‫מודלים סטטיסטים ב‬
16