Transcript Document
מודלים סטטיסטיים: שימושים ופירושים (ללא סטטיסטיקאים) ד"ר חגית הוכנר ביה"ס לבריאות הציבור האוניברסיטה העברית והדסה סוגי מודלים לפי סוגי המשתנים הנחקרים משתנה תלוי (תוצאה) רציף משתנה (1רציף ,סדור, קטגוריאלי, בלתי תלוי דיכוטומי (חשיפה) (2יחיד ,רבים רגרסיה לינארית דיכוטומי רגרסיה לוגיסטית זמן הישרדות מודלCO X רגרסיה לינארית פשוטה • • • • קשר לינארי בין שני משתנים רציפים מקדם מתאם סימטרי -1≤ r ≤1 הגדרה של תפקידי XוY - דוגמאות: קשר בין הכנסה ( )Yלהשכלה ()X קשר בין גובה הבן ( )Yלגובה האב ()X קשר בין מרחק מתחנת כיבוי אש לנזקי שריפה רגרסיה לינארית פשוטה • תפקידי Xו:Y - – Xמשתנה מסביר ,מנבא ,בלתי תלוי ,חשיפהcovariate , – Yמשתנה מוסבר ,תלוי ,תוצאהoutcome , • אמידת הממוצע של Yבהינתן ערכי המשתנה .X (או באופן כללי :אמידת הפונקציה המתאימה ביותר לניבוי משתנה אחד לפי ערכי משתנים נוספים) • סוגי קשרים: – סיבתי ,לא סיבתי • שימושים: – הבנת קשרים בין תופעות – תמצות הקשר (מידול) – ניבוי ערך Yבאמצעות ערך X גובה ההורה וגובה הילד )(Y מהו הקו ה"מתאים ביותר"? )(X Galton 1886 קו הרגרסיה • אמידת הקו המתאים ביותר לתיאור הקשר בין XוY - • עבור זוגות הנתונים מתקיים הקשר: yi a bxi ei כאשר aחותך b ,שיפוע e ,שגיאה מקרית (=רעש) y משמעויות חותך :תכונה מתמטית של הקו שגיאה מקרית :המידה בה Yנמצא מעל או מתחת לקו ,עבור ערך Xנתון (=טיב התאמה). שיפוע :מידת הקשר בין Xו - Y -השינוי ב Y -הכרוך בשינוי של יחידה אחת בX - b a x קו הרגרסיה • שיטת הריבועים הפחותים :מחפשים aו b -עבורם סכום ריבועי הסטיות מהקו (סכום ריבועי המרחקים בין Yבפועל לבין Yהמנובא ע"י הקו) הוא המינימלי. דוגמא: • 2000זוגות של אבות ובנים בריטים • משוואת הרגרסיה: )Y predicted(son’s height)=a + b*X(father’s height 107.04 0.404 • ניבוי :אב 170ס"מ בן 175.7ס"מ מחקר הילודה הירושלמי:1 דוגמא The Jerusalem Perinatal Family Follow-Up Study • The Jerusalem Perinatal Study (JPS) included all 17,003 births during 1974-1976. • Extensive archival data, e.g. maternal pre-pregnancy BMI, pregnancy weight gain, birth weight, demographics, life-style. • Medical examinations at age 17 (~70%). • Follow-up of 1400 offspring: Measurement of cardio-metabolic risk factors at age 32 (range 30-35) - BMI, waist circumference, glucose, insulin, blood pressure (BP), lipids. • Medical and family history, socio-demographic, lifestyle, nutrition. • Genotyping of ~180 candidate genes (~1400 tagSNPs) in motheroffspring pairs. • 900 fathers recently recruited. הקשר בין משקל בגיל 17לבין BMIבגיל 32 • גרף הפיזור :מתאר את ההשתנות המשותפת בין שני משתנים כמותיים. • האם קיים קשר? כיצד ניתן לכמת אותו? תוצאות רגרסיה לינארית פשוטה Dependent: BMI 32 B std. error 95% CI P-value Weight 17, kg .239 .010 .218, .259 <.001 constant 11.099 .674 9.776, 12.422 <.001 BMI 32 Y 11.099.239* X ?p-value -מהי משמעות ה ?מהי השערת האפס? מהי האלטרנטיבה .24 units BMI 11.1 1 kg weight Weight 17 H1: B≠0 H0: B=0 תוצאות רגרסיה לינארית פשוטה Dependent: BMI 32 P-value 95% CI std. error B <.001 .218, .259 .010 .239 Weight 17, kg <.001 9.776, 12.422 .674 11.099 constant R squared 0.319 32%מהשונות בBMI - בגיל 32מוסברת ע"י המשקל בגיל 17 השונות המוסברת Weight 17 BMI 32 רגרסיה לינארית מרובה • הרחבה של הרגרסיה הלינארית הפשוטה • מספר משתנים מסבירים: Y a b x b x b x 3i 3 2i Yגובה הילד X1גובה האב X2 ,גובה האם X3 ,השכלת האב 2 1i 1 i • בדיקת הקשר בין Xiלבין Yכאשר המשתנים האחרים מקובעים ( ,adjustmentפיקוח). – כך למשל b1 ,מבטא את השינוי ב Y -עבור שינוי של יחידה אחת במשתנה ,X1כאשר X2ו X3 -מוחזקים כקבועים. מדוע חשוב? מספר נקודות לציון • טיב התאמה או אחוז השונות (של המשתנה התלוי) המוסברת על ידי כלל המשתנים. • :Adjusted R2מדד מתוקן לשונות המוסברת המביא בחשבון את מספר המשתנים הבלתי תלויים. • מולטיקולינאריות :קשר ליניארי חזק מאד בין המשתנים המסבירים .מולטיקולינאריות פוגעת ביכולת האמידה של המודל. תוצאות רגרסיה לינארית מרובה Dependent: BMI 32 MODEL I - univariate B std. error 95% CI P-value Weight 17, kg .239 .010 .218, .259 <.001 MODEL II – multivariate B std. error 95% CI P-value Weight 17, kg .263 .011 .241, .285 <.001 Birth weight, kg -.671 .203 -1.070, -.272 .001 Male -.914 .268 -1.440, -.388 .001 R squared .319 Adjusted R squared .333 b1 Y b2 X1 X2 מן הספרות Lawlor et al. Circulation 2004; 110:2417-23 רגרסיה לוגיסטית • המשתנה התלוי דיכוטומי :מקבל שני ערכים ()0,1 – למשל ,מקרה/ביקורת ,השמנת יתר (כן/לא) • משתנה מסביר יחיד או רבים. • ניבוי במונחים של הסתברות (בין 0ל :)1-ההסתברות ש Y=1 -בהינתן Xמסוים. – למשל ,ההסתברות לפתח )Y( MIעבור פרט עם )X( BMI של 27ק"ג/מ'2 כיצד צפויה להיראות הצגה גרפית של הנתונים? לבין ההסתברותX הקשר (הלא לינארי) בין לפי משוואת הרגרסיה הלוגיסטיתY=1 -ל (Y) Plot of the probability of detecting metastasis in a lymph node by H&E versus the natural logarithm of maximum tumor focus diameter (in millimeters). Nodes with metastases detected by H&E S-shaped curve derived from a logistic regression model fit to the data P Nodes with metastases not detected by H&E 1 1 e ( a bX ) (X) Vollmer R T et al. Clin Cancer Res 2003;9:5630-5635 מספר נקודות לציון • נראות ( :)likelihoodההסתברות לנתונים בהינתן אומדני הפרמטרים. • ) - -2*log(likelihoodמדד לטיב התאמה .נרצה שערך זה יהיה קטן ככל האפשר. • Odds ratioהוא אומדן טוב ליחס הסיכונים ( )relative riskכאשר הימצאות המחלה נמוכה (.)<10% רגרסיה לוגיסטית מרובה “Higher levels of long-chain n-3 polyunsaturated fatty acids in red blood cell membranes are associated with lower risk of sudden cardiac arrest. Whether membrane levels of alphalinolenic acid, a mediumchain n-3 polyunsaturated fatty acid, show a similar association is unclear.” מהי המסקנה ?העולה מהתוצאות Lemaitre et al. Metabolism. 2009;58:534-40 Cox proportional hazards model • • • • • אנליזת הישרדות משתנה תלוי :זמן עד אירוע (או עד סוף המעקב) אירוע :מוות ,מחלה ,הישנות)0,1( ... follow-up: start TIME event משתנה מסביר יחיד או רבים. מדד הקשר .Hazard Ratio (HR) :ניתן לפרש כמו ORאו RR משקל לידה ותמותת אימהות “we have shown a U-shaped relationship between birth weight of offspring and long-term overall mortality rates in their mothers…findings suggest that a genetic pathway may explain, at least in part, the association between fetal development and chronic diseases later in life. However, maternal obesity, smoking, socioeconomic status and maternal health characteristics during pregnancy may confound this association.” האם מאפיינים אימהיים אכן מבלבלים ?בקשר שבין משקל לידה ותמותת האם Friedlander et al. Ann Epidemiol. 2009;19:112-7 מנבאים של תמותה לאחר אבחון סרטן Kaplan-Meier survival curves Death rates per 10,000PY: p<0.001, log rank test IUFD+ IUFD- Crude RR 36.5 28.4-44.6 17.3 16.4-18.1 2.11 1.7-2.6 Multivariate Cox proportional hazards models of allcause and cause-specific mortality of mothers with and without stillbirths. HR (95% CI) Models adjusting for: Sociodemographic variables (SD) SD and maternal conditions SD, maternal conditions and placental synd. All Causes 1.71 (1.36-2.15) 1.56 (1.24-1.97) 1.40 (1.11-1.77) CHD 2.96 (1.54-5.69) 2.42 (1.25-4.69) 2.00 (1.02-3.93) Circulatory diseases 2.45 (1.49-4.04) 1.94 (1.17-3.21) 1.70 (1.02-2.84) Cancer 1.33 (0.81-2.20) 1.38 (0.83-2.27) 1.29 (0.78-2.15) Renal diseases 7.14 (2.36-21.6) 5.60 (1.81-17.3) 4.70 (1.47-15.0) Other causes 1.28 (0.65-2.49) 1.09 (0.56-2.14) 0.96 (0.49-1.90)