Transcript Document

‫מודלים סטטיסטיים‪:‬‬
‫שימושים ופירושים‬
‫(ללא סטטיסטיקאים)‬
‫ד"ר חגית הוכנר‬
‫ביה"ס לבריאות הציבור‬
‫האוניברסיטה העברית והדסה‬
‫סוגי מודלים לפי סוגי המשתנים הנחקרים‬
‫משתנה תלוי (תוצאה)‬
‫רציף‬
‫משתנה ‪ (1‬רציף‪ ,‬סדור‪,‬‬
‫קטגוריאלי‪,‬‬
‫בלתי תלוי‬
‫דיכוטומי‬
‫(חשיפה)‬
‫‪ (2‬יחיד‪ ,‬רבים‬
‫רגרסיה‬
‫לינארית‬
‫דיכוטומי‬
‫רגרסיה‬
‫לוגיסטית‬
‫זמן‬
‫הישרדות‬
‫מודל‪CO‬‬
‫‪X‬‬
‫רגרסיה לינארית פשוטה‬
‫•‬
‫•‬
‫•‬
‫•‬
‫קשר לינארי בין שני משתנים רציפים‬
‫מקדם מתאם סימטרי ‪-1≤ r ≤1‬‬
‫הגדרה של תפקידי ‪ X‬ו‪Y -‬‬
‫דוגמאות‪:‬‬
‫קשר בין הכנסה (‪ )Y‬להשכלה (‪)X‬‬
‫קשר בין גובה הבן (‪ )Y‬לגובה האב (‪)X‬‬
‫קשר בין מרחק מתחנת כיבוי אש לנזקי שריפה‬
‫רגרסיה לינארית פשוטה‬
‫• תפקידי ‪ X‬ו‪:Y -‬‬
‫– ‪ X‬משתנה מסביר‪ ,‬מנבא‪ ,‬בלתי תלוי‪ ,‬חשיפה‪covariate ,‬‬
‫– ‪ Y‬משתנה מוסבר‪ ,‬תלוי‪ ,‬תוצאה‪outcome ,‬‬
‫• אמידת הממוצע של ‪ Y‬בהינתן ערכי המשתנה ‪.X‬‬
‫(או באופן כללי‪ :‬אמידת הפונקציה המתאימה ביותר‬
‫לניבוי משתנה אחד לפי ערכי משתנים נוספים)‬
‫• סוגי קשרים‪:‬‬
‫– סיבתי‪ ,‬לא סיבתי‬
‫• שימושים‪:‬‬
‫– הבנת קשרים בין תופעות‬
‫– תמצות הקשר (מידול)‬
‫– ניבוי ערך ‪ Y‬באמצעות ערך ‪X‬‬
‫גובה ההורה וגובה הילד‬
‫)‪(Y‬‬
‫מהו הקו ה"מתאים‬
‫ביותר"?‬
‫)‪(X‬‬
‫‪Galton 1886‬‬
‫קו הרגרסיה‬
‫• אמידת הקו המתאים ביותר לתיאור הקשר בין ‪ X‬ו‪Y -‬‬
‫• עבור זוגות הנתונים מתקיים הקשר‪:‬‬
‫‪yi  a  bxi  ei‬‬
‫כאשר ‪ a‬חותך‪ b ,‬שיפוע‪ e ,‬שגיאה מקרית (=רעש)‬
‫‪y‬‬
‫משמעויות‬
‫‪ ‬חותך‪ :‬תכונה מתמטית של הקו‬
‫‪ ‬שגיאה מקרית‪ :‬המידה בה ‪ Y‬נמצא מעל‬
‫או מתחת לקו‪ ,‬עבור ערך ‪ X‬נתון (=טיב‬
‫התאמה)‪.‬‬
‫‪ ‬שיפוע‪ :‬מידת הקשר בין ‪ X‬ו‪ - Y -‬השינוי‬
‫ב‪ Y -‬הכרוך בשינוי של יחידה אחת ב‪X -‬‬
‫‪b‬‬
‫‪a‬‬
‫‪x‬‬
‫קו הרגרסיה‬
‫• שיטת הריבועים הפחותים‪ :‬מחפשים ‪ a‬ו‪ b -‬עבורם‬
‫סכום ריבועי הסטיות מהקו (סכום ריבועי המרחקים‬
‫בין ‪ Y‬בפועל לבין ‪ Y‬המנובא ע"י הקו) הוא המינימלי‪.‬‬
‫דוגמא‪:‬‬
‫• ‪ 2000‬זוגות של אבות ובנים בריטים‬
‫• משוואת הרגרסיה‪:‬‬
‫)‪Y predicted(son’s height)=a + b*X(father’s height‬‬
‫‪107.04 0.404‬‬
‫• ניבוי‪ :‬אב ‪ 170‬ס"מ בן ‪ 175.7‬ס"מ‬
‫ מחקר הילודה הירושלמי‬:1 ‫דוגמא‬
The Jerusalem Perinatal Family Follow-Up Study
• The Jerusalem Perinatal Study (JPS) included all 17,003 births
during 1974-1976.
• Extensive archival data, e.g. maternal pre-pregnancy BMI,
pregnancy weight gain, birth weight, demographics, life-style.
• Medical examinations at age 17 (~70%).
• Follow-up of 1400 offspring: Measurement of cardio-metabolic risk
factors at age 32 (range 30-35) - BMI, waist circumference, glucose,
insulin, blood pressure (BP), lipids.
• Medical and family history, socio-demographic, lifestyle, nutrition.
• Genotyping of ~180 candidate genes (~1400 tagSNPs) in motheroffspring pairs.
• 900 fathers recently recruited.
‫הקשר בין משקל בגיל ‪ 17‬לבין ‪ BMI‬בגיל ‪32‬‬
‫• גרף הפיזור‪ :‬מתאר את ההשתנות המשותפת בין שני‬
‫משתנים כמותיים‪.‬‬
‫• האם קיים קשר? כיצד ניתן לכמת אותו?‬
‫תוצאות רגרסיה לינארית פשוטה‬
Dependent: BMI 32
B
std. error
95% CI
P-value
Weight 17, kg
.239
.010
.218, .259
<.001
constant
11.099
.674
9.776, 12.422
<.001
BMI 32
Y 11.099.239* X
?p-value -‫מהי משמעות ה‬
?‫מהי השערת האפס? מהי האלטרנטיבה‬
.24 units BMI
11.1
1 kg weight
Weight 17
H1: B≠0
H0: B=0
‫תוצאות רגרסיה לינארית פשוטה‬
‫‪Dependent: BMI 32‬‬
‫‪P-value‬‬
‫‪95% CI‬‬
‫‪std. error‬‬
‫‪B‬‬
‫‪<.001‬‬
‫‪.218, .259‬‬
‫‪.010‬‬
‫‪.239‬‬
‫‪Weight 17, kg‬‬
‫‪<.001‬‬
‫‪9.776, 12.422‬‬
‫‪.674‬‬
‫‪11.099‬‬
‫‪constant‬‬
‫‪R squared 0.319‬‬
‫‪ 32%‬מהשונות ב‪BMI -‬‬
‫בגיל ‪ 32‬מוסברת ע"י‬
‫המשקל בגיל ‪17‬‬
‫השונות המוסברת‬
‫‪Weight 17‬‬
‫‪BMI 32‬‬
‫רגרסיה לינארית מרובה‬
‫• הרחבה של הרגרסיה הלינארית הפשוטה‬
‫• מספר משתנים מסבירים‪:‬‬
‫‪Y  a b x b x b x‬‬
‫‪3i‬‬
‫‪3‬‬
‫‪2i‬‬
‫‪ Y‬גובה הילד‬
‫‪ X1‬גובה האב‪ X2 ,‬גובה האם‪ X3 ,‬השכלת האב‬
‫‪2‬‬
‫‪1i‬‬
‫‪1‬‬
‫‪i‬‬
‫• בדיקת הקשר בין ‪ Xi‬לבין ‪ Y‬כאשר המשתנים‬
‫האחרים מקובעים (‪ ,adjustment‬פיקוח)‪.‬‬
‫– כך למשל‪ b1 ,‬מבטא את השינוי ב‪ Y -‬עבור שינוי של‬
‫יחידה אחת במשתנה ‪ ,X1‬כאשר ‪ X2‬ו‪ X3 -‬מוחזקים‬
‫כקבועים‪.‬‬
‫‪‬מדוע חשוב?‬
‫מספר נקודות לציון‬
‫• טיב התאמה או אחוז השונות (של המשתנה‬
‫התלוי) המוסברת על ידי כלל המשתנים‪.‬‬
‫• ‪ :Adjusted R2‬מדד מתוקן לשונות המוסברת‬
‫המביא בחשבון את מספר המשתנים הבלתי‬
‫תלויים‪.‬‬
‫• מולטיקולינאריות‪ :‬קשר ליניארי חזק מאד בין‬
‫המשתנים המסבירים‪ .‬מולטיקולינאריות פוגעת‬
‫ביכולת האמידה של המודל‪.‬‬
‫תוצאות רגרסיה לינארית מרובה‬
Dependent: BMI 32
MODEL I - univariate
B
std. error
95% CI
P-value
Weight 17, kg
.239
.010
.218, .259
<.001
MODEL II – multivariate B
std. error
95% CI
P-value
Weight 17, kg
.263
.011
.241, .285
<.001
Birth weight, kg
-.671
.203
-1.070, -.272
.001
Male
-.914
.268
-1.440, -.388
.001
R squared .319
Adjusted R squared .333
b1
Y
b2
X1
X2
‫מן הספרות‬
Lawlor et al. Circulation 2004; 110:2417-23
‫רגרסיה לוגיסטית‬
‫• המשתנה התלוי דיכוטומי‪ :‬מקבל שני ערכים (‪)0,1‬‬
‫– למשל‪ ,‬מקרה‪/‬ביקורת‪ ,‬השמנת יתר (כן‪/‬לא)‬
‫• משתנה מסביר יחיד או רבים‪.‬‬
‫• ניבוי במונחים של הסתברות (בין ‪ 0‬ל‪ :)1-‬ההסתברות‬
‫ש‪ Y=1 -‬בהינתן ‪ X‬מסוים‪.‬‬
‫– למשל‪ ,‬ההסתברות לפתח ‪ )Y( MI‬עבור פרט עם ‪)X( BMI‬‬
‫של ‪ 27‬ק"ג‪/‬מ'‪2‬‬
‫‪ ‬כיצד צפויה להיראות הצגה גרפית של הנתונים?‬
‫ לבין ההסתברות‬X ‫הקשר (הלא לינארי) בין‬
‫ לפי משוואת הרגרסיה הלוגיסטית‬Y=1 -‫ל‬
(Y)
Plot of the probability of detecting metastasis in a lymph node by H&E versus the
natural logarithm of maximum tumor focus diameter (in millimeters).
Nodes with metastases
detected by H&E
S-shaped curve derived
from a logistic regression
model fit to the data
P
Nodes with metastases
not detected by H&E
1
1  e ( a bX )
(X)
Vollmer R T et al. Clin Cancer Res 2003;9:5630-5635
‫מספר נקודות לציון‬
‫• נראות (‪ :)likelihood‬ההסתברות לנתונים בהינתן‬
‫אומדני הפרמטרים‪.‬‬
‫• )‪ - -2*log(likelihood‬מדד לטיב התאמה‪ .‬נרצה‬
‫שערך זה יהיה קטן ככל האפשר‪.‬‬
‫• ‪ Odds ratio‬הוא אומדן טוב ליחס הסיכונים‬
‫(‪ )relative risk‬כאשר הימצאות המחלה נמוכה‬
‫(‪.)<10%‬‬
‫רגרסיה לוגיסטית מרובה‬
“Higher levels of long-chain
n-3 polyunsaturated fatty
acids in red blood cell
membranes are associated
with lower risk of sudden
cardiac arrest. Whether
membrane levels of alphalinolenic acid, a mediumchain n-3 polyunsaturated
fatty acid, show a similar
association is unclear.”
‫מהי המסקנה‬
?‫העולה מהתוצאות‬
Lemaitre et al. Metabolism. 2009;58:534-40
‫‪Cox proportional hazards model‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫אנליזת הישרדות‬
‫משתנה תלוי‪ :‬זמן עד אירוע (או עד סוף המעקב)‬
‫אירוע‪ :‬מוות‪ ,‬מחלה‪ ,‬הישנות‪)0,1( ...‬‬
‫‪follow-up: start‬‬
‫‪TIME‬‬
‫‪event‬‬
‫משתנה מסביר יחיד או רבים‪.‬‬
‫מדד הקשר‪ .Hazard Ratio (HR) :‬ניתן לפרש כמו‬
‫‪ OR‬או ‪RR‬‬
‫משקל לידה ותמותת אימהות‬
“we have shown a U-shaped relationship between birth weight of offspring and long-term
overall mortality rates in their mothers…findings suggest that a genetic pathway may explain, at
least in part, the association between fetal development and chronic diseases later in life.
However, maternal obesity, smoking, socioeconomic status and maternal health characteristics
during pregnancy may confound this association.”
‫האם מאפיינים אימהיים אכן מבלבלים‬
?‫בקשר שבין משקל לידה ותמותת האם‬
Friedlander et al. Ann Epidemiol. 2009;19:112-7
‫מנבאים של תמותה לאחר אבחון סרטן‬
Kaplan-Meier
survival curves
Death rates per
10,000PY:
p<0.001, log rank test
IUFD+
IUFD-
Crude
RR
36.5
28.4-44.6
17.3
16.4-18.1
2.11
1.7-2.6
Multivariate Cox proportional hazards models of allcause and cause-specific mortality of mothers with and
without stillbirths. HR (95% CI)
Models
adjusting for: Sociodemographic
variables (SD)
SD and maternal
conditions
SD, maternal
conditions and
placental synd.
All Causes
1.71 (1.36-2.15)
1.56 (1.24-1.97)
1.40 (1.11-1.77)
CHD
2.96 (1.54-5.69)
2.42 (1.25-4.69)
2.00 (1.02-3.93)
Circulatory
diseases
2.45 (1.49-4.04)
1.94 (1.17-3.21)
1.70 (1.02-2.84)
Cancer
1.33 (0.81-2.20)
1.38 (0.83-2.27)
1.29 (0.78-2.15)
Renal
diseases
7.14 (2.36-21.6)
5.60 (1.81-17.3)
4.70 (1.47-15.0)
Other causes
1.28 (0.65-2.49)
1.09 (0.56-2.14)
0.96 (0.49-1.90)