Transcript Document
מודלים סטטיסטיים:
שימושים ופירושים
(ללא סטטיסטיקאים)
ד"ר חגית הוכנר
ביה"ס לבריאות הציבור
האוניברסיטה העברית והדסה
סוגי מודלים לפי סוגי המשתנים הנחקרים
משתנה תלוי (תוצאה)
רציף
משתנה (1רציף ,סדור,
קטגוריאלי,
בלתי תלוי
דיכוטומי
(חשיפה)
(2יחיד ,רבים
רגרסיה
לינארית
דיכוטומי
רגרסיה
לוגיסטית
זמן
הישרדות
מודלCO
X
רגרסיה לינארית פשוטה
•
•
•
•
קשר לינארי בין שני משתנים רציפים
מקדם מתאם סימטרי -1≤ r ≤1
הגדרה של תפקידי XוY -
דוגמאות:
קשר בין הכנסה ( )Yלהשכלה ()X
קשר בין גובה הבן ( )Yלגובה האב ()X
קשר בין מרחק מתחנת כיבוי אש לנזקי שריפה
רגרסיה לינארית פשוטה
• תפקידי Xו:Y -
– Xמשתנה מסביר ,מנבא ,בלתי תלוי ,חשיפהcovariate ,
– Yמשתנה מוסבר ,תלוי ,תוצאהoutcome ,
• אמידת הממוצע של Yבהינתן ערכי המשתנה .X
(או באופן כללי :אמידת הפונקציה המתאימה ביותר
לניבוי משתנה אחד לפי ערכי משתנים נוספים)
• סוגי קשרים:
– סיבתי ,לא סיבתי
• שימושים:
– הבנת קשרים בין תופעות
– תמצות הקשר (מידול)
– ניבוי ערך Yבאמצעות ערך X
גובה ההורה וגובה הילד
)(Y
מהו הקו ה"מתאים
ביותר"?
)(X
Galton 1886
קו הרגרסיה
• אמידת הקו המתאים ביותר לתיאור הקשר בין XוY -
• עבור זוגות הנתונים מתקיים הקשר:
yi a bxi ei
כאשר aחותך b ,שיפוע e ,שגיאה מקרית (=רעש)
y
משמעויות
חותך :תכונה מתמטית של הקו
שגיאה מקרית :המידה בה Yנמצא מעל
או מתחת לקו ,עבור ערך Xנתון (=טיב
התאמה).
שיפוע :מידת הקשר בין Xו - Y -השינוי
ב Y -הכרוך בשינוי של יחידה אחת בX -
b
a
x
קו הרגרסיה
• שיטת הריבועים הפחותים :מחפשים aו b -עבורם
סכום ריבועי הסטיות מהקו (סכום ריבועי המרחקים
בין Yבפועל לבין Yהמנובא ע"י הקו) הוא המינימלי.
דוגמא:
• 2000זוגות של אבות ובנים בריטים
• משוואת הרגרסיה:
)Y predicted(son’s height)=a + b*X(father’s height
107.04 0.404
• ניבוי :אב 170ס"מ בן 175.7ס"מ
מחקר הילודה הירושלמי:1 דוגמא
The Jerusalem Perinatal Family Follow-Up Study
• The Jerusalem Perinatal Study (JPS) included all 17,003 births
during 1974-1976.
• Extensive archival data, e.g. maternal pre-pregnancy BMI,
pregnancy weight gain, birth weight, demographics, life-style.
• Medical examinations at age 17 (~70%).
• Follow-up of 1400 offspring: Measurement of cardio-metabolic risk
factors at age 32 (range 30-35) - BMI, waist circumference, glucose,
insulin, blood pressure (BP), lipids.
• Medical and family history, socio-demographic, lifestyle, nutrition.
• Genotyping of ~180 candidate genes (~1400 tagSNPs) in motheroffspring pairs.
• 900 fathers recently recruited.
הקשר בין משקל בגיל 17לבין BMIבגיל 32
• גרף הפיזור :מתאר את ההשתנות המשותפת בין שני
משתנים כמותיים.
• האם קיים קשר? כיצד ניתן לכמת אותו?
תוצאות רגרסיה לינארית פשוטה
Dependent: BMI 32
B
std. error
95% CI
P-value
Weight 17, kg
.239
.010
.218, .259
<.001
constant
11.099
.674
9.776, 12.422
<.001
BMI 32
Y 11.099.239* X
?p-value -מהי משמעות ה
?מהי השערת האפס? מהי האלטרנטיבה
.24 units BMI
11.1
1 kg weight
Weight 17
H1: B≠0
H0: B=0
תוצאות רגרסיה לינארית פשוטה
Dependent: BMI 32
P-value
95% CI
std. error
B
<.001
.218, .259
.010
.239
Weight 17, kg
<.001
9.776, 12.422
.674
11.099
constant
R squared 0.319
32%מהשונות בBMI -
בגיל 32מוסברת ע"י
המשקל בגיל 17
השונות המוסברת
Weight 17
BMI 32
רגרסיה לינארית מרובה
• הרחבה של הרגרסיה הלינארית הפשוטה
• מספר משתנים מסבירים:
Y a b x b x b x
3i
3
2i
Yגובה הילד
X1גובה האב X2 ,גובה האם X3 ,השכלת האב
2
1i
1
i
• בדיקת הקשר בין Xiלבין Yכאשר המשתנים
האחרים מקובעים ( ,adjustmentפיקוח).
– כך למשל b1 ,מבטא את השינוי ב Y -עבור שינוי של
יחידה אחת במשתנה ,X1כאשר X2ו X3 -מוחזקים
כקבועים.
מדוע חשוב?
מספר נקודות לציון
• טיב התאמה או אחוז השונות (של המשתנה
התלוי) המוסברת על ידי כלל המשתנים.
• :Adjusted R2מדד מתוקן לשונות המוסברת
המביא בחשבון את מספר המשתנים הבלתי
תלויים.
• מולטיקולינאריות :קשר ליניארי חזק מאד בין
המשתנים המסבירים .מולטיקולינאריות פוגעת
ביכולת האמידה של המודל.
תוצאות רגרסיה לינארית מרובה
Dependent: BMI 32
MODEL I - univariate
B
std. error
95% CI
P-value
Weight 17, kg
.239
.010
.218, .259
<.001
MODEL II – multivariate B
std. error
95% CI
P-value
Weight 17, kg
.263
.011
.241, .285
<.001
Birth weight, kg
-.671
.203
-1.070, -.272
.001
Male
-.914
.268
-1.440, -.388
.001
R squared .319
Adjusted R squared .333
b1
Y
b2
X1
X2
מן הספרות
Lawlor et al. Circulation 2004; 110:2417-23
רגרסיה לוגיסטית
• המשתנה התלוי דיכוטומי :מקבל שני ערכים ()0,1
– למשל ,מקרה/ביקורת ,השמנת יתר (כן/לא)
• משתנה מסביר יחיד או רבים.
• ניבוי במונחים של הסתברות (בין 0ל :)1-ההסתברות
ש Y=1 -בהינתן Xמסוים.
– למשל ,ההסתברות לפתח )Y( MIעבור פרט עם )X( BMI
של 27ק"ג/מ'2
כיצד צפויה להיראות הצגה גרפית של הנתונים?
לבין ההסתברותX הקשר (הלא לינארי) בין
לפי משוואת הרגרסיה הלוגיסטיתY=1 -ל
(Y)
Plot of the probability of detecting metastasis in a lymph node by H&E versus the
natural logarithm of maximum tumor focus diameter (in millimeters).
Nodes with metastases
detected by H&E
S-shaped curve derived
from a logistic regression
model fit to the data
P
Nodes with metastases
not detected by H&E
1
1 e ( a bX )
(X)
Vollmer R T et al. Clin Cancer Res 2003;9:5630-5635
מספר נקודות לציון
• נראות ( :)likelihoodההסתברות לנתונים בהינתן
אומדני הפרמטרים.
• ) - -2*log(likelihoodמדד לטיב התאמה .נרצה
שערך זה יהיה קטן ככל האפשר.
• Odds ratioהוא אומדן טוב ליחס הסיכונים
( )relative riskכאשר הימצאות המחלה נמוכה
(.)<10%
רגרסיה לוגיסטית מרובה
“Higher levels of long-chain
n-3 polyunsaturated fatty
acids in red blood cell
membranes are associated
with lower risk of sudden
cardiac arrest. Whether
membrane levels of alphalinolenic acid, a mediumchain n-3 polyunsaturated
fatty acid, show a similar
association is unclear.”
מהי המסקנה
?העולה מהתוצאות
Lemaitre et al. Metabolism. 2009;58:534-40
Cox proportional hazards model
•
•
•
•
•
אנליזת הישרדות
משתנה תלוי :זמן עד אירוע (או עד סוף המעקב)
אירוע :מוות ,מחלה ,הישנות)0,1( ...
follow-up: start
TIME
event
משתנה מסביר יחיד או רבים.
מדד הקשר .Hazard Ratio (HR) :ניתן לפרש כמו
ORאו RR
משקל לידה ותמותת אימהות
“we have shown a U-shaped relationship between birth weight of offspring and long-term
overall mortality rates in their mothers…findings suggest that a genetic pathway may explain, at
least in part, the association between fetal development and chronic diseases later in life.
However, maternal obesity, smoking, socioeconomic status and maternal health characteristics
during pregnancy may confound this association.”
האם מאפיינים אימהיים אכן מבלבלים
?בקשר שבין משקל לידה ותמותת האם
Friedlander et al. Ann Epidemiol. 2009;19:112-7
מנבאים של תמותה לאחר אבחון סרטן
Kaplan-Meier
survival curves
Death rates per
10,000PY:
p<0.001, log rank test
IUFD+
IUFD-
Crude
RR
36.5
28.4-44.6
17.3
16.4-18.1
2.11
1.7-2.6
Multivariate Cox proportional hazards models of allcause and cause-specific mortality of mothers with and
without stillbirths. HR (95% CI)
Models
adjusting for: Sociodemographic
variables (SD)
SD and maternal
conditions
SD, maternal
conditions and
placental synd.
All Causes
1.71 (1.36-2.15)
1.56 (1.24-1.97)
1.40 (1.11-1.77)
CHD
2.96 (1.54-5.69)
2.42 (1.25-4.69)
2.00 (1.02-3.93)
Circulatory
diseases
2.45 (1.49-4.04)
1.94 (1.17-3.21)
1.70 (1.02-2.84)
Cancer
1.33 (0.81-2.20)
1.38 (0.83-2.27)
1.29 (0.78-2.15)
Renal
diseases
7.14 (2.36-21.6)
5.60 (1.81-17.3)
4.70 (1.47-15.0)
Other causes
1.28 (0.65-2.49)
1.09 (0.56-2.14)
0.96 (0.49-1.90)