다운로드

Download Report

Transcript 다운로드

임상의를 위한 통계분석
엄상화 [email protected]
인제의대 예방의학교실
Research ..
• Plan
• Conduct
•
Analysis
• Write & Presentation
통계분석 이란 ?
What is A Statistical Analysis ?
Decision making process
수집된 자료로부터 합리적인 결론에 도달하는 의사결정 과정
연구의 전 과정(full spectrum)을 망라한 것.
계획-대상선정(표본추출)-수행-입력-분석-결과작성/해석 의 ’일련’의 과정
‘분석’, 그 자체 보다 data handling이 훨씬 중요 ! (반드시 선행되어야)
‘알고자 하는 내용’을 우선 말(글)로 구체적으로 표현(기술)하기
이를 해결하기 위한
통계분석법 선택하기
결과를 어떻게 나타낼까?: 표(table), 그래프(graph)에 대한 구상..
연구자의 의도가 반영되지 않은, '생명없는' P 값 ?
검증(proof, 檢證)이 아니라, 검정(test, 檢定) !
Statistics is a numerical MAGIC, It’s not Proof, but Test !
1st STEP
통계 기초개념 확인
Questions
1. 조사 결과를 제시할 때는 모든 경우에 반드시 통계분석을 시행하여야 한다.
2. 분포의 정규성(normality) 여부를 평가하는 가장 대표적인 방법은 Kolmogorov-Smirnov
test 이다.
3. 표준오차(S.E.)의 값은 항상 표준편차(S.D.) 의 값보다 작다.
4. 유효표본 크기(effective sample size)는 연구자 보다는, 전문가가 결정해 주어야 한다.
5. 분석결과의 통계적 유의성 확보에서 표본의 크기(대상자 수)는 중요하지 않다
6. 가설검정을 하는 두가지 방법(단측검정, 양측검정)에서 특별한 경우가 아니면 양측검정을
하는 것이 좋다.
7. 조사한 자료(변수)의 척도에 따라 통계분석법이 달라진다.
8. 비교하고자 하는 그룹의 수(두 군, 세 군 이상)에 따라 평균치 비교 통계법이 달라진다.
9. 카이제곱검정(χ2-test)과 교차분석은 다른 것이다.
10. 용량-반응관계를 구명하고 싶다면 일반 카이제곱검정 보다는 경향분석(χ2-test for trend)
를 시도하거나, 결과에서 채택하는 것이 좋다.
예
아니오
(맞다)
(틀리다)
Questions
11. RR, OR, HR 등의 위험도는 95% 신뢰구간을 반드시 함께 제시하여야 한다.
12. 상관계수(r)의 값이 높으면, 반드시 회귀분석의 기울기값(β)도 높다.
13. 한 종속변수(피설명변수)에 대한 여러 개의 독립변수(설명변수)의 영향을 평가하고자 한다
면 반드시 다변량(다중)분석을 해야 한다.
14. 다변량분석(multivaraite analysis)은 단변량분석(univaraite analysis) 보다 상위의 분석법이
므로, 단변량분석은 큰 의미가 없다.
15. Cox proportional hazard analysis는 생존분석법을 이용하여 여러 인자의 영향을 평가하는
대표적인 다변량(다중) 분석법이다.
16. 두 가지 검사 결과나, 2주전과 2주후의 설문 응답분포의 일치도 평가는 Kappa 계수로 하는
것이 가장 적절하다.
17. 표와 그래프가 의미를 충분히 전달할 수 있으면 P값은 표시하지 않아도 무방하다.
18. P값은 절대값이므로, 분석 결과 P>0.05로 나오면 더 이상 의미를 부여하지 않는다.
19. 통계분석 전문가의 자문은 조사수행 후, 분석 돌입 단계에서 구하는 것이 가장 효과적이다.
20. 통계분석 자문을 구할 때는 반드시 부호화지침서(coding instruction)를 함께 제공해야 한다.
Yes
No
(맞다)
(틀리다)
Statistical programs
• SAS, SPSS, S-Plus, Statistica, R
• Stata, JMP, MedCalc
• Excel
Easily accessible?, Cost & Ownership..
2nd STEP
자료 확인
‘필수’ 선행조건 ..
“목적”을 달성할 수 있는 조사 도구
(data collecting sheet)
올바른 Data handling
The first, and the most important step for Statistical Analysis.
입력지침서 (Coding instruction)
데이터 클리닝 (data cleaning)
Data에 대한 완전한 이해 없이는, 분석은 불가능하다!
입력(부호화) 지침서
Coding Instruction
연구의 전 과정을 결코, ‘나홀로’ 할 수 없으므로 …
입력지침서, 왜 작성해야 하는가? (1)
2006/05/10 … ???
이 자료로 무엇을 ‘분석’하려고 할까요? (알 수 있겠습니까?)
입력지침서, 왜 작성해야 하는가? (2)
• 의견 1 (2006/05/12)
1. 데이터의 내용을 상세히 알려 주십시오
(변수명 무엇은 어떤 내용, 입력 1,2,3 등은 어떤 내용 등..)
2. 그리고, 무엇을 할 것인지(어떤 분석을 원하는지)를 한글로 설명해 보십시오.
• 답변 1 (2006/05/13)
초음파상 유방 미세석회화의 수, 모양, 군집상태별 악성 여부를 알고 싶습니다.
• 의견 2 (2006/05/13)
1. 우선, data 입력에 대한 기본 이해가 절대적으로 부족합니다.
(현재 엑셀 파일로는 통계분석을 아예 시도조차 할 수 없습니다.)
2. 제공하는 coding instruction과, 엑셀 틀에 따라 완전히 다시 입력 하십시오!
3. 변수명은 가능한 영어로, 8자 이내로 표기 하십시오.
4. 분석용 자료로 사용하시려면, %를 모두 떼어 내십시오.
(컴퓨터는 %가 붙어 있으면, 숫자가 아니라 문자로 인식합니다.)
입력지침서, 왜 작성해야 하는가? (3)
열
변수명
변수 내용
입력 내용
A
Id_No
환자 ID
병록 번호
B
Name
환자 성명
홍길동 또는 HKD (initial, 개인정보*)
C
AGE
환자 나이
00세 (실제 수로 입력)
D
No_cal
Micro_cal 개수
1=single, 2=2~4개, 3=5개이상
E
Shape
모양
1=round, 2=sharp, 3=mixed
F
Clust
군집상태
1=cluster, 2=scatter, 3=L/B, 4=single
G
Histo
조직학 소견
1=fibrocystic disease / 3=mild hyperplasia
5=columnar / 6=intraductal papilloma /
7=sclerosing adenosis / 8=fibroadenoma / 9=ADH
11=DCIS / 13=invasive ductal carcinoma
H
Malig
양성/악성
0=양성 / 1=악성
관증식 정도
(점수)
0=fibrocystic disease / 1=mild hyperplasia of the usual type
2=Moderate Florid / 3=Columnar / 2=intraductal papilloma
2=sclerosing adenosis / 0.5=fibroadenoma
4=ADH / 5=DCIS
I
Duct_pl
입력지침서, 왜 작성해야 하는가? (4)
앞의 자료,
이렇게
다시 정리
되었습니다.
입력지침서, 왜 작성해야 하는가? (5)
• 답변 2 (2006/05/13)
1. 자세하게 방향을 잡아 주셔서 감사합니다.
2. 변수내용 : ID, 이름, 나이, 수, 모양, 군집, 조직소견, 악성도, 관증식 입니다.
3. 한 사람에 두 개 씩 입력은 양측 유방입니다.(☞ 각각 입력해야 합니다.)
• 의견 3 (2006/05/15)
선생님은 통계분석의 과정에서 ‘분석’ 그 자체보다 훨씬 더 중요한(반드시 선행
되어야 하는) data handling을 학습하신 귀중한 경험을 하셨습니다.
축하드립니다! 이제서야, 비로소 분석을 시작할 수 있습니다.
자~ 이제, 분석하고 싶은 내용을 구체적으로 표현해 보십시오!
[저의 표현, 맞습니까?]
1. 수/모양/군집상태에 따라 조직학적 type의 차이가 있는가? [카이제곱 검정]
2. 수/모양/군집상태와 악성의 관련성? [경향성분석, 필요시 RR (95% CI)]
3. 수/모양/군집상태에 따라 관증식 정도의 차이가 있는가? [ANOVA]
4. 그 외, 추가로 알고 싶은 사항?
분석 요청, 그리고 가이드 ..
[Request 1] (2009/09/10)
바쁘신데 이렇게 시간 내 주셔서 진심으로 감사합니다.
일단, 논문/통계 자료/심사 의견을 보내 드립니다.
상계백병원 외과 전공의 김00 / 017-590-1434
[의견 1] (2009/09/10)
1.
2.
3.
4.
5.
data 파일에서 각 변수가 의미하는 내용을 상세히 알려줄 것 !
#null!로 보이는 자료 들, 관계없음?
결손자료 많음. 원자료[자료0]로 학보하고, 분석할 변수만 남긴 파일을 하나 만들어 줄 것.
원하는 결과가 무엇인지, 우선 ‘말’로 나열해 볼 것! [비교적 상세히]
현재의 data 파일은 전혀 무용지물! [이 자료로는 전혀 분석 불가 !! (컴도 이해 못함.ㅋ)]
[답변 1] (2009/09/11)
1. 주제: “천공을 동반한 대장암 환자의 생존율과 예후 영향 인자” [생존 분석]
2. Case: 대장천공 동반 대장암 환자 (24명)/ Control: 천공없는 환자 (48명)
3. 잠정결론: "대장암 환자에서 천공 여부가 예후나 생존율에 거의 무관하므로, 치료는 암 치료의 원칙에 따라
근치적 절제를 시행하고 항암화학요법을 시행해야 한다."
4. null은 자료가 오래 되어서 정보가 없습니다... ☞ 'blank' 처리.
[의견 2] (2009/09/11)
1. 여전히 data 파일의 완성도가 크게 부족합니다 !!
(쌤은 ~, 통계분석을 위한 data 입력에 대한 기본 이해가 절대 부족합니다.)
2. 아래의 입력지침서(coding instruction)에 따라 액셀을 완전히 다시 입력/완성 하십시오!
변수명
perfo_yn
gender
stage
age
age60_yn
dur
event
천공여부
성별
병기
나이
나이군
관찰기간
사망/생존
site
위치
perf_site
obs_yn
abss_yn
preCEA
preCEA3_yn
size
size5_yn
천공위치
폐색여부
농양여부
수술전 CEA 값
수술전 CEA 수준
종양 크기
diff
조직학적 분화도
margin
절제조직의 safety margin
실수 그대로 입력
림프선침범
혈관침범
신경침범
림프절 침범 여부
제거 조직에서 발견된
임파절 갯수
제거 조직 임파절 수를
10개를 기준으로 나눔
5cm을 기준으로, 5cm 이하=0, 5cm 초과=1
0=n, 1=y
0=n, 1=y
0=n, 1=y
0=n, 1=y
실수 그대로 입력
결손치 너무 많아 전체 분석 case를 줄이므로 분석 제외.
10개 기준, 10개 이하=0, 10개 초과=1
결손치 너무 많아 전체 분석 case를 줄이므로 분석 제외.
항암화학요법 시행여부
0=n, 1=y
margin5_yn
lymph_yn
vessel_yn
nerve_yn
ln_yn
ln_harv
lnhav10_yn
chemo_yn
변수 내용
입력 방식
1=case (천공군) / 0=control (비천공군)
1=M 2=F로 입력
TNM stage I, II, III, IV = 1, 2, 3, 4
실수 그대로 입력
60세 이하=0, 60세 초과=1로 입력.
수술 후 관찰추적 기간 (개월)
1=사망 0=생존
Rt. colon=1, Lt. colon=2,
Sigmoid colon=3, Rectosigmoid colon=4, Rectum=5
0=천공없음, 1=proximal perforation, 2=tumor perforation
0=n, 1=y 로 입력 !
0=n, 1=y 로 입력 !
실수 그대로 입력
CEA 3 기준으로 3.0 이하=0, 3.0 초과=1
실수 그대로 입력
종양 크기 5cm 기준으로, 5cm 이하=0, 5cm 초과=1
wd=1, md=2, pd=3
['영향‘변수(독립변수)로 사용하려면, 1=wd, 2=md, 3=pd .. (점점 영향 무
게가 큰 쪽으로 배정) 등으로 입력해야 [아니면 단변량분석 밖에 안됨.]
☞ 000_yn으로 하여 해당(초과)=1, 비해당(미달)=0으로 하는 것이 좋습니다.
[영향요인 분석시의 ‘영향력’에서 .. 0/1과, 50/51은 사뭇 다릅니다...^]
분석 요청, 그리고 가이드 ..
1. 통계분석은 .. 정작, 통계프로그램을 돌리는 것(전문가의 role)
보다, data handling(연구자의 role)이 훨씬 중요한(반드시 선행되
어야 하는) 과정 임을 실감 하기 바랍니다.
2. 완성된 입력지침서/분석용 파일을 대조, 신중 검토 하십시오 !
3. 연구자와, 분석가의 ‘이견없는 공유’ 없이는, 분석은 불가 함을
명심, 또 명심하시기 바랍니다 !!
2009/09/15
Dr. Chun
자료 입력
Data Input
반드시 이것이 우선되어야 한다 !!
Data 입력
무엇이 잘못 되었나?
이 자료로 뭘 분석하고자 하는가?
Data 입력
올바른 입력 상태
(이래야만, 원하는 분석 가능..^^)
틀린 입력 바로 고치기 …^^
바르게 고쳐 보세요
중복 응답 입력
설문지
22
(샘플_00보건소)
입력지침서
당뇨 합병증
(모두 답하세요)
① 뇌혈관질환(중풍)
③ 신장(콩팥) 질환
⑤ 발 질환
② 심장질환
④ 안(눈) 질환
⑥ 기타 (??
변수명
질문
내용
V22_1
Stroke
1=있음, 0=없음
V22_2
CVD
1=있음, 0=없음
V22_3
Renal
1=있음, 0=없음
V22)4
Eye
1=있음, 0=없음
V22_5
Foot
1=있음, 0=없음
V22_6
Other
1=있음, 0=없음 [직접 기술한 것으로 재 분류 …]
)
중복응답 입력 결과
총 개수, & 예(있음)=1/ 아니오(없음)=0
Valuable ‘Tips’ for data handling
1) 반드시 Excel에 입력되어 있는 Raw (Original) data file (data0.xls)을 가지자.
2) 실제 분석에 사용하지 않을 변수는 제외시킨, 분석용 파일(data1.xls)을 만들자.
3) 분석용 파일은『sheet 1』(Excel의 좌하단 표식)에 data만 있도록 정리하자.
4) 반드시, 입력지침서(Coding instruction)를 먼저 작성하자.
5) 변수명은 가능한 영어로 작성하기를 추천한다.
8자 이내, 내용 파악 ‘가능’이면 OK. 대소문자 관계없음.
특수 기호는 사용 못함. 숫자는 가능. -선은 가능한 _(아래 바)로.
- age(연령), gender(성), educ(교육), marr(결혼), wife_yn(배우자유무), job(직업), suip(수입)
- PH(과거력), FH(가족력), smok(흡연), alc(음주), exer(운동), wt(체중), ht(신장), exam(검진)
- sbp_s(본인(self)인지수축기혈압), sbp_m(실제측정(measure)수축기혈압)
- FBS_s(본인인지공복혈당), FBS_m(실제측정공복혈당)
- know100(지식도): 지식문항 응답으로 100점 만점 점수화한 평점.
6) 유/무(예/아니오)의 속성은 가능한 유(예)=1, 무(아니오)=0로 입력.
7) 한 cell에 여러 특성 입력은 안된다. 무응답은 공란으로 둔다(예외 있음).
8) 양-반응관계를 분석하려면 자료의 ‘weighting’ 에 유념하라.
9) 반드시 데이터 클리닝(data cleaning)을 하여야 한다.
10) 통계분석을 시작할 때는 반드시 Excel 파일을 닫아야 한다.
자료 변환
Make-up ‘New’ Variable
가능한 액셀 에서 처리…^^
자료 변환 하기

변환이 필요한 대상 변수 결정

수축기/이완기 혈압을 비척도로 측정, 입력하였다.
정상/전기/고혈압의 그룹핑이 필요한가?
그룹핑의 기준이 있는가? (예. JNC-VII)

변환 방법 결정

어느 프로그램으로 변환할까?: 가능한 액셀(Excel)


설문지/지침서 개발 과정에서 미리 고려하는 것이 바람직.
비척도를 명목척도로
(정상=1/이상=2)
※ 정상=0/이상=1이 더 좋음
비척도를 순위척도로
(정상=1/조금높음=2/많이높음=3)
산술식을 이용한 자료 변환 (합산 평점)
5점 만점의 5문항을
100점으로 환산
드
래
그
하
여
붙
여
넣
기
산술식을 이용한 자료 변환 (BMI 계산)
..
BMI 
weight (kg)
height 2 (m 2 )
드
래
그
하
여
붙
여
넣
기
IF 함수를 이용한 자료 변환
(높음/중간/낮음)
65점 미만 = 1
65점 이상 75점 미만 = 2
75점 이상 = 3
드
래
그
하
여
붙
여
넣
기
※ 중첩 IF 함수에서 연속형 범위를 나눌
때는 앞에서 포함되는 범위는 제외한다.
일일이 눈으로 보고 grouping ?
(자료가 적으면 관계 없겠지만…^^)
Ex) =IF(G2<65,1,IF(G2<75,2,IF(G2>=75,3))) ( O )
=IF(G2<65,1,IF(65<=G2<75,2,IF(G2>=75,3))) ( X )
혈압수준 : JNC-VII (2003)과 국가관리기준(2004)
혈압 수준
수축기혈압
분류
정상
≤120 (119)
0
전기고혈압
고혈압
121~139
(120~139)
≥140
1
2
이완기혈압
≤80 (79)
81~89
(80~89)
≥90
분류
0
1
2
 그 사람의 혈압 수준?
“분류”의 0,1,2 컴비네이션으로 결정 (두 개 중, 높은 것 적용).
입력오류 검토
Data Cleaning
‘나중’에 고생하기 싫으면 …^^
데이터 클리닝 (data cleaning)
자료 입력 후, ‘입력 오류’가 있는지를 확인하는 과정.
• 다수 입력 또는 1인 입력 시 오류를 범한 경우 확인
분석 작업 시작 전, 반드시 실시 !!
• 비해당 코드, 없어야 할 응답 내용 입력
• ‘숫자(number)’, ‘글자(character)’ 잘못 지정
• 중복 응답 허용 문항 입력
Data 클리닝
메뉴 → 데이터 → 필터 → 자동필터
Data 클리닝
결측치(missing), 이상치(outlier)



결과에 영향을 미칠지를 미리 판단해
야.
누가 해야 하나?
연구자와 분석자가 함께…
Your OWN data ! (분석자는 ‘상황’을 잘 모름..)
이상치 (AST) ??
필터 기능으로 확인
입력 오류 발견시 해결 방법

1. 설문지의 응답 내용을 반드시 대조, 재확인 (필
터기능^)

2. 정해진 추정 원칙에 따라 추정치 삽입
• 결측치, 이상치의
연구의
성격과 조사량에
3. 해당처리는
문항을
결측값으로
처리따라 다르지만 가급적
살리는 것이 좋다(해당 case를 무조건 삭제하는 것은 바람직하지 않다.)
• 흔한 방법으로, 평균치를 대체하여 넣는 방법을 쓰기도 한다.
• ‘포함’이 결과를 심하게 왜곡시키거나 전체의 질을 떨어뜨릴 우려가 크고,
조사량이 충분하다면 버리는 것도 고려할 수 있다.
• 자료를 얻기 위해 들인 비용, 시간, 노력을 고려한다면 …
’이제야, 비로소~!‘
‘분석’을 시작할 수 있습니다.^^
‘U!‘
are
the most, important person
And, “a genuine expert”
in your own survey !
Data에 대한 완전한 이해 없이는,
분석이란 “절대”, 불가능한 일이다!
3rd STEP
분석전략수립
전략 없는 통계분석은 없다!
• 분석하고자 하는 구체적인 내용 ‘틀’을 미리 구상 !
- 참고문헌 리뷰
- ‘알고자 하는 내용’의 list-up
- 우선, 말(글)로 구체적으로 표현(기술)하기
- 얻고자 하는 결과 틀(표, 그래프)의 제목과 대략적인 내용
- 효율을 높이는 가장 좋은 방법
“무조건 모두 분석한 후, 필요한 것을 선택하겠다?”
분석 결과 모음용 파일을 미리 하나 만들어 두자 !
통계분석을 위한 준비물 세트
(종합선물세트^^)
• 조사도구: 간이조사표, 설문지
• 입력지침서 (coding instruction)
• 자료 입력 파일 (Excel)
• 분석전략표 List : 무엇을 보려고 하는가 ?
• 분석결과 모음 파일 (한글, Excel)
적절한 분석법의 선택
Choice of Adequate Statistical Method
미리, ‘계획’ 되어 있어야 한다 !
Q. 통계분석방법을 선택할 때 고려해야 할 사항으로
가장 거리가 먼 것?
① 표본 분포가 정규분포를 하는가?
② 평균치를 비교할 것인가? 율을 비교할 것인가?
③ 통계프로그램의 버전(version)은 어떤 것으로 할 것인가?
④ 단수 영향요인을 평가할 것인가? 복수 영향요인을 평가할 것인가?
통계분석법 선택의 기준
통계분석법 선택 시 고려 사항
“어떤 통계분석법을 적용할 것인가?”
•
•
•
•
•
•
변수의 척도
표본(대상자 수)의 크기와 분포(정규성 검정)
표본간의 독립성
검정하고자 하는 통계량(평균치, 율(%), 상관관계 등)
고려하여야 할 변수의 수(단변량분석, 다변량분석)
이용 가능한 통계프로그램의 종류와 특성
전문가의 도움.. ^^
분석전략 List (‘미리 구상’) 예
특성
기술통계
분포
연속형자료
(비척도)
범주형자료
(명목척도/
순위척도)
상관분석
회귀분석
일치도분석
생존분석
다변량분석
분석 목적 (비교 대상)
대상자의 성/연령군(-40대/5,60대/70대-)별 분포 [표 1]
CA19의 평균, 표준편차(표준오차), 범위
연령군별 CA19군 분포 (low/mid/high)
임파절 전이 여부별[Y/N, 2 개군] 평균 종물 크기
암종별[3 개군 이상] 평균 종물 크기
암종별[3 개군 이상] CA19 평균치
수술 전후의 CA19 평균 [전후 비교]
암병기(순위척도)별 임파절 전이 여부
인삼복용 빈도별 암발생 정도
수술 전후의 비정상 CA19의 분율(%) 차이
연령과 암 종물 크기의 상관 정도
암병기(순위척도)와 tumor size의 상관
CT와 MRI의 진단 결과는 얼마나 일치하는가?
Physician A와 B의 진단 결과는 얼마나 일치하는가?
전체 대상의 5년 생존률?
성별 생존률 차이?
생존률에 영향을 미치는 인자?
CA19에 영향을 미치는 특성(변수)는?
(다른 변수의 영향을 보정한 상태로 판단)
암전이 여부(0,1)에 영향을 미치는 특성(변수)는?
(다른 변수의 영향을 보정한 상태로 판단)
분석법 ??
의학연구에서 많이 적용되는 통계분석 기법
• 평균치 분석(연속자료) :
t-test/ paired t-test, ANOVA
• 율(분포) 분석(범주형 자료) :
• 상관분석, 회귀직선 :
Chi-square test, Fisher’s exact test
Pearson/Spearman corr., Simple regression
• 다변량분석: 선형 & 로지스틱 회귀분석
• 생존분석 :
K-M method, Cox proportional hazard model
• 위험도 분석 :
RR, OR, 95% CI, un/adjusted
• 진단검사법 분석 :
민감도, 특이도, ROC곡선, 일치도(kappa)
목적(상황)에 따른 통계분석법의 적용
분석 목적
2군간
비교
≥3군간
비교
비척도
(연속자료, 값)
t-test
(Student t-test)
One way ANOVA
(F-test)
Two way ANOVA
2군간 Pair
Paired t-test
(짝,쌍) 비교
명칭척도
(범주형 자료, 율[%])
χ2-test (Pearson)
순위척도
(비모수 검정법)
Mann-Whitney(U) test
χ2-test with Yate's correction
χ2-test for trend
Kruskal-Wallis test
(Mantel-Haenszel χ2-test)
Fisher's exact test
McNemar's χ2-test
상관분석
Pearson 상관
영향요인
분석
선형회귀분석
로지스틱회귀분석
(Multiple linear regression)
(Multiple logistic regression)
Friedman's Two way ANOVA
Wilcoxon signed-rank test
Spearman 순위상관
분석전략 List (‘미리 구상’) 예
특성
기술통계
분포
연속형자료
(비척도)
범주형자료
(명목척도/
순위척도)
상관분석
회귀분석
일치도분석
생존분석
다변량분석
분석 목적 (비교 대상)
분석법
대상자의 성/연령군(-40대/5,60대/70대-)별 분포 [표 1]
χ2
CA19의 평균, 표준편차(표준오차), 범위
Summary statistics
연령군별 CA19군 분포 (low/mid/high)
χ2
임파절 전이 여부별[Y/N, 2 개군] 평균 종물 크기
t-test/Mann-Whitney test
암종별[3개이상] 평균 종물 크기
ANOVA 또는 Kruskal-Wallis test
암종별[3개이상] CA19 평균치
ANOVA 또는 Kruskal-Wallis test
수술 전후의 CA19 평균 [전후 비교]
paired t-test 또는 Wilcoxon signed-ranked
암병기(순위척도)별 임파절 전이 여부
χ2 /Fisher/경향분석/위험도
인삼복용 빈도별 암발생 정도
χ2 /Fisher/경향분석/위험도
수술 전후의 비정상 CA19의 분율(%) 차이
McNemar test
연령과 암 종물 크기의 상관 정도
Pearson 상관계수
암병기(순위척도)와 tumor size의 상관
Spearman 상관계수
CT와 MRI의 진단 결과는 얼마나 일치하는가?
Kappa 또는 Weighted kappa
Physician A와 B의 진단 결과는 얼마나 일치하는가?
Kappa 또는 Weighted kappa
전체 대상의 5년 생존률?
Kaplan-Meier method
성별 생존률 차이?
Log-rank test
생존률에 영향을 미치는 인자?
Cox proportional hazard
CA19에 영향을 미치는 특성(변수)는?
(다른 변수의 영향을 보정한 상태로 판단)
Multiple linear regression
암전이 여부(0,1)에 영향을 미치는 특성(변수)는?
(다른 변수의 영향을 보정한 상태로 판단)
Multiple logistic regression (MLR)
4th STEP
기초적인 분석
정규성 검정
Test of Normality
모수법 vs. 비모수법?
정규성 검정
해당 자료가 정규분포를 하고 있는가?
연속변수: 연령, 혈압, 혈당치, HbA1C, 점수화한 인지도, 행복지수값 …
Kolmogorov-Smirnov test
accept Normality (P>0.05): 모수검정법
reject Normality (P<0.05): 비모수검정법 (non-parametric test)
표본(대상)수가 적은 의학자료 에서는 흔히 비모수법 사용.
Mann-Whitney(U) test, Wilcoxon signed-rank test
Kruskal-Wallis test
Spearman 순위상관
율(%) 분석
Comparison of frequency (allocation)
‘범주형’ 자료 분석
율(%), 분포 분석
비교하고자 하는 값
• 범주형 변수: 율(n/N, %)
• 연속변수는 일단, 군(gr)으로 새 변수 생성시켜야 함.
몇 개 군 간 비교에 상관 없이 카이제곱검정 (χ2-test)
• 남/여, 도시/농촌, 질병군/건강군 간 율(%) 비교
• 청년층/장년층/노년층, 정상/전기/고혈압, A/B/C 지역 간 율(%) 비교
제시 결과
• 각 군의 율: n/N(%)
• 검정통계량 (χ2), p값
χ2-test, 가장 대표적인 불연속(범주형)자료 분석법.
(2×2 table, R×C table ..)
카이제곱검정법(χ2-test) 이해
Q. 두 치료법(A,B)의 치료율은 같은가? 다른가?
치료 A
치료 B
전체
치료
52(a) [50]
96(b) [100]
100(N1)
무반응
48(c) [50]
104(d) [100]
100(N0)
100(M1)
200(M0)
200(T)
Chi-square (Pearson): χ2=Σ [ (O-E)2 / E ]
• 관찰치(Observed) vs. 기대치(Expected, [ ])
• 관찰치(실제 조사한 자료)가 기대치([ ])와 비슷할수록?
• 계산된 χ2 값이 클수록? P<0.05 될 가능성 높아짐 !
카이제곱검정법, 다양하다
(자료 형태와 분석 목적에 따라)
Chi-square (Pearson): χ2=Σ [ (O-E)2 / E ], χ2=0.4267, df=1, p=0.5136
보편적인 일반 카이제곱검정법.
Chi-square with Yate's correction : χ2=[(|ad-bc|)-T/2) 2×T] / N1N0M1M0
연속성 보정을 하면 일반적인 χ2값 보다 작아지는 경향 있음.(χ2=0.2817, p=0.5956)
Mantel-Haenszel χ2-test : χ2M-H = [ a - E0(A)]
2
/ Var0(A)
경향성분석* (χ2-test for trend) (χ2M-H=0.4253, p=0.5143)
Fisher's exact test : p=(A+B)!×(C+D)!×(A+C)!×(B+D)!/N!×A!×B!×C!×D! (p=0.5417)
McNemar's χ2-test (Paired) : χ2 = ([b-c]-1)2 / b+c
카이제곱검정 시 유의점
(Pitfalls of chi-square test)
부적절한 경우
보완
너무 작은 표본 수 (<20)
전체 표본 수 20 이상은 되어야
가장 작은 기대값 < 5 (2X2표)
한 cell의 기대치 5 이상 되어야
☞ Fisher’s exact test
너무 많은 cell 수 (m x n표)
1/5 이상 cell의 기대값 < 5
더 큰 묶음으로 묶어 분석
두 변수간의 관련성
상호 관련성이 깊은 변수 부적합
부적절한 경우 : 자료의 속성과 무관, 통계적 유의성 보장 (χ2 값
Chi-square test, Not %, but No.
)
Fisher's Exact Test
(피셔직접확률법)
Q. 유방암 수술 후 10년간 추적관찰에서 재발 환자 27명에 대한 암의
크기와 탁솔 투여의 관련성을 관찰하였다. 탁솔 투여는 재발 유방암의
크기에 유의한 영향을 미쳤다고 할 수 있겠는가 ?
재발된 유방암 크기
2 cm 이상
2 cm 미만
탁솔 투여
Yes
No
1
4
16
6
Pearson's : χ2=4.86, p=0.028 (p<0.05)
Yate’s correction : χ2=2.86, p=0.091 (p>0.05)
Fisher’s : p=0.047
카이제곱검정의 결과가 서로 다르다. 어떻게 결론을 내려야 하나 ?
1. 일반적 해결책 : 우선 각 cell의 기대치를 계산하여 5보다 적은 cell이 있으
면 비슷한 속성끼리 묶어 기대치가 5보다 크게 되도록 표를 재구성하는 것
이다. 그러나 2x2표에서는 더 이상 묶을 수 없다. 이 경우에는 2개의 cell에
서 기대치가 5보다 적어 다른 해결책을 강구하여야 한다.
2. 해결책 : 직접확률법(Fisher’s) 적용.
Row % vs. Colm. % ?

흡연 여부에 따른 폐암발생
률?
폐암
흡연
비흡연
계
폐암
흡연
비흡
연
계
발생
60(54.5)
40(44.4)
100
발생
60
40
100
정상
50(45.5)
50(55.6)
100
정상
50
50
100
계
110
90
200
계
110
90
200
폐암 여부에
따른
흡연률?
Pearson’s χ2=1.636, P=0.201은 동일.
폐암
흡연
비흡연
계
폐암
흡연
비흡연
계
발생
60
40
100
발생
60(60.0)
40(40.0)
100
정상
50
50
100
정상
50(50.0)
50(50.0)
100
계
110
90
200
계
110
90
200
위험도(RR,OR & 95% CI) 분석
비교하고자 하는 값
• 범주형 변수: 율(n/N, %), 필요시 새 변수(군,gr) 생성.
기준이 되는 군을 1.0으로 하였을 때
비교 대상 군의 위험도 값 (RR 또는 OR, & it’s 95% CI)
•
•
•
•
남자에 대한 여자의 위험도
농촌에 대한 도시의 위험도
청년층에 대한 장년층, 노년층의 위험도
정상에 대한 질환자의 위험도
제시 결과
• 각 군의 율: n/N(%)
• RR 또는 OR, & it’s 95% CI, p값*
위험도 분석은 chi-square test(카이제곱검정)에 근거를 둠.
양-반응관계를 구명하고 싶다?
카이제곱검정 vs. 경향분석(χ2 for trend) vs.
위험도
Table 11-4. Odds ratio (95% CI) for cancers by INSAM intake in 905 pairs
Ginseng
intake
Cases (%)
Controls (%)
No
343 (37.9)
231 (25.5)
Yes
562 (62.1)
674 (74.5)
χ2 value
P value
χMH2 value
P value*
1.00
32.00
31.99
0.56 (0.46-0.69)
0.001
<0.001
OR (95% CI)
CI: confidence interval. p value* for trend
Source : Yun TK, et al. Jr Korean Med Sci 2001; 16(suppl.): S21
“인삼 복용에 따른 암 발생은 유의한 차이를 보였다.”
“인삼을 복용할수록 암 발생이 낮았다.”
“인삼 복용군의 암 발생은 0.56배 유의하게 낮았다.”
위험도의 표현과 해석
Table 8. Significant risk factors for HCC
Factors
Ds status
Cirrhosis
CH
Carrier
Initial AFP level
>20 ng/mL
≤20 ng/mL
Univariate
p-value
0.001†
0.000†
Multivariate OR
(95% CI)
P-value
5.9 (2.51 - 14.03)
2.9 (1.24 - 6.80)
1.0
0.000†
0.014*
1.5 (0.92 1.0
2.42)
*: p<0.05, 0.000† : p<0.01, NS: not significant, CI: Confidence interval
Source : 안상훈 등. 대한내과학회지 2001; 60(2): 123-130 Table 2.
P값 제시 부분은 없어도 결과 해석에 전혀 무관.^^
통상 P값에 의한 판정에 익숙 (중복 정보 임)
해당 학술지의 투고규정이나 편집위원회의 요청에 따를 것.
NS
McNemar's χ2-test :
(대응)짝 비교, 전후 비교
MI 환자와 건강인 각 144명을 나이와 성별에 따라 대응시키고 이들이 이전에
DM을 앓았는지의 여부를 조사하여 MI와 DM의 관계를 평가하고자 한다.
DM
MI
Yes
No
Tot
Yes
46
25
71
No
98
119
217
Tot
144
144
288
χ2=8.244, p=0.004
MI
DM
No MI
DM
No DM
Tot
9
37
46
No DM
16
82
98
Tot
25
119
144
McNemar χ2 =7.547, p<0.01
‘MI 환자와 건강인 두 군에서 DM의 율(%)이 같은가?’가 관심의 대상이다.
왼쪽 표는 흔히 보는 2×2표와 같지만, 288명이 독립된 자료가 아니므로
오른쪽 표와 같은 자료로 변환하여 생각해야 한다.
[표의 144는 case가 아닌 쌍(pair)을 나타내는 것이다 !]
이 경우, 일반적인 카이제곱검정 대신 McNemar 검정을 적용해야 한다.
일치된 쌍은 의미가 없으므로 불일치된 쌍 만을 이용하여 검정하는 원리이다.
McNemar 검정통계량 χ2 =(|b-c|-1)2 / (b+c)
평균치 분석
Comparison of Mean
‘연속형(양적)’ 자료 분석
평균치 분석 (교재 p120)
비교하고자 하는 값
• 연속변수: 연령, 혈압, 혈당치, HbA1C, 점수화한 인지도, 행복지수값 …
2군간 비교 : (student) t-test
• 남/여, 도시/농촌, 질병군/건강군 … 비교
• Option: Assume equal vs. unequal variances, Automatic, Do both
• 전후 비교는 반드시 paired t-test
3군(이상)간 동시 비교 : F-test (ANOVA)
• 청년층/장년층/노년층, 정상/전기/고혈압, A/B/C 지역… 비교
• post-hoc(사후검정), multiple comparison(다중비교)
제시 결과
• 각 군의 평균 ± 표준편차(최소치~최대치)
• 검정통계량(t, F), p값
두 군간의 평균치 비교
Comparison of mean between the TWO group
‘연속형(양적)’ 자료 분석
(independent)
t-test vs. paired t-test
목적1. 단순히 두 군간의 차이를 보고자 하는가? (independent)
목적2. 치료 전후의 차이를 평가하고자 하는가? (dependent)
Id_No
1
2
3
4
5
6
7
8
9
10
Mean±S.D
Tx. A
(Before Tx)
120
140
125
90
110
135
160
95
100
130
120.5±22.0
Tx. B
(After Tx)
120
130
90
100
90
110
140
100
105
110
109.5±16.4
Difference
Sign
Scale
=
0
10
35
+
10
20
25
20
+
5
=
5
20
-11
p=0.222 (goal 1) vs. p=0.048 (goal 2)
t-test vs. Paired t-test vs. ANOVA
t-test
ANOVA
Paired t-test
Paired t-test 결과 제시
전북지역 위암환자의 위절제술 전후 영양상태 평가.
대한지역사회영양학회지 11(6):785~792, 2006
세 군이상 간의 평균치 비교
Comparison of mean between above the THREE group
‘연속형(양적)’ 자료 분석
ANOVA, 사후검정(post-hoc) 꼭 해야 하는가?
• 3군 이상의 평균치(연속자료) 비교 기법
1) 전체의 결과가 p>0.05 인 경우, 사후 검정은 불필요(의미 없다)!
2) 전체의 결과가 p<0.05 인 경우, 사후 검정이 필요!
A-B의 차이? B-C의 차이? A-C의 차이?
☞ A-B, B-C, A-C의 두 군씩을 각각 t-검정으로 비교?
[NO !]
• 사후(다중)검정 (post-hoc test)의 option
SNK
(Student-Newmann-Keuls),
Scheffe, Dunnett, Bonferroni, Tukey
Duncan, LSD(최소유의차검정법): 귀무가설 기각 경향이 강하여 p<0.05 가능성 높음.
• 몇 가지 방법 동시 적용 후, 결과를 보고 선택하는 방법 추천.
• 결과가 다른 경우(대부분은 동일), 유의 가능성이 ‘낮은’ 방법 선택이 바람직.
ANOVA 분석 결과 제시(post-hoc)의 예.
Table 4. Selected scores by dosage group
Dosage group
Variables
Depression score*
.
Pl (n=16)
Low (n=15)
High (n=17)
28.0 (5.03)
23.8 (4.97)
21.6 (4.96)
.
.
.
F, P value
6.97, 0.0023
.
Source: JAMA
*mean (SD), Pl=placebo, Low=20㎎/㎏, high=100㎎/㎏
Significant (p<0.05) pl-low (a-b) and pl-high (a-c) by SNK (Student-Newmann-Keuls) test
significant pl-high (a-c) by Tukey's Studentized Range (HSD) Test
significant pl-high (a-c) by Scheffe's test
significant pl-low (a-b) and pl-high (a-c) by Duncan's Multiple Range Test
¶This result also significant by Kruskal-Wallis test with p=0.0029
3군 이상 비교분석, 필요 시 foot note에 post-hoc 결과 제시
ANOVA 결과 제시
cf. SNK, Tukey, Dunnett, Bonferroni, Duncan, LSD ..
한국인 성인남녀의 알코올 섭취가 혈압에 미치는 영양 : 2001년 국민건강영양조사를 이용하여.
대한지역사회영양학회지 11(6):707~713, 2006
상관분석, (단순)회귀분석
Correlation and Simple Regression
‘비척도, 순위척도’ 자료 분석
상관/회귀 분석
비교하고자 하는 값
• 연속변수 : 나이, 혈압, 혈당, 인지도 총점, 행복지수값 …(Pearson corr.)
• 순위변수 : 5점척도, 사회경제적수준, 인지도 수준 .. (Spearman corr.)
의 1:1 (X-Y 상호관련성) 비교
혈중 콜레스테롤과 BMI의 상호관련성을 알고 싶다.
혈중 콜레스테롤의 BMI 영향력(설명력)을 알고 싶다.
(BMI = a + b* cholesterol 관계)
제시 결과
• 상관계수값(r 또는 rh0), p값
• 회귀계수값(β), p값
상관 및 회귀분석은 ‘밀접한’ 분석법이나, 동일한 분석법은 아니다 !
상관분석 결과
표로 나타내기
그림으로 나타내기
Scatter diagram(산점도)
W. James Gauderman et al., The Effect of Air
Pollution on Lung Development from 10 to 18 years
of Age. NEJM 351: 1057-1067
Youn HJ, Lee JM et al. The impaired flow reserve capacity
of penetrating intramyocardial coronary arteries in apical
hypertrophic cardiomyopathy 2005; 18(2):128-32
Amir H. Hamrahian et al., Measurements of Serum Free Cortisol in Critically Ill Patients.
N Engl J Med 350: 1629-1638
상관과 (단순)회귀의 관계
r=1
r≒0
r (rho) vs. β (y= βx + a)
일치도 분석
Kappa value
‘범주형’ 자료 분석
일치도 분석 (kappa)
(교재 p208)
비교하고자 하는 값
• 범주형 변수: 율(n/N, %)
• 연속변수는 일단, 군(gr)으로 새 변수 생성시켜야 함.
몇 개 군에 상관 없이 kappa-value (inter-rater agreement)
• 인지혈압군과 측정혈압군의 kappa 값 비교
• 4점척도 설문응답의 사업전과 사업후 응답률 kappa 값 비교
제시 결과
• kappa 값 (95% CI)
일치도 낮음
0.40
보통
0.75
일치도 높음
Landis JR, Kosh GG (1977)
The measurement of observer agreement for categorical data. Biometrics 33:159.
Kappa 값 구하기는 범주형 자료형태로만 가능하다.(chi- 유래)
전진호. 통계분석에센스, MedCalc Mini-Manual
인지혈압 vs 측정혈압 수준, 일치도?
실제 측정 혈압
본인인지 혈압
0 (정상)
1 (전기)
2 (고혈압)
정상 (0)
22
5
4
전기고혈압 (1)
18
18
8
고혈압 (2)
10
7
8
수축기혈압의 상관계수 r=0.8294, p<0.001
이완기혈압의 상관계수 r=0.8536, p<0.001
혈압수준 분류는 JNC-VII (2003)과 국가관리기준(2004)에 따름.
Observed agreement = (22+18+8)/100 = 48.0%
Kappa (κ)= 0.216 (0.068 ~ 0.363)
Weighted Kappa (Kw), linear weight = 0.224 (SE(kw’=0)=0.074, SE(kw’#0)=0.077)
Weighted Kappa (Kw), quadratic weight = 0.232 (SE(kw’=0)=0.095, E(kw’#0)=0.096)
Kappa 값은 ‘우연’(by chance)에 의한 일치를 배제시킨 일치도.
(동일) X-선검사에 대한 2인 전문가의 판독 일치도?
관찰자간 일치도 (inter-observer agreement)
CONSISTENCY OF Readings
관찰자 A
관찰자 B
결핵
정상
계
결핵
136
92
228
정상
69
240
309
205
332
537
계
Observed agreement = (136+240)/537 = 70.0%
Kappa (κ)= 0.378 (0.298~0.459)
동일한 방법으로 test-retest 일치도, 동일한 대상의 2주전 응답과의 일치도 등
을 판정할 수 있음 (신뢰도[연구의 질] 판단의 기준으로 활용).
5th STEP
고급분석
반복측정분산분석법
Repeated measures (RM) ANOVA
‘반복 측정’한 실험 자료라면 반드시 !
Rationale of RM-ANOVA
Repeated (Serial) measurements
분석 상황
동일한 측정값, 단지 측정 조건(예: 시간경과, 약물 종류, 용량 등)에 따라 변화.
분산분석과 동일, 3개 (이상)의 평균치 비교 적용 가능.
비독립적
비교 대상 측정값은 동일한 개체를 대상으로 반복 측정되었다.
분석 시 세 변수의 상관성을 반드시 고려해야 한다.
(독립 표본이 아니다. 즉 3가지 값은 서로 독립적이지 않다)
특징
일반적 다변량분석법은 대개 between-subject effect 만이 관심 대상.
이에 반해, RM-ANOVA는 다음 3가지 관심을 동시에 충족 가능.
➀ 치료법 종류에 따라 측정값의 유의한 차이가 있는가? (between-subject effect)
➁ 동일군 내에서 시간 경과에 따라 측정값의 유의한 변화가 있는가?’ (within-subject effect)
➂ 치료법 종류와, 측정 시점 간에 교호작용이 있는가?’ (interaction)
개념 굳히기
(문) AIDS 환자의 치료 및 개선 정도는 혈청 CD4 치를 측정하여 평가한다.
AIDS 환자를 대상으로 ①면역요법, ②약물(칵테일)요법, ③면역요법 및 약물요법의
3가지 치료법을 적용하고, 매월 한 번씩 총 12회 혈청 CD4 치를 측정하는 연구를
수행 하였다.
1) 어느 치료법이 최선 인지를 평가하는 가장 바람직한 통계분석법은 무엇인가?
2) 이 분석법으로 알 수 있는 3가지 정보는 무엇인가?
해설 :
1) 반복측정분산분석법(repeat measures ANOVA, RM-ANOVA)
2) ① 세 치료법 간의 CD4치 개선 정도 차이 (between group effect)
② 각 치료법에서 시간 경과에 따른 CD4치 개선 정도 차이 (within group effect)
③ 시간 경과를 고려한 상태에서 3치료법 간의 CD4치 개선 정도 차이(interaction)
RM-ANOVA 결과 해석
Repeated measures ANOVA
Source of variation
Sum of
Squares
DF
Mean
Square
F
P
Between-subjects
8814.133
5
Groups
2587.267
1
2587.267
1.66
0.267
Residual
6226.867
4
1556.717
Within-subjects (factor)
1245.800
54
Factor
258.933
9
28.770
7.55
<0.001
Group x Factor interaction
849.733
9
94.415
24.79
<0.001
Residual
137.133
36
3.809
해설(결론):
상상연습 훈련 적용 여부에 따른 B-score의 차이는 없었다 (between effect, p=0.267)
군내에서 시간의 변화에 따른 B-score는 유의한 변화가 있었다 (within effect, p<0.001)
시간 경과에 따른 상상연습 여부별 B-score 개선은 서로 달랐다 (interaction, p<0.001)
RM-ANOVA 결과 기술
6회 측정 시점별 관리유형별 이마의 수분량에 대한 반복분산분석(RM-ANOVA)의
결과는 그림 1과 같다. 이마의 수분량 변화는 유형별로는 유의한 차이가 없었으나,
동일한 유형 내에서 측정시점이 경과할수록 유의하게 증가하였다(p<0.001). 측정
시점과 관리유형을 동시에 고려한 효과는 유의한 차이가 없었다.
90
70
%
Type
Collagen
HA
Vit C
50
30
10
fhw_b1 fhw_b2 fhw_b3 fhw_b4 fhw_b5 fhw_b6
Measurement time (week)
결과는 그래프 & 해설
제시가 바람직 !
그림 1. 관리유형별 측정 전 이마의 수분량 변화
RM-ANOVA 결과 [Collagen=7, Vitamin C=5, Hyaluronic acid (HA)=6]
Between group(관리유형별 차이) p=0.825, Within the group(동일한 관리유형 내에서 (측정시기별
차이) p<0.001, Interaction(측정시기와 관리유형을 동시에 고려한 효과) p=0.419
다중 회귀분석
Multiple Regression Analysis
조사 변수, ‘고려’ 되어 있어야 한다 !
다중 회귀분석 (Multiple regression)
여러 개의 (독립)변수에 의한 ‘한꺼번에의 영향력’을 알고 싶은가?
포인트
종속변수와 독립변수의 설정이 가장 중요! (미리 예상 되어야)
종속(피설명)변수: 영향을 받는 변수 (1 개)
독립(설명) 변수: 영향을 주는 변수 (여러 개)
Type
종속변수의 형태에 따라 분석법이 다르다.
• 종속변수가 연속변수(점수화 변수, 실측값): 다중선형회귀분석
• 종속변수가 범주형변수([1,0]): 다중로지스틱회귀분석
[1,0]의 예: 정상=0/비정상=1, 개선=1/효과없음=0, 재발=1/않음=0
제시 결과
• 각 요인(변수)의 회귀계수(β값), β의 SE, P값
• 각 요인의 OR (95% CI), P값
개념 굳히기 (1)
(문) 성, 연령(세), 학력(년), 월수입(원), 프로그램 참여기간(개월), 비용(원)의 6개 변
수의 급간을 적절히 분류하여 독립(설명)변수로, 체중조절 프로그램의 성공여부(체
중 5 kg 감소 목표 달성 여부, 성공/실패[0,1])를 종속(피설명)변수로 각각 설정하고, 다른
변수의 영향력을 보정한 상태에서 이 들 각 요인의 체중조절에 미치는 영향을 종합
적으로 평가하고자 할 때
1) 가장 적합한 통계분석법은 무엇이며,
2) 결과(독립변수의 영향력 평가)는 어떤 통계량을 기준으로 해석하게 되는가?
해설 :
1) 다중로지스틱회귀분석 (multiple logistic regression analysis)
2) RR (또는 OR) & it's 95% CI
☞ 다른 변수를 보정한 상태에서 어떤 요인의 급간이 1단계 늘거나 주는데 따라
체중조절의 성공 가능성이 몇 배(RR 또는 OR) 증가하거나 감소한다.
개념 굳히기 (2)
(문) 성, 연령(세), 학력(년), 월수입(원), 프로그램 참여기간(개월), 비용(원)의 6개
변수를 조사한 대로 독립(설명)변수로, 체중조절 프로그램 후의 체중 감량치(kg)
를 종속(피설명)변수로 각각 설정하여 다른 변수의 영향력을 보정한 상태에서 이
들 각 요인의 체중조절에 미치는 영향을 종합적으로 평가하고자 할 때
1) 가장 적합한 통계분석법은 무엇이며,
2) 결과(독립변수의 영향력 평가)는 어떤 통계량을 기준으로 해석하게 되는가?
해설 :
1) 다중선형회귀분석 (multiple linear regression analysis)
2) 회귀계수(β) 값과 β의 P값
☞ 다른 변수를 보정한 상태에서 어떤 요인이 1단위 늘거나 주는데 따라
얼마만큼(회귀계수, β 값) 체중(kg)이 증가하거나 감소한다.
개념 굳히기 (3)
(문) 체질량지수(BMI, body mass index)를 이용하여 정상체중/과체중/비만으로
비만도를 구분한 후, 비만도에 따른 고지혈증 정도를 1) 다중로지스틱회귀분석과,
2) 더미변수를 사용한 다중선형회귀분석으로 평가하고자 한다. 이 때 기준
(reference)이 되는 정상체중의 통계량 값은 두 가지 통계분석법에서 서로 다르다.
1) 로지스틱회귀분석에서 정상체중에 해당하는 OR 값과,
2) 선형회귀분석에서 정상체중에 해당하는 회귀계수(β) 값은 각각 얼마인가?
해설 :
1) 로지스틱회귀분석 : 1.0
2) 선형 회귀분석 : 0
☞ 로지스틱 회귀분석의 기준값은 ‘배수(倍數)’의 기본값인 1.0 이며,
선형회귀분석의 기준값은 ‘기울기’의 기본값인 0 이다.
다중회귀분석 시 유념사항
종속변수의 형태에 따라 분석법이 다르다.
모형의 적합도, 타당도 검토가 선행되는 것이 바람직.
독립변수 선택
중요한 변수만 선택(설명력 없는 변수는 제거), 가능한 회귀모형을 간단히 하는 것이 바람직.
분석 방법
Enter, Forward selection, Backward elimination, Stepwise selection
x2
x1
다중공선성 (Multicollinerarity)
가름 척도
VIF (분산확대인자): 한 변수의 R2 값은 다른 변수와의 선형관계가 강할수록 1에 가깝다.
VIF=1/(1-R2), VIF > 10이면 다중공선성 심각.
상태지수(Condition number, CN) > 30이면 다중공선성 심각
고유값(Eigen Value), 분산 비율(Variance proportion)
일반적 해결책
y
서로 선형관계가 강한 변수 중 일부 제거
다른 회귀분석법 이용 (Ridge regression 등)
연구자의 선 경험이 중요!
다중회귀분석, 그냥 아무렇게나 하는 것이 아니다!
생존 분석
Multiple Survival Analysis
결과(상태)와, ‘관찰기간’이 필수이다 !
생존분석 (survival analysis)
(교재 p145)
상황
치료(관리) 방법에 따른 생존률(재발율/개선율) 평가
• 대상 전체에 대한 5년생존률 or 50% 생존기간?: Kaplan-Meir test
• 암 수술 방법에 따라 사망 시기에 차이가 있나?: Log-rank test
• 생존(재발)에 영향을 주는 인자는 무엇인가?: Cox proportional hazard analysis
필수 조건
• 상태변수(status) & 관찰기간(time)
관찰기간이 서로 다른(censored data 있는) 자료에서도 적용 가능한 분석법.
제시 결과
• 표 보다는 그림으로 (필요정보, 그림에 제시)
• 5년 생존률, 50% 생존기간
• 군 간의 생존률 비교 (P값)
• 생존률에 영향을 미치는 인자 (위험도[OR, HR ..] & 95%CI, P값)
개념 굳히기
(문) 대장암 환자에 대한 수술 후 예후는 여러 요인에 의해 좌우된다.
대장암 환자로 천공을 동반한 24명(case)과 천공이 없는 48명(control)을 대상으로
하여 “➀ 대장암의 예후나 생존율은 천공 여부와는 무관하며, ➁ 다양한 영향 요인을
조절함으로써 개선 가능하다.”는 결론을 얻고 싶다.
1) 적합한 통계분석법은 무엇이며,
2) 결과(영향 요인 평가)는 어떤 통계량을 기준으로 해석할 것인가?
해설 :
1) 생존분석 (survival analysis)
➀ Log-rank test
➁ Cox proportional hazard analysis
2) Hazard Ratio (HR, 또는 OR) & it's 95% CI
☞ 다른 변수를 보정한 상태에서 어떤 특성의 급간이 1단계 늘거나 주는데 따라
사망 확률이 몇 배(HR 또는 OR) 증가하거나 감소한다.
ID name
sex
age
start
end
month status site size
stage
CA19
LN
Vess
Op
152
P
N
4
1
권oo
1
56
2001/09/30 2001/12/31
3
0
H
2
이oo
2
18
1997/04/25 1999/05/25
25
1
H
10
1
43
N
N
2
3
박oo
2
59
1993/03/31 1995/06/30
27
1
B
4
1
154
N
N
1
4
염oo
1
53
2001/01/31 2001/12/31
11
0
H
4
3
91
P
P
7
5
김oo
1
59
1996/07/31 1996/10/31
3
1
B
6
4
79
P
P
5
6
박oo
1
63
1999/12/31 2001/08/31
20
0
H
3
3
3253
P
N
1
7
김o o
1
73
1999/04/30 2001/12/31
32
0
H
3
3
5004
P
P
2
8
진oo
2
52
1997/08/20 1998/01/20
5
1
B
5
4
411
P
P
5
Time : days, months, years
수작업 계산 방식보다는 연구시작, 사망·절단 시점, 연구종료 시점을 날짜 변수(start, end)로 입력.
(날짜 계산은 EXCEL에서 가능).
이점 : 정확한 날짜 계산, 관찰중단(censor)의 상황 검색 가능.
관찰중단 시점(연구종료 시점) 잘못 설정? : 결과가 다른 연구보다 과하게 좋거나 나쁘게 됨.
status : 0=censored (survive, follow-up loss)
1=uncensored (death, recurrence, remission, sequale)
SAS(참고) : proc LIFETEST method=KM; TIME month*status(0); run;
Log-rank test 결과
100
결과는 그래프로 제시(생존곡선)
추가 정보 본문 또는 foot note로 제공.
(분석결과표에서 적절히 발췌)
90
80
perforation
No
Yes
70
60
두 군간의 차이: P=0.484
각 군의 평균 생존기간(산술평균 또는 중앙값)
천공 36.9개월 < 대조군 43.7개월
평균 2년 생존율
천공 74.2% = 대조군 72.7%
50
40
0
50
100
150
200
평균 5년 생존율
천공 45.9% < 대조군 55.9%
Time
결론 : 생존률(사망률)은 천공 여부와는 무관하다(유의한 차이없다).
Maheswaran, S. et al.
NEJM 2008; 359(4): 372
Detection of Mutations in EGFR in
Circulating Lung-Cancer Cells
Fig. 1. Correlation between the Presence of
T790M Mutations in Tumor-Biopsy
Specimens and Decreased Progression-free
Survival.
Ebbing, M. et al.
JAMA 2008; 300(7): 795-804.
Mortality and Cardiovascular Events in
Patients Treated with HomocysteineLowering B Vitamins After Coronary
Angiography
Fig. 4. Kaplan-Meier Curves for the
Composite Primary End Point in the 4
Intervention Groups; Folic acid/vitamin
B12/vitamin B6, Folic acid/vitamin B12,
Vitamin B6, Placebo
Cox proportional hazard analysis 결과
P
Parameter
Estimate
Standard
Error
Hazard
Ratio
0.81398
0.57348
2.257
0.733
6.945
0.1558
age60_yn
0.7286
0.54881
2.072
0.707
6.075
0.1843
perf_site
-2.73888
1.15326
0.065
0.007
0.620
0.0176
obs_yn
4.71964
1.50352
112.128
5.887
2135.562
0.0017
abss_yn
3.61327
1.32173
37.087
2.781
494.632
0.0063
size5_yn
-0.39007
0.53857
0.677
0.236
1.945
0.4689
margin5_yn
-0.45594
0.51448
0.634
0.231
1.737
0.3755
lymph_yn
0.24688
0.8413
1.280
0.246
6.658
0.7692
vessel_yn
0.49054
0.61122
1.633
0.493
5.411
0.4222
nerve_yn
1.1206
0.65295
3.067
0.853
11.027
0.0861
lnhav10_yn
-0.61485
0.86546
0.541
0.099
2.949
0.4774
chemo_yn
-3.47312
1.47309
0.031
0.002
0.557
0.0184
Variable
gender
95% CI
결론: 성/연령과 다른 변수의 영향을 보정한 상태에서 사망률은 폐색, 농양, 신경
침범을 동반한 경우 높았으며, 항암요법을 받은 경우 유의하게 낮았다.
층화 분석
Stratified analysis
‘최상’을 원한다면 ..^^
Simpson's paradox
두 변수 관계의 방향이나 양이 제3의 변수(confounder)에 의해
영향을 받게 되는 현상.
생활습관병 요인의 성별 차이
질병(고혈압)의 중등도에 따른 약물 효과의 차이
암 병기에 따른 항암요법의 효과 차이
이 영향 변수를 고려하지 못하면 잘못된 결론을 내릴 수 있으므로
유의하여야 한다.
해결 : 층화분석 또는 다변량분석(예. 로지스틱 회귀분석)
층화 분석 (Stratified analysis)
(교재 p108)
Q. 새로운 항고혈압제 A의 고혈압 치료효과를 기존제제 B와 비교하여 평가하고자 한다.
치료효과는 고혈압의 중증도에 따라 크게 다를 수 있으므로 중증도의 영향을 배제하고
치료 효과를 평가하고 싶다.
Total
고혈압 중증도
Mild
Moderate
Severe
항고혈압제제
항고혈압제제
항고혈압제제
A
B
A
B
치료군
171
13
비치료군
212
383
A
B
184
172
21
193
41
8
49
10
222
179
10
189
30
9
39
23
406
351
31
382
71
17
88
384
42
426
421
29
450
805
71
876
카이제곱검정 결과? : 전체(total) vs. 중증도별 각각
결론 : 고혈압 중증도의 영향을 고려하면, A제제가 B제제보다 낫다
고 할 수 없다 (χ2MH=2.22, p=0.14).
6th STEP
분석결과의 제시
Simple Tips ..
분명한 메시지 전달
• 관심을 불러 일으켜야 한다.
• 제목, 결과 해석, 요약
시각적 즐거움
• 잘 짜여진 틀 (framework)
• 적당한 분량 (글자, 그림 너무 많지 않게)
Time flow ..
대상 및 방법
Materials and Methods
어떻게 이 연구를 수행하였는가?
(가능한, ‘구체적’으로 제시 !)
JAMA 2008; 300(3): 288
Effect of Simvastatin on
Cognitive Functioning in
Children With
Neurofibromatosis Type 1
A Randomized Controlled
Trial
Methods
• Design
• Participants
• Protocol
• Outcome Measures
• Statistical Analyses
Flowchart of Patient Inclusion
Krab, LC. et al.
JAMA 2008; 300(3): 287-294.
Effect of Simvastatin on
Cognitive Functioning in
Children With
Neurofibromatosis Type 1
A Randomized Controlled Trial
Methods
• &,
• Flowchart
유효표본 추출 과정을 이 정도로 상세히 기술하기를 요구한다.
결과 제시와 해석
Correct Description and Interpretation
선별 & 분명한 전달 !
Two Simple Ways ..
표 (tables)
그림 (graph, figure)
• 연구 결과를 표현하는 가장 효과적 방법
• Self-explanatory !
• 간결, 명료하게 작성
표 (Tables)
반드시(모든 경우에) 통계분석을 해야 하는가?
Recent steroid injection may increase infection rates in primary THA. CORR 2006;451:51
단순히 연구대상의 분포 제시, 통계값(P값) 제시 없다 !
표 2-1. 대상자의 과거 질병력
가족력
고혈압
당뇨
뇌졸중
심장병
간질환
남자
여자
전체
명
%
명
%
명
%
없음
613
89.8
256
84.2
869
88.0
있음
70
10.2
48
15.8
118
12.0
전체
683
100.0
304
100.0
987
100.0
없음
625
91.5
260
85.5
885
89.7
있음
58
8.5
44
14.5
102
10.3
전체
683
100.0
304
100.0
987
100.0
없음
643
94.1
287
94.4
930
94.2
있음
40
5.9
17
5.6
57
5.8
전체
683
100.0
304
100.0
987
100.0
없음
660
96.6
292
96.1
952
96.5
있음
23
3.4
12
3.9
35
3.5
전체
683
100.0
304
100.0
987
100.0
없음
653
95.6
295
97.0
948
96.0
있음
30
4.4
9
3.0
39
4.0
전체
683
100.0
304
100.0
987
100.0
표 2-2. 대상자의 과거 질병력
남자 (n=683)
여자 (n=304)
전체 (n=987)
명
%
명
%
명
%
없음
613
89.8
256
84.2
869
88.0
있음
70
10.2
48
15.8
118
12.0
없음
625
91.5
260
85.5
885
89.7
있음
58
8.5
44
14.5
102
10.3
없음
643
94.1
287
94.4
930
94.2
있음
40
5.9
17
5.6
57
5.8
없음
660
96.6
292
96.1
952
96.5
있음
23
3.4
12
3.9
35
3.5
없음
653
95.6
295
97.0
948
96.0
있음
30
4.4
9
3.0
39
4.0
가족력
고혈압
당뇨
뇌졸중
심장병
간질환
표 2-3. 대상자의 과거 질병력
가족력
성별, n/N (%)†
P value
남 (N=683)
여 (N=304)
고혈압(있음)
70/683 (10.2)
48/304 (15.8)
0.0178 (p<0.05)
당뇨병(있음)
58/683 ( 8.5)
44/304 (14.5)
0.0062 (P<0.01)
뇌졸중(있음)
40/683 ( 5.9)
17/304 ( 5.6)
0.9867 (NS)
심장병(있음)
23/683 ( 3.4)
12/304 ( 3.9)
0.7884 (P>0.05)
간질환(있음)
30/683 ( 4.4)
9/304 ( 3.0)
0.3740 (-)
교차분석표(cross tabulation)의 제시
Table 11-4. Cancer incidence by INSAM intake habit in 905 pairs
인삼
환자군 (%)
대조군 (%)
χ2 value
섭취
(n=905)
(n=905)
P value
아니오
343 (37.9)
231 (25.5)
32.00
예
562 (62.1)
674 (74.5)
0.001
Source : Yun TK, et al. Jr Korean Med Sci 2001; 16(suppl.): S21
“인삼 복용에 따른 암 발생은 유의한 차이를 보였다.”
교차분석표(cross tabulation)의 제시
Table 2-4. Comparison of baseline characteristics by cancer diagnosis
Characteristics
Cases, n/N (%)†
P value
Cancers
Controls
INSAM intake, yes
562/905 (62.1)
674/905 (74.5)
0.001
Gender, male
471/905 (52.0)
434/905 (48.0)
NS
Smoking, yes
642/890 (72.1)
239/854 (28.0)
<0.001
.
.
.
.
.
.
.
.
n indicates the number of corresponders; N, the total sample size.
N† varies because of missing data. NS: not significant
다변량분석 결과표 (Multiple linear regression)
Table 7-1. 소아의 신장, 체중, 성별이 수축기 혈압에 미치는 영향에 대한 다중회귀분석 결과
변수
추정회귀
계수(β)
표준오차
(SE)
모수의 95%
신뢰구간
(95% CI)
검정
통계량
P값
절편
79.4395
17.1182
(45.89, 112.99)
4.6406
0.0001
신장
-0.0310
0.1717
(-0.37, 0.31)
-0.1807
0.8570
체중
1.1795
0.2614
(0.67, 1.69)
4.5123
0.0001
성별
4.2295
1.6105
(1.07, 7.39)
2.6261
0.0101
ANOVA 결과 표에서 최소한 한 개 독립변수는 수축기혈압과 관련이 있다.
(F=14.95, df: 분자 3, 분모 96; P=0.0001).
adjusted R2=0.2972
수축기혈압 변동의 29.7%가 신장, 체중, 성별의 차이로 설명.
다변량분석 결과표(Multiple logistic regression)
Table 11-14. Results of multivariate Cox regression analysis of local recurrence among
the 1748 eligible patients with a macroscopically complete local resection.*
Variable
Treatment group
Radiotherapy and surgery
Surgery alone
Distance of tumor from anal verge
10.1-15 cm
5.1-10 cm
≤5cm
Type of resection
Low anterior
Abdominoperineal
Hartmann†
TNM stage
Ⅰ
Ⅱ
Ⅲ
Ⅳ(distant metastasis)
Hazard Ratio (95% CI)
P Value
<0.00l
1.00
3.41 (2.05-5.70)
0.03
1.00
2.13 (1.13-4.01)
2.78 (1.22-6.31)
0.02
0.02
0.90
1.00
1.15 (0.59-2.24)
1.16 (0.42-3.25)
0.68
0.78
<0.00l
1.00
3.44 (1.26-9.36)
9.69 (3.89-24.2)
16.20 (5.40-48.6)
0.02
<0.00l
<0.00l
각 변수 서로의 영향을 보정한 상태에서
수술만을 한 경우가 병행요법을 한 경우의 3.4배(2.1~5.7배), 항문에서 거리가
가까울수록, TNM stage가 높을수록 재발이 잘 일어나며, 수술법은 재발과 무관하였다.
좋은 표 ? ^^
표 작성 tip
표 1. 대상자의 주요 특성
특성
구분
연령(세)
<50
50-59
≥60
단위 : 명(%)
전체
(N=190)
성별
남자
(N=106)
여자
(N=84)
P*
46 (24.2)
78 (41.1)
66 (34.7)
56.2±9.1
(40-81)
28 (26.4)
45 (42.5)
33 (31.1)
55.3±8.5
(40-76)
18 (21.4)
33 (39.3)
33 (39.3)
57.4±9.6
(40-81)
0.474
‡0.101
흡연
함
안함
37 (19.5)
153 (80.5)
36 (34.0)
70 (66.0)
1 (1.2)
83 (98.8)
<0.001
음주
함
안함
89 (46.8)
101 (53.2)
75 (70.8)
31 (29.2)
14 (16.7)
70 (83.3)
<0.001
운동
함
안함
104 (54.7)
86 (45.3)
70 (66.0)
36 (34.0)
34 (40.5)
50 (59.5)
<0.001
24.8±3.1
(17.6-40.5)
25.0±3.1
(18.4-40.5)
24.6±3.0
(17.6-31.2)
‡0.354
BMI (㎏/㎡)
혈압
정상
고혈압
46 (24.2)
144 (75.8)
24 (22.6)
82 (77.4)
22 (26.2)
62 (73.8)
0.571
심질환
정상군
질환군
31 (16.3)
159 (83.7)
19 (17.3)
87 (82.1)
12 (14.3)
72 (85.7)
0.500
BMI: Body Mass Index, 평균±표준편차(최소값-최대값), P*: chi-square test, ‡P: t-test
표 작성 tip
표 5. 대사증후군 위험에 대한 로지스틱회귀분석 결과
특성
단변량분석
(Univariate analysis)
다변량분석
(Multivariate analysis)
HR (95% CI)
p
HR (95% CI)
p
연령 (50대 vs. <50)
1.82 (0.87~3.81)
0.925
1.76 (0.83~3.75)
0.889
연령 (60대 vs. <50)
3.11 (1.42~6.80)
0.009
2.85 (1.29~6.32)
0.020
흡연 (함 vs. 안함)
1.29 (0.72~2.29)
0.120
1.03 (0.31~1.45)
0.310
음주 (함 vs. 안함)
1.54 (0.62~2.09)
0.169
1.14 (0.62~2.09)
0.580
운동 (함 vs. 안함)
0.67 (0.38~1.19)
0.392
0.84 (0.45~1.57)
0.681
HR: hazard ratio, 95% CI: 95% confidence interval
1) 단변량분석은 각 변수 하나만의 영향을 평가.
2) 다변량분석은 채택한 모든 변수 서로의 영향을 보정한 상태에서 각 변수의 영향을 평가.
좋은 표/그림 작성 tip
• 영문 작성(원칙), self-explanatory
1) 표 : Title, Headings, Foot note, 통계분석법과 결과(t, χ2, p), 단위(unit)
2) 그림 : 척도(간격), 범례(legend), symbol, 약어, Foot note ..
• 간결하고 분명한 제목
• 정보는 빠뜨리지 않되, 간단할 수록 좋다.
• 선은 최소한으로 사용 : 종선은 금지, 횡선 만
• 횡 구분, 선 보다는 간격으로.
• Cell 안 배열: 항목/특성은 좌측 배열, 수자는 우측 배열
• 단위 명시: 표 상단 우측 또는 해당 cell
• Foot note: 약자/기호 설명, 필요시 해설, resource 명시.
그림 (Figures)
Figures
그림의 종류
(1) Graph
(2) 사진, 삽화 (병리소견, 방사선 소견, 수술 후 개선된 결과 등)
PC용 프로그램 적극 활용
연구자의 경험과 자질, 참고문헌*
• 건강연구(Health study)에서 많이 사용되는 그래프
bar graph, line graph, pie graph, box-and-whisker plot
scatter diagram, regression line, survival curve, ROC curve,
meta analysis, spot map, area map (GIS) …
Forecast for Korean Medical Tourism Market
5.05% of Asian Total, 2013
Source: Renub Research. Asia Medical Tourism Analysis (2008-2009). 2009. 9.9
(%)
고위험 음주행동 빈도
Flacke, S. et al.
Radiology 2008; 248(2): 540-549.
Embolization of Varicocles:
Pretreatment Sperm Motility Predicts
Later Pregnancy in Partners of Infertile
Men1
Fig. 3. Boxplots of (a) variation in total
sperm count and (b) increase in sperm
motility after treatment.
Hatanaka, N. et al.
J Clin Pathol 2008; 61: 517
A new predictive indicator for
development of pressure ulcers in
bedridden patients based on common
laboratory tests results
Fig. 1. ROC curves of the new indicator,
albumin (Alb), Braden score, C-reactive
protein (CRP), and haemoglobin (Hb)
AUC (Area Under Curve)
남성 현재흡연율
비만인구율
고위험음주율
당뇨병평생의사
진단유병률
고혈압평생의사
진단유병률
7th STEP
어려움 극복
연구(study)의 시작은..
‘interest (need)’,
그리고
‘why?’ 이다.
Statistics, Why ?
• 연구의 학술적 가치와 효용
연구목적에 따라 바르게 정리되고 분석되었을 때 비로소 가치를 발휘
자료(raw data)의 충실도와 바른 통계분석법의 적용
자료 표현(통계분석)의 질은 논문 전체의 질(quality)을 결정
최근 PC용 프로그램의 개발 보급으로 통계분석 부담은 크게 줄었음
하지만, 결국은 연구자의 몫 : 경험, 의지 와 자료 핸들링 능력
• 흔히 범하는 통계적 오류의 근원
‘자료’와 통계적 개념의 충분한 이해 없이 단순히 통계프로그램 만을
적용하고 그 결과를 나열하였기 때문.
• 전략없는 통계분석은 없다, ‘내 것’을 소중히 여기는 마음 !
평가 Quiz
연구 결과 p값이 0.065로 계산되었다. 귀하의 최종 ‘의사결정’은?
가. 이 표본의 크기로는 그룹간에 통계적으로 유의한 차이를 인정할 수 없었다.
나. 자료수집 과정에서의 교란요인이나 대상자의 순응도를 재평가 해 볼 필요가 있다.
다. 표본수가 늘어나면 유의한 차이를 보일 수도 있겠다.
라. 통계적 판단의 유의성 수준을 α=0.10으로 하면, ‘유의한 차이’로 해석할 수 있다.
1) 가, 나, 다
2) 가, 다
3) 나, 라
4) 라
5) 가, 나, 다, 라
표준편차(S.D.), 표준오차(S.E.) 어느 것을 제시?
FBS (mg/dL)
DM (n=100)
Healthy (n=100)
mean±S.D.
142.3±83.6 (105∼240)
103.5± 28.2 (75∼132)
mean±S.E.
142.3± 8.36 (105∼240)
103.5± 2.82 (75∼132)
S.D. : ‘관찰한 100명의 평균과 퍼진 정도(산포도)’에 국한된 의미.
더 큰 대상(모집단)으로의 확대 해석(일반화) 불가.
통계적 추론(가설검정, 신뢰구간 추정) 불가.
S.E. : 모집단 개념 포함. (S.E. 〓 S.D. / √n)
☞ 결과 제시 때는 N(표본 수)를 반드시 표시하여야 ! (범위도 권장)
표준편차(S.D.) , 표준오차(S.E.) 어느 것을 제시?
Table 3. Baseline characteristics of subjects by diabetic group
DM (n=100)
Healthy (n=100)
P value
Age, mean(SD), yr
48( 8.5) [ 28∼ 65]
46( 9.1) [ 26∼ 64]
p=0.1098
FBS, mean(SD), ㎎/dL
142(83.6) [105∼240]
103(28.2) [ 75∼132]
p=0.0001
FBS, mean(SE), ㎎/dL
142( 8.4) [105∼240]
103( 2.8) [ 75∼132]
p=0.0001
Total cholesterol, mean(SD), ㎎/dL
201(34.7) [182∼295]
160(30.9) [125∼284]
p=0.0001
LDL cholesterol, mean(SD), ㎎/dL
106(27.6) [ 85∼180]
80(22.4) [ 75∼165]
p=0.0001
Variables
Source : JAMA
p=0.085 (p>0.05) 의 값을 얻었다.
어떻게 결론지을 것인가?
1) Truely no difference (at least in case of this sample size)
2) Small (not efficient) number of subjects
3) May be due to bias, confounder and/or poor compliance
• P값은 ‘절대값’이 아니다!
• Clinical (Practical) vs. Statistical significance
경계역 유의성 (marginal significance) …
Presentation of P-value
(교재 p264)
p<0.05
p=0.049, p=0.001
p>0.05
p=0.051, p=0.853
p=0.000 (?)
p<0.001, p<.001
t=14.956, p<0.001
t=0.377, p=0.709
F=7.564, p=0.001
F=0.110, p=0.896
χ2=4.864, p=0.028
χ2=3.699, p=0.054
*, **, ***, NS, (-)
*, **, ***, NS, (-)
가능하면, 위험도로 표현하자 !
Risk ratio & it’s 95% CI
RR (relative risk), OR (odds ratio),
hazard ratio (HR), risk ratio …
Q. OR (RR)의 95% 신뢰구간(95% CI)이 1.0을 포함하는
지의 여부를 관찰하는 것은 어떤 의미를 지니는가?
(왜 중요한가?)
Vermoken, JB. et al.
NEJM 2008; 359(11): 1123
Platinum-Based Chemotherapy plus
Cetuximab in Head and Neck Cancer
Fig. 3. Hazard Ratios for Death.
통계 자문 구하기
How to Get Advices ?
자신의 것에 대한 ‘애착’ 만큼..^^
Know WHERE ?
Know WHO ?
Know HOW ?
통계적 수행
은…
‘know-how의 달성' 보다는,
“consensus 공유”가 훨씬 중요 !
• 연구자의 인식 (중요성, 필요성)
- 왜, 해야 하는가? (과연, 필요한가?)
• 연구자의 의지 (시도)
통계 자문을 위한, Valuable tips
• 통계 분석가는 마술가
또는
all-mighter가 아니다!
‘재료(자료)’를 기계(프로그램)에 넣기만 하면 ‘제품’이 되어 나오는 과정?
• 연구 목적과 연구자의 철학, 애정이 있어야 한다.
• 함께 고민하는 동반자(co-worker) 자리매김...
• 동료 과학자(colleague)에 대한 기본 매너
• 자신의 연구를 ‘최선’으로 만들고자 하는 욕심.
• 자문을 구할 때 연구자가 갖추어야 할 최소한의 요건
“자신 조차도 사랑하지 않는 ‘나의 것’을,
다른 어느 누가 사랑해 주겠는가?”
Authorship
Should be based on substantial contribution to:
• Conception and Design
•
Analysis and Interpretation of data
• Drafting the article or revising it critically for intellectual content
• Final approval of the version to be published
Not justify &/or not sufficient for authorship:
• Participation solely in the acquisition of funding or the collection of data.
• General supervision of the research group.
Source: Am Inter Med 126 (1997): 36-47
8th STEP
정리
“ Validity of A Research is Closely
Depends on the Process of
Correct Data Collection and Analysis “
Analysis (Statistics)
From ‘junk’, to ‘jewelry’ ...
Analysis ..
Need (interests)
Value (scoring)
자신 조차도 사랑하지 않는 ‘나의 것’을 어느 누가 사랑해 주겠는가?
Frequency
You !
are the
most important person
in your own research .
Your ‘OWN ‘ data ! …