임상의학 통계의 기초(박수경)

Download Report

Transcript 임상의학 통계의 기초(박수경)

신경외과 학회 특강 (2006년 4월 13일)
임상의학 통계의 기초
서울대학교 의과대학 예방의학교실
박수경
02-740-8338
[email protected]
1
통계학적 분석은 어떤 경우에 필요한가?
【 예제 1】한국인 40세 A 씨의 뇌종양은 직경 2cm 이고 미
국인 40세 B 씨의 뇌종양은 직경 4cm 이라 할 때 미국인 B
씨의 뇌종양이 같은 나이의 한국인 A 씨보다 크다고 할 수 있
겠는가?
2
기술 통계학
- 통계학: 연구자료를 수집, 요약, 분석하는 학문영역
기술 통계학 / 추측 통계학
[예제] 강원도 춘천시 1개 동 지역에서 성인 남녀 1,000명을
대상으로 하여 뇌혈관 질환의 유병률을 측정한 결과 인구
100명당 1.2명으로 추정되었다.
3
추측 통계학(inferential statistics)
- 일부 표본에서의 결과로부터 전체집단(모집단)에서의 결
과를 추론하는 방법
- 대표값과 대표값의 범위
(예) 평균치와 표준오차(혹은 표준오차, 95% 신뢰구간 등)
4
통계학은 복잡하다?
[예제 3】고혈당이 뇌 손상에 미치는 영향을 보기 위하여 정
상 혈당군 10마리, 고혈당군 10마리로 나누어 전뇌 허혈을
시킨 후 lipid peroxidation 의 산물인 malodialdehyde 의 양
을 측정한 결과 정상 혈당군에서는 14.0±3.70 이었고 고혈
당군에서는 13.4±2.25 이었다. 두 군간의 차이를 인정할 수
있겠는가?
** 이론적 분포의 정의를 몰라도 통계학적 접근의 지침과 그 결
과해석을 제대로 할 수 있다면 통계학적 분석이 가능하다.
5
모집단과 표본
 (추측)통계학의 관심은 모집단에 있다.
모집단 : population
표 본 : sample
 통계적 분석 과정 – 모집단에서의 모수 추정 과정
정상 영역? 정상치?
모 수 : parameter
모 평균 : μ
모 분산 : σ2
모 표준편차 : σ
모 상관계수 : ρ
모 분율 : π
모 회귀계수 : β
표본 통계량 : statistics
_
표본 평균 : x
표본 분산 : s2
표본 표준편차 : s
표본 상관계수 : r
표본 분률 : p
표본 회귀계수 : b
• 검정통계량 : test statistics (t, z, chi-square, F 등)
6
정규분포(Normal Distribution/Gaussian Distribution)
1
f(x) 
e
σ 2π
 (x  μ) 2
2σ 2

- unimodal (단봉성)
- 평균, 중앙치, 최빈치가 모두 일치
- symmetric (좌우 대칭)
7
정규분포의 특징
평균과 표준편차만으로
곡선아래 면적 산출
μ  3σ μ  2σ μ  σ μ μ  σ μ  2σ μ  3σ
Pr(     x     )  0.6826
Pr(   1.96  x    1.96 )  0.95
Pr(   2  x    2 )  0.9545
Pr(   2.58  x    2.58 )  0.99
Pr(   3  x    3 )  0.9545
8
표준정규분포(Standardized
Normal Distribution)
- 어떤 모양이던 정규분포는 일정 범
위의 X 곡선아래 면적은 동일
- 평균을 0, 분산을 1이 되게 표준화
μ0
σ 1
x μ
z 
σ
: 표준화
- 단일 분포
- 표준화 지수만 알면 그 이상/이하 면적을 쉽게 계산
- 부록에 부표로 제시
9
중심극한이론 : 표준오차
n
x1
n
n
d ( , 2 )
.
.
.

x2
모집단으로부터 n개의 표본을
무한히 반복 추출할 때
x3
.
.

.
표본 평균치들의 분포는?
x
Nd
i
d (  xi ,  xi )
2
 Nd (  ,  2 / n)
x
i
xi
10
표본 분포
(Sampling Distributions)
표본 평균치들의 분포
- 모집단의 평균이 μ 이고 분산이 σ2 일 때
- 표본 평균치들의 분포는
① 정규분포 (Nd): (조건)
모집단이 정규분포이거나 표본 크기가 30 이상일 때
② 평균 = μ
③ 분산 = σ2 / n
④ 표준편차 = σ /√n = 표준오차(standard error of means)
11
정규 분포와 중심극한이론의 중요성
- 이론적 분포이나 평균과 표준편차만으로 분포 곡선의 특징이 결정
-많은 사회적, 생물학적 변수의 표본 평균치들이 정규분포를 잘 따름 > 평균치 비교, 분산 분석, 회귀 분석, 비 연속 분석 등에 이용
- 많은 확률 표본 분포가 정규분포로부터 유도됨
예) chi-square 분포, F-분포, t-분포
- 표본 평균치들의 합(혹은 차)들의 분포: 모집단이 정규분포이거나 표
본의 크기가 30 이상일 때
proportion: 모집단이 이항분포(proportion)이나 표본의 크기가 30
이상일 때
 정규 분포를 따르게 됨.
12
통계학적 추론
(Statistical Inference)
(방법 1) Estimation of Population Parameter : 모수 추정
- 표본 통계량(sample statistic) – 인구집단의 잘 모르고
있는 모수(true value)를 추정
- 정밀도의 측정
Standard Error (S.E)
: 표준오차
Confidence Interval (=Confidence Limit)
: 신뢰구간
13
(방법 2)
Hypothesis Testing : 가설검정법
- 인구집단 모수에 대한 의문과 거기에 대한 정성적 추론 과정.
- 귀무가설, 대립가설
대립가설[H1] - 연구자가 증명하고자 하는 가설 (차이가 있음)
귀무가설[Ho] - 대립가설과 반대되는 가설 (차이가 없음)
- 논증의 엄밀성을 견지하기 위하여 증명하고자 하는 가설의
검정을 위하여 설정된 가설
- “다른 상황을 생각하게 하는 현저한 이유가 없는 한 현상적인
모든 차이는 無”
- 반증법의 논리
14
가설검정법의 과정
▪ 인구집단 모수(parameter)에 대한 의문 : μ?
▪ 의문을 가설로 설정하되, 이분 형태로 : H0, H1
▪ 잘못 판정 내릴 확률을 설정: α-오류, β-오류
▪ 관찰 표본(자료) 수집 : test statistic (검정통계량)
▪ 가정(가설)하에서 이 현상이 얼마나 관찰될 것인가?
: 확률적 평가
▪ 통계학적 평가 : p-value
15
α-오류 / β-오류
가설 검정시 의사 결정에 따른 판정 오류
예) 기존 치료법 10% : null status
R0 = 0.1
새로운 치료법 30% : hypothetical status R1 = 0.3
* 가설설정으로 인해 야기되는 가능한 오류
가설진위
판정
H0
Reject
H0 do not Reject
H0 True
(R=0.1)
Type I error(α)
No error
H0 False
(R>0.1)
No error
Type II error(β)
16
α-오류 / β-오류 / Power
I종 오류 (α-error) :
관찰 내용이 실제로는 null status에 속하는데 그렇지 않다고 판정하는 오류
: 통상 α=0.05
(5%의 잘못을 감수하고 H0를 부정하여 상대적으로 연구자의 가설을 지지)
II종 오류(β-error) :
관찰 내용이 실제로는 null status에 속하지 않는데 속한다고 판정하는 오류
: 참값을 특정 값에 고정해야만 산출 가능
: 결과가 연구자의 가설을 지지하는 쪽으로 해석하기를 원하는 경향
Statistical Power =
1- [β]
실제 모수가 귀무가설(null)의 모수와 다른 경우 유의한 차이를 발견할 확률
: 흔히 통계적 검정력은 80% 혹은 90%에 고정
17
P-value
자료와 귀무가설과의 일치도를 나타내는 일종의 척도(통계량)
-대립가설이 옳을 때 귀무가설의 분포와 관찰된 자료의 분포
간 차이를 최대한으로 뚜렷하게 분별해 주는 통계량
- 귀무가설과의 일치도가 높을수록(귀무가설이 채택될 확률
이 높을 수록) p-value가 높음
- p-value 낮을 수록 귀무가설이 기각될 가능성(즉, 대립가
설이 채택될 가능성)이 커짐
18
올바른 해석
- 주어진 자료의 귀무가설을 채택/기각역의 경계에 위치하는 α 오류
α=0.05일 때
p<0.05 : 귀무가설 기각 연구하고자 하는 가설(대립가설) 채택
p≥0.05 : 귀무가설 채택 연구하고자 하는 가설(대립가설) 부정
** 표본의 수와 동시에 고려해야 함
큰 표본 수 : 차이가 극히 적더라도 차이가 나는 것처럼 계산
작은 표본 수 : 차이가 있더라도 차이가 없게 나옴
잘못된 해석
- 귀무가설에 대한 하나의 증거요약일 뿐, 연구가설이 옳고 그름을 판별해
주는 결정인자는 아님
- 귀무가설이 옳을 확률로 해석해선 안됨
19
통계학적 분석 방법의 기초
① 변수의 척도
분석하고자 하는 변수 (독립변수와 종속변수) 의
척도(scale)를 명확히 구분
② 통계학적 분포에 대한 가정
각 통계학적 방법론마다 가지는 가정(assumption)
에 위배되지 않는 자료를 적용
20
변수의 척도
비연속 변수 (질적 변수)
연속 변수 (양적 변수)
명칭척도 (nominal scale)
특정 상태를 지칭
혈액형, 성별, 인종,
실험군(대조군/치료군)
치료결과 (호전, 재발, 사망)
간격척도 (interval scale)
특정 상태 + 서열 + 측정치간 간격
온도 (0의 상태의 개념화)
순위척도 (ordinal scale)
특정 상태 + 각 범주간 서열
교육정도, 사회경제적 수준,
병리조직학적 소견(-/±/+/++/+++)
치료 정도 (반응, 중간반응, 무반응)
비 척도 (ratio scale)
간격척도 특성 + 절대 영점
연령, 혈압, 체중, 신장
21
변수의 척도에 따른 통계학적 분석법
연령
(12세, 13세, ..... )
(-9세, 10-19세, ..... )
(19세 미만, 20세 이상)
독립변수
명칭척도
정상군/환자군
종속변수
비척도
뇌혈압 차이
독립적 자료
짝지은 자료
순위척도
비척도
s-catecholamine치
정상군/중등도군
/고혈압군 (비척도)
☜
☜
☜
비 척도
순위척도
명칭척도
적용해야 할 통계분석법
- 평균치 분석 (T-test)
- paired t-test
분산분석법 (ANOVA)
22
독립변수
종속변수
비척도
고혈압
비척도
뇌혈압
비척도
고혈압+동맥경화증
비척도
두개강내압
명칭척도
정상군/환자군
명칭척도
뇌종양 발생률
적용해야 할 통계분석법
회귀분석/분산분석
공분삭분석(ANACOVA)
chi-square test
logistic regression
순위척도
정상군/중등도군
/고혈압군
명칭척도
뇌종양 발생률
test for trend
명칭척도
명칭척도+비척도
생존분석
악성뇌종양군
/양성뇌종양군
생존여부+생존기간
23
모수적 및 비모수적 통계분석법
모수적 검정법 (parametric statistical tests)
추측통계학 분야의 조건: 적용하려는 통계방법의 가
정을 위배하지 않는다
모집단에 대한 가정을 전제로 한 통계적 분석법
비모수적 검정법
모수에 관한 가정을 전제로 하지 않은 채 모집단의
형태에 관계없이 직접 그 확률을 계산함으로써 어떤
통계학적 판정을 내리게 되는 분석법
24
비모수적 검정법을 사용하게 되는 경우
① 종속변수가 명칭척도나 순위척도일 때
② 변수의 척도에 관계없이 표본의 수 ≤ 6
(모집단에 관한 어떠한 분포도 가정을 할 수가 없음)
③ 연구자료가 특정 분포를 따르지 않음이 명백할 때
** 본격적인 모수적 검정법을 사용하기 전의 예비분석
-비모수적 검정법은 모수적 검정법에 비해 검정력-효율성
이 낮으므로 가능하다면 모수적 검정법을 적용함이 권장된
다.
25
비모수적 통계분석법
자료의 성격
모수적 검정법
비모수적 검정법
종속변수가 명칭척도일 때
한
두
두
세
세
개의 자료
개의 독립된 자료
개의 짝지은 자료
개 이상의 독립된 자료
개 이상의 짝지은 자료
χ2-test
Fisher's exact test / χ2-test
McNemar test
χ2-test
Cochran's Q test
종속변수가 순위척도일 때
한 개의 자료
두 개의 독립된 자료
z-test / t-test
Student's t-test
두 개의 짝지은 자료
세 개 이상의 자료
제 3의 변수의 영향을
보정하는 방법
paired t-test
ANOVA
2-way ANOVA
Kolmogorov-Smirnov test / runs test
Wilcoxon rank sum test
Mann-Whitney test / median test
Wilcoxon signed rank test / sign test
Kruskal-Wallis test
Friedman's 2-way ANOVA
종속관계가 명확하지 않을 때
상관분석
Pearson's correlation
Spearman's correlation
Kendall's tau test / Stuart's tau test
26
통계학적 분석 과정
1. 자료의 수집 및 입력
2. 연구가설 설정 (대립가설과 귀무가설설정)
3. 가설에 따른 분석 목표 설정 (종속변수와 독립변수 설정)
4. 각 변수의 척도 (scale)를 확인
5. 표본 수와 종속변수의 척도를 확인– 모수적 분포인지 비모
수적 분포인지를 평가
6. 각 변수의 척도에 따른 분석방법 선별
7. 필요할 경우, 연속 변수들의 범주화 (비연속변수화)
8. 종속변수에 미치는 여러 독립변수들이 있을 경우 - 다변량
분석을 시행할 것인지 혹은 층화분석을 시행할 것인지를
결정
27
경청해 주셔서 고맙습니다.
28