의료의 질 평가 분석 기법

Download Report

Transcript 의료의 질 평가 분석 기법

의료의 질 평가 분석 기법
2011. 5. 20.
김민경
통계
측정(Measurement)과 척도
• 측정
– 일정한 규칙에 따라 대상과 사건(event)에 숫
자를 할당하는 것
– 특정 개념을 숫자화 하는 과정
• 척도
– 측정하고자 하는 대상에 부여하는 숫자의 체
계
측정척도(Scales of Measurement)
• 범주형(Categorical) 척도
– 명목척도(Nominal scale)
– 서열척도(순위척도, Ordinal scale)
• 연속형(Continuous)척도
– 간격척도(Interval scale)
– 비율척도(Ratio scale)
명목척도(Nominal scale)
• 측정대상의 특성을 분류하거나 확인할 목적
으로 숫자 부여
– 척도 수준에 따른 우열은 없음
• 예
–
–
–
–
–
–
성별
결혼상태
혈액형
인종
실험군(대조군, 치료군)
치료결과(호전, 재발, 사망)
서열척도(Ordinal scale)
• 측정대상간의 우열관계를 나타내는 척도
• 예
– 교육연한(0, 1-6, 7-9, 10-12, 12이상)
– 질병의 심각도(경함, 보통, 중함)
– 병리조직학적 소견 (-, ±, +, ++, +++)
– 치료의 정도(반응, 중간반응, 무반응)
간격척도(Interval scale)
• 속성에 대한 순위를 부여하되 순위 사이의
차이가 동일한 척도
– 측정치간의 차이에 의미를 부여
• 예
– 섭씨
이는
– 어제
오늘
22도와 26도의 차이와 32도와 36도의 차
같다(O)
기온이 5도이고 오늘 기온이 10도이면,
기온이 어제보다 2배 덥다(X)
비율척도(Ratio scale)
• 간격척도가 갖는 특성도 갖고 측정값 사이
의 비율계산이 가능한 척도
• 예
– 대상자 갑의 수입이 500만원이고 을의 수입이
250만원이면, 갑의 수입은 을의 수입의 두 배
이다
오차(error)와 편의(bias)
• 오차
– 실제값과 측정값의 차이
• 오차는 모든 측정 과정 발생
– 무작위오차(random error)
– 계통오차(systematic error)
무작위오차(random error)
• 측정오차(measurement error) : 측정과정에
서 관찰자나 측정기기에 의하여 생기는 오차
– 관찰자내변이(intra-observer variation)
– 관찰자간변이(inter-observer variation)
• 생물학적 변이(biological variation) : 정상범
위에 있는 사람들에게서 볼 수 있는 생물학적
인 측정치의 오차
– 개체간 변이(inter-individual variation)
– 개체내 변이(intra-individual variation)
• 같은 사람의 혈압, 맥박 등의 측정치도 측정시간, 위치,
기분상태, 환경 등에 따라의 다름
편의(bias)
• 계통오차(systemic error)라고도 함
• 참값(true value)과 연구자가 추정한 추정
치 사이의 차이
편의(bias)
연구자의 측정치
참값
단변량 분석(univariate analysis)
자료분석 측면의 변수(Variable)
• 연속형 quantitative, measurement
– 비율 ratio
– 등간 interval
• 범주형 qualitative, categorical
– 명목형 nominal
– 순서형 ordinal
단변량 분석


변수 하나를 분석하는 방법
변수의 형태에 따라 분석 방법이 정해져 있음
그래프 요약
측정형
숫자 요약
stem and leaf plot
평균, 중앙값, 최빈값,
box-whisker plot
표준편차, 사분위수
Histogram
범주형
bar chart
pie chart
비율(proportion)
도수분포표(Histogram)

계급, 도수 및 상대도수로 구성됨
– 계급(class) : 자료가 취하는 전체 범위를 몇 개의 소
집단으로 나눈것
– 도수(frequency) : 각 계급에 속하는 자료의 수
– 상대도수(relative frequency) : 도수를 전체 자료의 수,
즉 전체 도수로 나눈 비율
평균(Mean)
• 자료의 총합을 전체자료의 수(n)으로 나
눈값
– 특징
• 자료의 극단적인 값에 영향을 받음
• 수학적 연산 가능(가중평균에 의해 전체집단의
평균도 산출 가능)
16
중앙값(Median)

자료를 크기에 따라 나열하여 중앙에 위치하는 값
– 특징
• 극단적인 관찰치에 영향을 거의 받지 않음(극단적 비대
칭분포에서 적절하게 이용가능)
• 수학적 특성 없음
• 종 모양의 대칭적 분포에서는 중앙값과 평균값이 동
일
• 단순히 자료의 서열적인 특징에 기초한 것이므로 최소
또는 최대 값이 다르더라도 동일
• ex) 1,2,3,4,5 / 1,2,3,3,3 / 1,2,3,10,100
• 추리적인 목적을 위해서는 평균값보다 우월하지 않음
최빈값(Mode)

가장 빈도가 많은 관측값
– 특징
• 도수분포에서 가장 많은 값이 두개 또는 그 이상
인 경우 존재
• 종 모양의 대칭적 분포에서 평균값, 중앙값, 최빈
값은 동일한 값
편차(Deviation)
• 각 변량이 평균에 대해 얼마나 떨어져 있
는지 판단하는 척도
• 편차들의 절대값을 모두 합한 다음 총 관
찰개수로 나눈 값
 xi  x
MD 
n
표준편차(Standard Deviation)
• 각 변량이 평균에 대해 얼마나 떨어져 있
는지 판단하는 척도
• 편차들의 제곱을 모두 합한 다음 총 관찰
개수로 나눈 값의 제곱근
SD 
 ( xi  x)
n
2
사분위간 범위
• 일 사분위 (First Quartile, Low Quartile) Q1
– 자료의 25%가 그 값보다 작고 자료의 75%가 그 값
보다 크게 될 때 그 값
• 이 사분위 (Second Quartile, Median) Q2=Media
n
– 자료의 50%가 그 값보다 작고 자료의 50%가 그 값
보다 크게 될 때 그 값
• 삼 사분위 (Third Quartile, Upper Quartile) Q3
– 자료의 75%가 그 값보다 작고 자료의 25%가 그 값
보다 크게 될 때 그 값
• Inter-Quartile Range (IQR=Q3-Q1)
– (삼 사분위 값 -일 사분위 값 )
막대 그래표(Bar chart)
파이 차트(pie chart)
비율(proportion)
• 어떤 수량(비교하는 양)의 다른 수량(기준
량)에 대한 비의 값을 소수로 나타낸 것.
측정 수준에 따른 변수의 종류
측정수준에 따른
변수의 종류
연속형 변수
(Continuous variables)
비율 변수
(ratio variables)
간격 변수
(interval variables)
이산형 변수
(Categorical variables)
순위 변수
명목 변수
(ordinal variables) (nominal variables)
자료의 표현 방법
• 연속변수
– 평균±표준편차
• 이산형 변수
– 돗수(%)
변수의 주종관계
• 독립변수
• 종속변수
y  f ( x1 , x2 ,, xn )
키 f (부모키,영양상태,, 줄넘기)
자료 분석 순서
• 하나, 둘, 다변량
• 단변량 분석
– 평균, 최빈값, 중앙값 등
– 표준편차, 분산, IQR
• 이변량 분석
– 상관분석, 회귀분석, 로지스틱 회귀분석
– 분산분석, 공분산분석
– 카이-자승
• 다변량 분석
– 다중 회귀분석, 다중 로지스틱 회귀분석
통계적 추론
• 표본으로부터 그 표본이 나온 모집단에 대
한 정보를 얻어 그 모집단을 기술하기 위한
모델을 선정하는 것
• 모집단을 대표하는 표본의 수집
통계적 추론의 유형(1/2)
• 모수추정(parameter estimation)
– 점추정(point estimation) : 하나의 숫자로 추
정
• 표본평균, 중앙값, 분산, 표준편차
– 구간추정(interval estimation) : 한 점 이상이
관여되며 범위로 추정하는 것
• 신뢰구간(confidence interval:CI)
– 신뢰한계(confidence limit) : 신뢰구간의 상위와 하위 한
계치
통계적 추론의 유형(2/2)
• 가설검정(hypothesis testing)
– 가설이 근거가 있는지를 검정하기 위해 표본
자료에 통계적인 방법을 사용
• 귀무가설(null hypothesis) : 변수들 사이에 차이
또는 관계가 없음을 가정한 것(H0)
– 영가설
• 대립가설(alternative hypothesis)
유의확률(p값)
• 유의수준과 유의확률로부터의 의사결정
방법
– 유의확률<유의수준(α) ☞귀무가설을 기각
– 유의확률>유의수준(α) ☞귀무가설을 채택
신뢰구간
• 평균(점추정값)이 정규분포하면 평균의 표준
오차를 이용하여 구간추정값을 계산
• 일반적으로 95%, 99% 신뢰구간 사용
– 95% = M ± 1.96(표준오차)
– 99% = M ± 2.58(표준오차)
– 표본수가 적을 경우, t-분포 이용
• 신뢰구간과 유의성 검정의 관계
– H0값이 95%의 신뢰구간내에 있으면 p값은 0.05
보다 커야 하고, H0 값이 95% 신뢰구간 밖에 있
으면 p는 0.05보다 작아야 한다
검정통계량의 분포와 신뢰구간/기
각역
채택역
기각역
기각역
c1
신뢰구간
c2
기술통계와 추리통계
• 기술통계 : 모집단이 아닌 표본집단의 표본데
이터로부터 수량적 통계량을 표본(확률)분포
로 나타낸 것
– 평균, 중앙치, 분산, 표준편차, 백분율, 빈도분포
등
• 추리통계 : 모집단에서 추출한 표본의 자료를
기초로 하여 모집단의 특성 등을 추정 또는
추론하거나 가설을 검정하는 통계기법
– 모수적 방법
• χ2(카이제곱)검정, t-test, ANOVA, 상관·회귀분석 등
– 비모수적 방법
모수검정과 비모수검정

모수검정 : 표본이 추출되는 모집단의 모수에 대한 가
정에 근거
– 모집단이 정규분포를 따른다는 가정
– 변수의 수준이 적어도 등간변수 이상일 것이라는
가정
• t-test, ANOVA, 상관·회귀분석, 판별·군집분석 등

비모수검정 : 모집단이 정상분포일 것이라는 가정을
하지 않고 모집단을 추리할 때 사용
– 명목 및 서열변수간 관계의 가설을 검정하는데 사
용
• χ2(카이자승)검정, 부호검정, 순위검정 등
이변량 분석과 다변량 분석
종속변수
독립변수
연속
이산
연속
회귀분석
상관분석
t-test
ANOVA
이산
로지스틱 회귀분석
로지스틱 회귀분석
종속변수
x2
독립변수
연속/이산
연속
회귀분석
이산
로지스틱 회귀분석
t-test
• 두 집단 평균간의 차이를 검정
– 독립 t-test
• 독립변수의 수준이 2가지인 경우 사용
• 독립변수는 범주형 자료이며, 종속변수는 연속형
자료
– 짝을 이룬(paired) t-test
• 독립변수의 수준이 2가지인 경우 사용
• 한쌍을 이루는 두 변수의 차이를 검정하는데 사용
• 동일한 대상에 대한 사전 / 사후 검사
분산분석 (ANOVA)
• 두 개 이상의 모집단 평균간의 차이를 검정
– 1요인 분산분석(one-way ANOVA)
• 독립변수는 1개이며, 독립변수의 수준이 2개 이상일
때 사용
– 2요인 분산분석(two-way ANOVA)
• 독립변수가 두 개이며, 각 독립변수의 수준이 2 이상일
때 집단간 평균의 차이가 유의한지 검정
– 집단내 차이와 집단간 차이의 비를 통계량으로
함
• 차이가 없다는 가정 하에서는 집단간 차이가 집단내
차이보다 작음
상관분석(Correlation)
• 두 개 이상의 변수들 간의 관계를 수량화 하
는 방법
– 다중상관
• 한 변수와 가중치를 둔 다른 변수들의 조합간의 관계
를 보는 것
– 부분상관
• 다른 변수의 교란효과를 제거한 후 두 변수간의 관계
를 설명
– 준부분상관
• 두변수 간 관계를 보면서 그 중 한 변수로부터만 제3의
변수효과를 제거하는 것
회귀분석(Regression)
• 주어진 자료를 통하여 변수(사회현상이나 자연현
상)간의 함수관계를 밝히고 이 함수관계를 이용하
여 독립변수값에 대응되는 종속변수의 값을 『예
측』 또는 『설명』하는 분석 방법
• 범주형 및 연속형 독립변수에 모두 사용 가능
– 단순회귀분석(simple regression)
• 독립변수가 하나일 때, 독립변수와 종속변수간의 선형관계
에 관한 분석
– 다중회귀분석(multiple regression)
• 종속변수에 영향을 미치는 변수가 여러 개 일 때, 이들 독립
변수들과 종속변수간의 선형관계에 관한 분석
카이제곱(Chi-square)검정
• 두 개 이상의 범주로 나뉘어져 있는 이산
변수간의 관계 유무를 검정
• 각 범주의 실제 빈도와 기대되는 빈도와의
차이를 검정
확률밀도함수
x2 분포
T 분포
t
F 분포
t2
t2
t2
f (x)
 ( x)
x
1   ( x)
x
Fk 1, N  k ,1
Fk 1, N  k ,1
질 평가 계획
1. 주제 선정
• 질 평가를 위한 주제선정의 우선순위 결정 기준
–
–
–
–
환자 진료/서비스의 핵심적인 기능
외부기관(정부, 신임기구, 보험자 등)이 요구하는 기능
다빈도, 고위험, 문제의 발생 가능성이 있는 기능
병원이 특별한 관심을 가지고 있는 기능
• 질 평가를 위한 주제선정의 실제적 기준
– 활동의 효과가 큰 것
– 활동의 목표에 대한 논란이 적고, 의견의 일치를 보기 쉬운
것
– 성공의 가능성이 높은 것
– 관련 자료를 구하기 쉬운 것
– 너무 시간이 많이 걸리지 않는 것
– 쉽게 가시적인 성과를 거둘 수 있는 것
2. 자료원
• 질 평가를 위한 자료원
– 환자의 의무기록, 검사결과지, 사고발생 보고서,
부서의 기록
• 진료 분야
– 건강보험 청구 진료비 삭감 내역, 환자의 불편/불
만 호소 내용, 의료사고의 발생 내용, 병원 경영
지표
• 관리 분야
– 내부고객에 해당하는 진료 및 진료지원부서의 애
로사항, 건의사항
3. 자료 수집
• 시점에 따른 자료 수집 방법
– 후향적 조사(retrospective review): 진료/서비
스의 제공이 끝난 후에 조사
– 동시 조사(concurrent review): 진료/서비스가
제공되는 과정 중에 하는 조사
수집 방법
장점
단점
기록조사
(의무기록, 행정기록, 전산자료 등)
•기존의 기록을 활용한다는 점에서 다른 방법
에 비하여 시간과 비용이 적게 소요됨
•기록의 향상을 위하여 노력을 기울이게 됨
•기록이 부실한 경우 평가 결과가 부정확
해짐
•기록에 너무 치중하게 되는 경우 환자의
진료/서비스에 지장을 줌
면접조사
•피면접자가 질문을 잘 이해하고 있는지 여부
를 확인 할 수 있음
•면접을 계획할 때 누락된 문제를 피면접자가
제시할 기회를 가질 수 있음
•비구조화된 면접의 경우 피면접자의 태도, 의
견 등을 더 깊게 파악할 수 있음
•피면접자가 부정적인 의견을 제시하기
힘듬
•시관과 비용이 많이 듬
•무의식 중에 피면접자의 응답에 영향을
미칠 수 있음
설문조사
•시간과 비용이 적게 듬
•면접시 발생할 수 있는 비뚤림(bias)을 제거
할 수 있음
•익명으로 실시할 경우, 정직한 응답을 얻을
수 있음
•질문이 불명확할 경우 반응이 부정확해
지고, 설문의 유형이나 개별 문항의 표현
이 응답을 일정한 방향으로 유도할 가능
성이 있음
•일반적으로 응답률이 낮음
•관련된 사람을 모두 참여시킴
•유연성을 가지고 평가항목의 모든 측면을 검
토할 수 있음
•시간이 많이 소모
•관련되는 모든 사람들을 한번에 모으기
어려움
•토론 결과를 해석하기 어려움
•그룹내의 인간관계나 지위에 따른 영향
을 배제할 수 없음
•객관성이 결여됨
•평가를 즉시 가능
•후향적 조사에 따라 발생할 수 있는 비뚤림
을 제거
•피관찰자가 관찰을 의식하여 행동할 가능성
이 있음
•관찰자에 따라 평가가 달라질 수 있음
집담회
직접 관찰
4. 표본 추출
• 모집단(population): 분석자가 관심을 가지고
있는 사건들의 집합
• 모수(parameter): 모집단의 특성을 나타내주
는값
• 표본(sample): 모집단의 일부로서 연구의 대
상이 되는 사건들의 집합
• 통계량(statistic): 표본의 특성을 나타내주는
값
• 모집단으로부터 표본을 추출하는 방법은 표
본의 대표성 여부에 따라 확률표본추출과 비
확률표본추출로 구분됨
확률 표본 추출 방법
• 단순 확률 추출(simple random sampling)
– 가장 기본적인 확률 추출법의 형태
– 모집단에 포함되는 모든 요소에 개별적인 번호를 부여한 다음 난수표
(table of random numbers)나 컴퓨터의 난수 발생 기능을 이용하여 미
리 결정된 수 만큼의 표본을 추출하는 방법
• 층화 추출(stratified sampling)
– 모집단의 각 계층에 속한 요소들을 일정한 수를 반드시 확보하여 표본
과 모집단의 동질성과 계층내의 동질성을 보장함으로써 표본의 크기를
줄일 수 있는 방법
– 모집단을 중요 변수별로 층화한 다음 각 계층내에서 확률 추출을 하는
절차
• 계통적 추출(systematic sampling)
– 모집단이 중요 변수에 따라 순서대로 배열되어 있을 때 유용한 방법
• 집락 추출(cluster sampling)
– 개별 요소의 목록을 얻기가 비교적 용이한 몇 개의 소집단으로 나누어
그 소집단을 추출 단위로 한 확률 추출을 시행하여 선택된 소집단을 표
본으로 선택하는 방법
비확률표본 추출 방법
• 편의 추출(convinience sampling)
• 유목적적 추출(purposive sampling)
• 할당 추출(quota sampling)
표본의 크기
• 표본의 크기 결정 방법은 조사의 유형에
따라 변화
• 표본 크기를 결정하는 절대적인 기준은 없
음
– 통상적으로 최소한 20례 이상, 또는 모집단의
5% 이상이 되도록 함
5. 자료 수집 양식의 개발
• 조사 주제에 따라 다양한 방법 사용
• 조사표를 만들기 전에 결과변수, 독립변수 등 조사를 통
하여 얻고자 하는 정보를 명확하게 정의
• 결과 변수의 정의
지표 유형
설명
적신호 사건 지표
•사건 발생시마다 정밀 조사를 할 만큼 중요
한 사건 또는 현상
•대부분 바람직하지 못하며 드물게 일어나는
사건
•모성사망
•수혈사고
•수술장에서의 환자 사망
•범주형 변수로 구성
•지표의 분자, 분모가 사전에 명확히 정의
•제왕절개분만율=(제왕절개
분만 환자수)/(총 분만 환자수)
•Central line 감염율=(central
line 감염환자수)/(central line
보유연인원)
•연속적인 척도로 구성된 지표
•응급실 대기시간
•신생아 체중
비율에 근거한 지표
연속 변수 지표
사례
• 관련 변수의 정의
– 결과 변수의 분포 또는 이에 영향을 미치는 요
인을 규명하기 위해서는 사전에 이에 대한 자
료를 확보하여야 함
• 예) 병원 감염율에 대한 질 평가 자료 수집
– 추후 감염의 종류, 원인균의 종류, 진료과, 수술 여부 등
자료 수집 및 입력
1. 자료 수집
• 가능한 한 신뢰도(reliability)와 타당도(validity)가 높은 자
료가 수집되도록 함
2. 코딩 설계
• 수집된 자료를 부호화하는 과정
• 사전에 부호를 부여하기 위한 계획서를 작성
• 계획서에는 변수명, 해당 변수의 위치, 변수의 유형(숫자, 문자,
날짜 등), 변수에 대한 설명, 부호의 내용(미상치, 중복 응답의 처
리 등) 포함
3. 자료의 입력
• 데이터베이스
– 가장 좋음
• 엑셀
– 가장 쉬움
• 워드프로세서
• text파일
• 기타
– 2차 자료는 위에서 열거하지 못한 자료의 형
식이 있을 수 있음
4. 자료의 정리와 제시
• 자료의 확인
– 입력이 정확하게 되었는지 확인하는 과정
– 자료의 양이 큰 경우
• 입력된 자료의 수가 맞는지, 입력 자료의 마지막
줄이 일치하는지 확인
• 변수가 범주형인 경우 빈도표, 연속 변수인 경우
극단치를 출력하여 확인
– 입력계획서 상에 정의하지 않았던 값의 출현 여부 검토
– 의문시 되는 자료의 존재 여부를 검토
Master code
각 변수의 의미와 수준을 설명한 표

Variable ID
rename
Variable name
Datatype
Width
Remark
I_WK_YY
WK_YY
연구시작 검진년도 char
PARE_ID
PARE_ID
부부ID
char
11 부부는 같은번호임
I_INDI
INDI
대상자 본인 ID
char
10
I_S_INDI
S_INDI
세대주 ID
char
10 임의의 식별번호
I_REL
REL
세대주와의 관계
char
2 코드표 참조)관계코드
I_SEX
SEX
대상자 본인 성별
char
1 1:남자, 2:여자
I_AGE
AGE
대상자 본인 연령
numeric
3 검진년 기준 연령
I_EXP_YN
EXP_YN
과거노출여부코드 char
4 2000 또는 2001
임의의 식별번호(의료이용과 매
칭변수)
환자군(1) : 남편(흡연),부인(흡연)
대조군(2) : 남편(비흡연,과거흡
1
연),부인(비흡연,과거흡연)
대조군(0) : 기타
자료 입력시 주의사항(1)
• 원본에 일련번호 부여
– 자료 입력시 함께 입력함으로써, 향후 원본 자료
확인에 활용
• 원본과 똑같이 입력
– 변수의 수준을 묶거나 계산이 필요한 것은 입력
한 후 일괄 처리
– 미리 계산을 하면서 입력하면 오류가 발생하기
쉽고, 원본과 비교하기가 곤란함
• 입력 형식
– 데이터베이스>엑셀
자료 입력시 주의사항(2)
• “~은 모두 선택하시오”형태의 자료처리
– 입력할 때는 delimiter를 사용하여 한 칸에 입
력
– 변수 수준별로 모두 다른 column으로 분산
• 마스터 코드는 반드시 작성
– 설문지 만들 당시 만든 것을 확정
변수의 분류
• 변수의 속성에 따른 분류
– 범주형 자료: 정성적 자료
• 명목척도(nominal scale), 순위척도(ordinal scale)
– 연속형 자료: 정량적 자료
• 간격척도(interval scale), 비척도(ratio scale)
변수
척도
정성적
명목
(nominal)
상호 배타적이며, 순서가 없는 변수
성, 진단명
순위
(ordinal)
부등호를 이용하여 관련된 범주를 구분할 수
있는 범주
암환자의 병기
질병의 중증도
간격
(interval)
척도의 두 숫자 사이의 거를 알고 있는 경우
영점 및 측정단위는 임위적임
체온
비
(ratio)
시작점으로서 영점이 있는 경우
척도상의 두 값의 비가 측정단위와 무관
체중, 신장, 맥박수, 혈압,
시간
정량적
특성
예
변수에 따른 통계분석 방법 적용
• 자료의 성격, 변수의 속성, 표본의 크기, 독립변수와 종속
변수의 개수, 분석 목적 등에 따라 적용하는 통계방법이
달라짐
• 연속변수의 평균치를 비교할 경우
자료의 성격
모수적 검정법
비모수적 검정법
두개의 독립된 자료
t-test
Wilcoxon rank sum test
Mann-Wthiney test
Median test
두개의 짝지은 자료
paired t-test
Wilcoxon signed rank test
세개 이상의 짝지은 자료
ANOVA
Kruskal-Wallis test
제3의 변수가 있는 경우
2-way ANOVA
Friedman’s 2-way ANOVA
자료 제시 방법
• 표를 이용한 방법
– 범주형 변수 및 연속형 변수에서 모두 사용
– 연속형 변수의 경우
• 범주형 변수로 묶어준 후 전체 자료의 나열, 빈도표, 상대빈도표 등
을 사용
응급실 대기시간
(분)
빈도
(명)
상대 빈도
(%)
누적빈도
(명)
누적상대빈도
(%)
30이하
1
1.8
1
1.8
31-60
10
18.2
11
20.0
61-90
23
41.8
34
61.8
91-120
16
29.1
50
90.9
121-150
4
7.3
54
98.2
151이상
1
1.8
55
100
계
55
100
• 숫자를 이용한 방법
– 연속형 변수인 경우
• 대표값(Average)
– 변수들의 분포의 중심이 되는 값
– 산술평균, 가중평균, 기하평균, 중앙값, 최빈값 등
» 분포의 전반적인 모양이 하나의 최대치를 갖는 형태이면서 좌
우 대칭이고, 표본의 크기가 충분할 경우: 대표값=평균값
» 분포의 모양이 한쪽으로 쏠려있거나, 표본의 크기가 작은 경우:
대표값=중앙값
• 산포도
– 분포의 중심에서 각 변수값들이 퍼져있는 정도를 나태내는 값
– 해당 측정치가 얼마나 표준화되어 있는지를 알 수 있음
– 범위, 4분위간 범위, 평균편차, 분산, 표준편차, 변이계수 등
» 대표값=평균: 산포도를 분산, 표준편차 또는 변이계수로 표시
» 대표값=중앙값: 산포도를 4분위간 범위로 표시
• 그림을 이용한 방법(p.202~210)
도구
막대그림표
원그림표
파레토도표
선그림표
런챠트
고나리도
히스토그램
산점도
제시목적
자료형태
발생빈도
단순 백분율
크기의 비교
•범주별 건수(범주형 자료이거나 연속형 자료
를 범주별로 구분하여 이용할 수 있음)
시간에 따른 변화 경향
•시간 순서별로 측정한 측정치(범주형 자료 또
는 연속형 자료를 사용할 수 있음)
분포의 양상
•40개 이상의 측정치
•시간, 온도, 체중 등 연속형 변수에만 사용
두 변수 간의 관련성
•40개 이상의 짝이 있는 측정치
•2개의 연속형 변수 자료(키-체중, 연령-위암
발생률 등)