자료분석및통계활용I(이현경)

Transcript 자료분석및통계활용I(이현경)

자료분석 및 통계활용 I
2006. 6
국립서울병원
(강사 : 이 현 경 보건연구관)
< 강의 목표 >
• 궁극적 목적
(제1강, 제2강 공통)
:
1) 통계의 중요성 및 필요성 인식 !
2) 통계에 대한 자신감 고취 !
[ 3) 고객(강의 수강자)의 요구 충족 및 만족도 증진 ! ]
• 구체적 목적 (제1강) :
1) 통계 기초 이론 습득
2) 실습 : EXCEL을 활용한 자료분석
< 강의 목차 >
제
제
제
제
제
제
1
2
3
4
5
6
장
장
장
장
장
장
통계학의 이해
모집단과 표본
자료의 수집과 정리
자료의 통계적 측정(기술통계 분석)
확률분포와 정규분포
추정과 가설검정 (T-test)
* 보건복지부와 통계청간의 MOU 체결 소개 *
제1장 통계학의 이해
- 통계학(Statistics)의 어원
: “국가(state)의 상태(state)를 살핀다”는 의미에서
출발
ex) 통계를 군주가 파악하고 있어야 통치 및 계획 가능
- 땅의 면적, 인력 현황, 생산량 등
- 통계학(statistics)의 정의
: 주어진 문제에 대하여 합리적인 답을 줄 수 있도록
숫자로 표시되는 자료(data)를 수집, 정리, 분석하여
신뢰성 있는 결론을 도출하는 과학의 한 분야
< 통계의 중요성 >
• 부실 통계 -> 정책 혼선 -> 예산낭비 등 국가적
손실
• 부실통계 사용으로 인한 손실 사례
Ex. 1) IMF 직전 가용 외환 보유고가 사실상 바닥났음에도
부정확한 파악으로, 300억 달러 이상 남아 있다고 발표
함으로 IMF를 맞이하여 국민 경제에 어려움 초래
2) 한일어업협상 당시, 기초통계 부족으로 잘못된 협상을
함으로 어민들에게 피해 초래
3) 출산정책의 경우 1983년에 합계 출산율이 2.1명 이하
였음에도 불구, 1996년까지 출산 억제정책을 시행한 결
과 우리나라가 세계 최저 출산국으로 전락함. (통계활용
능력의 중요성)
과학적 근거에 기반한 정책
( Evidence- Based Policy) 의
중요성 부각
• 정책의 과학적 기조를 확립하기 위해서는
▲ 1) 전문인력 양성 및 확대
▲ 2) 정책결정 집단의 과학적 마인드 제고
▲ 3) 의사결정 시스템에 필요한 통계 인프라 강화 등
과학적 인프라 구축 등이 필요함.
• 통계학의 사용 분야
: 행정학, 경영학, 사회학, 심리학, 교육학, 의학, 보건학 등 거의 모든 학
문 분야에서 자료를 정리하고 분석하는 데 통계방법이 적용되고 있음.
• 보건통계학(health statistics, biostatistics)
: 건강이나 질병 등 보건과 관련된 여러 현 상을 기술하고 추론하는 학문
• 병원통계(hospital statistics)
: 병원의 환자 진료 및 진료 수익 등을 분석하여 병원 경영 및 기획 등에 필
요한 자료를 제공하는 원무통계를 말함.
: 원무통계는 목적에 따라 내원 형태별, 환자 종류별, 수가 유형별, 진료 의
사별, 검사 항목별 등으로 다양하게 진료 수익 및 실적들을 정리하고 분
석함.
제 2 장 모집단과 표본
• 모집단(Population)과 표본(Sample)의 정의
- 모집단 : 관심을 갖는 대상이 구성하고 있는 모든
관측치들을 모은 집합
- 표본 : 모집단으로 부터 추출된 일부분
추출
모집단
표본
• 표본조사를 실시하는 이유 및 장점
1) 모집단을 전수조사하는 것이 불가능한 경우가 많다.
2) 전수조사에 비해서 표본조사는 인력, 경비, 시간 등이 절약된
다.
3) 비표본오차를 줄일 수 있다. 조사수가 많아지면 측정오차 이외에도
기획, 조사, 관리, 분석 등의 단계에 걸쳐 오차가 많아진다.
4) 특이성이 변하지 않는 시점에서 속히 조사를 할 필요가 있을 경우
순간적인 특성을 파악할 수 있다. (여름철 유행성 전염병 발생률 등)
5) 조사행위가 대상의 성격과 형질을 변형 시킬때 표본조사를 한다.
등이 있을 수 있다.
• 확률추출법(Probability Sampling)의
종류 및 방법
1) 단순임의추출법(simple random sampling)
: 무작위 추출방법, 난수표(확률수표) 사용
2) 층화추출법(stratified sampling)
: 모집단이 이질적인 단위로 구성되어 있을 때, 표본이 각 계층을 고루
대표하도록 추출하는 방법
3) 집락추출법(cluster sampling)
: 모집단이 집단(cluster)으로 구성된 경우, 일부 집단을 임의로 선택하
여 집단 내에서 임의표본추출방법
4) 계통추출법(systematic sampling)
: 모집단에서 표본을 추출할 때 일정한 간격을 두고 표본 추출하는 방법
5) 다단계추출법(multi-stage sampling)
: 몇 단계의 표본 추출을 거쳐서 표본 추출하는 방법, 각 단계에서 위와
같은 추출법을 사용
제 3 장 자료의 수집과 정리
•
자료의 종류
1) 질적 변수 또는 범주형 변수
(Qualitative, Categorical Variable)
: 명목 척도(Nominal Scale) - 숫자의 의미는 전혀 없음.
(예) 성별, 결혼상태, 교육수준 등
: 서열 척도(Ordinal Scale) – 순위는 있으나, 간격은 없음
2) 양적 변수 또는 연속 변수
(Quantitative, Continuous Variable)
: 구간 척도(Interval Scale) – 간격이 같고, 순위가 있음.
(예) 온도, 리커트 척도
: 비 척도(Ratio Scale) – 숫자의 직접적인 비교 가능, 실제 숫자의 형태,
수학적 조작 가능, 가장 수준이 높은 변수 형태
(예) 연령, 신장, 체중 등
Ex 1) 예제 파일에서 질적변수와 양적변수 파악하기.
• 질적 변수
양적 변수가 수준이 더 높다.
: 양적 변수가 더 많은 정보를 가지고 있음.
: 양적 변수(수치 자료)
변환 가능
: 질적 변수(범주형 자료)
변환 불가
질적 변수(범주형 자료)
양적 변수(수치 자료)
Ex) 연령 : 현재 양적 변수를 질적 변수로 표현하기
• 자료의 형태 – 예제 파일 (엑셀)
• 독립변수 (X : Independent Variable)
: 다른 변수에 영향을 주는 변수
• 종속변수 (Y : Dependent Variable)
: 독립변수에 의해 영향을 받는 변수
* 통계에 있어 Data의 중요성 *
: 통계 분석에 있어 정확한 원 자료
(Raw Data)의 수집이 가장 중요함.
Gold in => Gold out !!
Garbage in => Garbage out !!
• 질적 자료의 정리
• 양적 자료의 정리
• EXCEL 실습 :
자료입력, 그래프 그리기,
함수사용 등
엑셀의 화면구성 및
자료 입력
Sheet 이름 지정, Sheet
추가, 삭제 가능
(더블클릭)
챠트
마법
사
클릭
클릭
챠트
제목
지정
범례
표시
지정
데이터
이름표
지정
데이터
테이블
작성
성별 빈도
빈도
15
14
10
6
5
0
빈도
남
여
14
6
성별
빈도
제 4 장 자료의 통계적 측정
(기술통계 분석)
• 중심위치의 측정
: 평균(Mean) – 일반적인 산술평균을 의미, 극단적인 값
(outlayer)에 의해 영향을 많이 받음.
: 중앙값(Median) – 자료를 일렬로 나열하였을 때, 중앙에
위치하는 값
: 최빈값(Mode) – 자료 중 가장 빈번히 나타나는 값
• 산포도의 측정
: 분산과 표준편차(Variance & Standard Deviation),
(표준 편차)2= 분산
: 범위(Range) = 최대값-최소값
• Ex. 실습
< 25명 학생의 통계학 시험성적 >
•
•
•
•
•
75
80
69
77
68
63
70
76
77
90
49
72
85
63
82
86
81
95
58
59
53
80
66
74
60
< SPSS 및 EXCEL 실습 화면 >
N
유효
25
결측
0
평균
72.3200
중위수
74.0000
최빈값
63.00(a)
표준편차
11.6000
분산
134.5600
왜도
-.131
왜도의 표준오차
.464
첨도
-.475
첨도의 표준오차
.902
범위
46.00
최소값
49.00
최대값
95.00
백분위수
a 여러 최빈값이 있습니다. 가장 작은 값이 나타납니다.
25
63.0000
50
74.0000
75
80.5000
제 5 장 확률분포 및 정규분포
• 분포(Distribution) : 자료의 흩어진 형태
• 확률분포(Probability Distribution)
: 확률변수 형태에 따라 이산확률분포, 연속확률분포
• 정규분포(Normal Distribution)의 특징
: 좌우대칭 모양, 정규곡선의 모양과 위치는 분포의 분산
(또는 표준편차)과 평균에 의해 결정됨 등
• 표본분포(Sample Distribution)
제 6 장 추정과 가설검정
• 추정
: 점추정(Point Estimation), 구간추정(Interval Estimation)
* 가설 검정 *
• 가설(Hypothesis)이란?
1) 귀무 가설(H0),
: 영 가설
2) 대립 가설(H1 또는 HA)
: 연구자의 가설, 귀무 가설의 반대
- 가설 검정의 절차
: 가설 설정(귀무 가설 및 대립 가설 설정)
-> 통계적 분석
-> p 값 도출 및 해석
-> 결론(대립가설 또는 귀무가설 채택)
• p<0.05 : 귀무가설 기각 (대립가설 채택)
: 5% 유의수준(옳은 귀무가설을 기각할 오류가 5%
임을 의미)을 보통 많이 사용,
: 기타 1%, 10% 의 유의수준도 사용
< 가설 검정 예제 >
• 1) 가설 설정
H0 : 입원 전·후 환자의 정신건강 수준에는 통계적으로 유
의한 차이가 없다.
H1 : 입원 전·후 환자의 정신건강 수준에는 통계적으로 유
의한 차이가 있다.
• 2) 통계분석 : 변수의 형태에 따라 통계분석 방법
을 선택
• 3) P 값 해석 : 통계 팩키지(SPSS 등)가 P 값 산
출
• 4) 결론 : p<0.05 이면 => 귀무가설 기각,
대립가설 채택
* 국가 통계(Official Statistics) *
일부 소개
< 보건복지부와 통계청 간의
MOU 체결 >
< 보건복지부와 통계청간의 MOU 체결 >
2005. 7. 25(월)
< MOU 약정서 주요 내용 >
□ 협력 분야
ㅇ 통계담당 인사교류
ㅇ 통계업무협력위원회 설치․운영
ㅇ 특정 임무수행을 위한 T/F 구성․운영 등
□ 통계업무협력위원회의 주요 기능
ㅇ 새로운 수요에 부응한 통계개발․자문
ㅇ 통계 공동 조사 및 통계품질 관리 협조
ㅇ 통계교육프로그램 공동 개발 및 강사의 교류 등
< 통계청과 주요 협력 분야>
* 보건복지부와 통계청간의 실무회의 결과 산출 *
•
•
•
•
•
•
•
•
1)
2)
3)
4)
5)
6)
7)
8)
승인통계업무 및 분류 정비
사망원인통계 및 생명표 개선
사회통계(장애통계 등) 개발
행정자료(국민연금 등) 협조
센서스 유병통계 등 추가
지역통계생산 협의체 구성
통계 교육
통계 품질관리 등
통계업무 협력
MOU 체결 기념
*제 언*
★ 통계를 이용하는 내·외부 고객들이
만족할 때까지,
통계 개선 및 개발을 위한
품질관리는 계속되어야 합니다. ~
감 사 합 니 다 !!

자료분석및통계활용I(이현경)

Transcript 자료분석및통계활용I(이현경)

Directory