자료분석 및 통계활용 II

Download Report

Transcript 자료분석 및 통계활용 II

자료분석 및 통계활용
< 핵심 목표 >
• 궁극적 목적 :
1) 통계의 중요성 및 필요성 인식 !
2) 통계에 대한 자신감 고취 !
3) 연구자의 요구 충족 및 만족도 증진 !
• 구체적 목적 :
1) 통계 분석방법 습득
2) 실습 : EXCEL 및 SPSS 를 활용한 자료분석
< 목차 >
• T-Test
1) Independent (sample) T-test
2) paired (sample) T-test
•
•
•
•
X2 검정
ANOVA Test
Regression
Correlation
* 통계품질관리
< T-test >
1) 독립표본 T-검정(independent T-test)
: 두 독립표본의 평균 차이 검정 방법
2) 대응표본 T-검정(paired T-test)
: 짝 지은 두 표본의 평균 차이 검정 방법
* Excel 및 SPSS 실습
• 남녀 성별에 따른 콜레스테롤 수치 (독립표본 T-검정 예제)
남자 2.8 3.6 3.4 3.8 2.9 4.5
여자 1.7 3.0 2.4 3.3 0.9
< T - 검정의 가설 >
* 귀무가설 : 두 집단간에는 통계적으로 유의한 차이가 없다.
* 대립가설 : 두 집단간에는 통계적으로 유의한 차이가 있다.
< 엑셀에서 독립표본 T-검정은 등분산 검정을 먼저 시행함 >
Ho : 두 집단간 분산은 동일하다. (등분산 가정)
H1: 두 집단간 분산은 동일하지 않다. (이분산 가정)
P >0.05
귀무 가설
채택
론 : 남녀 두 집단간에는 콜레스테롤 수치에 있어
P<0.05 이며,
T 검정의
HO 가설 기각
H1 가설 채택
통계적으로 유의한 차이가 있다
<지원자 10명에 대한 식이요법 시행전과 후의 체중>
paired sample T- test
지원자
시행 전 체중
시행 후 체중
1
75
65
2
72
60
3
68
55
4
69
56
5
72
61
6
58
50
7
65
53
8
73
61
9
80
60
10
75
55
• 귀무 가설 : 시행 전·후간에는 통계적으로 유의한 차이가 없다.
• 대립 가설 : 시행 전·후간에는 통계적으로 유의한 차이가 있다.
P<0.05 이며,
Ho 가설 기각
• 결론 : 식이요법을 시행하기 전의 체중과
후의 체중간에는 통계적으로 유의한 차이
가 있다.
• 또한, 이러한 식이요법 후에는 체중이 감소되는
효과가 있다. (시행 후의 평균값 감소)
제 7 장 X2 검정
• X2 검정의 개념
: 질적인 2변수들간의 상호관련성(또는 독립성)
을 파악하기 위해 사용
* SPSS 실습
< 성별과 학력수준을 10명에 대해 조사 >
성별
학력수준
1
2
2
3
1
1
2
3
1
2
2
3
1
1
2
1
1
2
2
3
성별에 따라 학력수준의 차이가 있는 검정 하고자 함
성별 : 1. 남자, 2. 여자,
학력수준 : 1. 고졸 2. 대졸 3. 대학원졸이상
학력
전체
1
성별
1
2
전체
빈도
2
3
2
3
5
성별의 %
40.0%
60.0%
100.0%
학력의 %
66.7%
100.0%
50.0%
전체 %
20.0%
30.0%
50.0%
빈도
1
4
5
성별의 %
20.0%
80.0%
100.0%
학력의 %
33.3%
100.0%
50.0%
전체 %
10.0%
40.0%
50.0%
빈도
3
3
4
10
성별의 %
30.0%
30.0%
40.0%
100.0%
학력의 %
100.0%
100.0%
100.0%
100.0%
30.0%
30.0%
40.0%
100.0%
전체 %
< 카이제곱 검정 결과 >
값
Pearson 카이제곱
우도비
선형 대 선형결합
유효 케이스 수
자유도
점근 유의확률 (양쪽검정)
7.333(a)
2
.026
10.044
2
.007
3.261
1
.071
10
a 6 셀 (100.0%)은(는) 5보다 작은 기대 빈도를 가지는 셀입니다. 최소 기대빈
도는 1.50입니다.
• 결론 : 카이제곱값은 7.3이고, p값은 0.026으로
0.05보다 작으므로, 귀무가설을 기각하여 두 변
수간(성별과 학력수준)에 서로 관련성이 있다고
할 수 있다.
• 교차표를 통해 살펴보면, 남자는 고졸 이하 2명,
대졸 3명이고, 여자는 고졸 이하 1명, 대학원졸
이상 4명으로 나타나, 본 자료에서는 여자의 학
력수준이 남자보다 높다고 할 수 있다.
제 8 장 ANOVA 분석
• 분산분석의 개념
: 연속형인 종속변수(y)의 변화가 명목형인 독립변수(x)에
의해 어느 정도 영향을 받는 지 검정하고자 할 때 사용함.
• 분산분석의 종류
* Excel 및 SPSS 실습
< 3가지 치료방법에 따라 환자의 치유정도 >
처리
1 방법
2 방법
3 방법
16
10
8
18
12
10
20
16
9
17
13
11
3가지 치료방법에 따라 환자의 치유정도에 차이가 있는 지
검정하고자 함.
* 귀무 가설 :
* 대립 가설 :
• 결론: 3가지 인자들(치료방법별)의 평균과 분
산이 제시되어 있으며, 1방법이 가장 치유정도가
높고, 다음이 2방법, 3방법의 순서이다.
• 분산분석표에서 F값과 p값 등이 산출되어져 있
으며, 결과는 p값이 0.0006으로서 0.05보다 작
기에, 귀무가설을 기각시킬 수 있다. 따라서, 3가
지 치료방법에 따라 환자의 치유정도에 통계적
으로 유의한 차이가 있다고 할 수 있다.
제 9 장 회귀분석
• 회귀분석의 개념
: 종속변수(y, 결과변수)와 독립변수(x, 설명변수)가 서로 인과관계를
가질 때, 독립변수가 변화함에 따라 종속변수가 어떻게 변화하는 가
를 규명하는 통계 기법, 두 변수 모두 연속이어야 함.
• 회귀분석의 종류
: 단순회귀분석, 다중회귀분석
* Excel 및 SPSS 실습
< 가족지지와 재활의지 정도 >
대상자
가족지지
재활의지
1
7
6
2
18
16
3
15
12
4
9
8
5
10
10
6
5
6
7
4
3
8
4
5
9
13
11
10
15
13
가족의 지지가 재활의지에 영향을 주는 지 검정하고 함.
귀무 가설 :
대립 가설 :
• 결 론 : 결정계수는 0.96으로 X값이 Y의 변동량
에 96%의 아주 높은 설명력을 가지며, 추정된
회귀모형은 p값이 0.05보다 작으므로 통계적으
로 유의한 모형이며, 회귀계수 X(가족지지)의 p
값 역시 0.05보다 작으므로 통계적으로 유의하
다.
•
즉, 가족지지(X)와 재활의지(Y)는 통계적으로 유
의한 양의 상관관계가 있으며, 가족지지가 높을수
록 재활의지는 높아진다.
제 10 장 상관분석
• 상관분석의 개념
: 한 변수에 따른 다른 변수의 변화 정도와 방향을
예측하는 기법, 두 변수간의 상관성의 정도를 의
미하는 상관계수(R)산출
• 상관계수(R)의 특징
* Excel 및 SPSS 실습
* 결론 : 혈압과 맥박간의 상관관계는 0.72로 높은 양의 상관관계를 보인다.
Excel에서는 상관계수에 대한 유의확률은 나타나지 않는다.
• Reference
- (SPSS, SAS, EXCEL을 활용한) 보건정보통계
와 연구방법론, 이현경 저, 계축문화사,
2004
-
Café.daum.net/hcs2003
- Café.daum.net/hcs2004
www.spss.co.kr
평가판
다운로드
저장
클릭
통계품질진단
이렇게 합니다
< 통계에도 품질관리가 필요합니다. >
(통계청 품질관리과, 2004)
부교재 참고
• 품질 관리(Quality Management)
: 고객이 요구하는 품질을 확보, 유지하기
위하여 조직이 품질 목표를 세우고, 이것을
합리적이고도 경제적으로 달성할 수 있도
록 PDCA 사이클에 따라 수행해 나가는 모
든 활동을 말함.
* 통계 데이터 : 제 품 *
< PDCA 싸이클 >
Plan
계획 설정
Do
Act
계획대로 시행
수정 조치
Check
검토 및 평가
품질진단 부문
통계
자료수집 공표자료
작성절차
정확성
충실성
적합성
통계환경 진단
통계
통계품질
이용자
주제별
개선노력
만족
통계
분석