교차분석 - 충북대학교

Download Report

Transcript 교차분석 - 충북대학교

범주형 자료분석
SPSS를 활용한 통계분석
김 덕 기 ([email protected])
충북대학교 정보통계학과
목 차
 범주형 자료분석-빈도분석
 다중응답분석
 교차분석
 카이제곱검정
- 독립성 검정
- 동일성 검정
2016년 - SPSS를 활용한 통계특강 -
2
범주형 자료분석 : 자료구조
범주형 자료 : 측정(또는 반응)척도가 범주집합으로 구성됨.
명목 척도
(범주형 자료)
명목척도는 관심대상의 특성을 범주로 분류하여 각 범주에 숫자를 부
여한 척도.
(예1) 성별 : 남(1), 여(2)
(예2) 주거형태 : 아파트(1), 주택(2), 기타(3)
서열 척도
(범주형 자료)
관심대상의 특성을 범주들간에 자연적순서를 갖게 되는데 이에 숫자
를 부여한 척도.
(예1) 건강상태 : 양호(1), 보통(2), 나쁨(3)
(예2) 낙태 법에 대한 태도 : 반대(1), 부분찬성(2), 찬성(3)
독
립
변
수
의
수
하나
빈도분석
둘
교차분석(2원 분할표)
2016년 - SPSS를 활용한 통계특강 -
3
범주형 자료분석 : 빈도분석 1
빈도분석 : (산업체인턴.sav) 산업체 인턴쉽프로그램에 대한 만족도 및 태도 설문조사의
일부분으로 학년, 성별, 인턴쉽기관(기업군)에 대한 빈도분석을 수행하여라.
[1] 학년 ? 1) 1학년 ( ) 2) 2학년 ( ) 3) 3학년 ( ) 4) 4학년 ( )
[2] 성별 ? 1) 남자 ( )
2) 여자 ( )
[3] 본인의 인턴쉽기관은 어느 기업군에 속합니까 ?
1) 대기업 ( ) 2) 공기업 ( ) 3) 중소기업 ( ) 4) 국가연구소 ( )
수행절차 1 : [메뉴  분석  기술통계량  빈도분석] 선택
변수 : 분석하고자 하는 변수.
통계량 : 평균, 분산 등을 얻고자 할 때 선택.
도표 : 막대도표, 히스토그램 등 자료의 시각화.
형식 : 빈도표 출력시 형식 선택.
빈도표 출력 : 변수의 각 범주별 빈도와 퍼센트를
얻고자 할 때 선택.
2016년 - SPSS를 활용한 통계특강 -
4
범주형 자료분석 : 빈도분석 2
수행절차 2 : 통계량, 도표
2016년 - SPSS를 활용한 통계특강 -
5
다중응답분석 1
다중(복수)응답분석 : (다중응답.sav) 제품구입 이유와 어울리는 장소에 대한 다중(복수)응
답분석을 수행하시오.
(1) 제품을 구입한 이유로서 알맞은 것에 O표를 해 주십시오.
(복수 선택 가능)
1. 가격이 싸다.
2. 품질이 좋다.
3. 디자인이 좋다.
4. 아는 사람의 권유.
(2) 제품을 두는 장소로 어울린다고 생각하는 곳에 O표를 해 주십시오.
(2개를 선택)
1. 사무실
2. 가정의 서재
3. 연구실
4. 학교의 교실
2016년 - SPSS를 활용한 통계특강 -
6
다중응답분석 1 : 변수군정의
제품구매이유관련 다중응답에 대한 분석을 수행하기 위한 변수군 정의.
[메뉴  분석  다중응답  변수군정의]
변수코딩형식 : (0, 1)로 코딩 되어있으므로  이분형(선택), 빈도화 값(1)
이름 : 새로운 변수군의 이름을 ‘제품구입이유’로 지정한 후 추가버튼을 클릭.
2016년 - SPSS를 활용한 통계특강 -
7
다중응답분석 1 : 빈도분석
복수응답에 대한 빈도분석을 수행하고 그 의미를 해석하라.
[메뉴  분석  다중응답  빈도분석]
 14/6*100=233.3%
2016년 - SPSS를 활용한 통계특강 -
8
다중응답분석 2 : 변수군정의
어울리는 장소관련 다중응답에 대한 분석을 수행하기 위한 변수군 정의.
[메뉴  분석  다중응답  변수군정의]
2016년 - SPSS를 활용한 통계특강 -
9
다중응답분석 2 : 빈도분석
복수응답에 대한 빈도분석을 수행하고 그 의미를 해석하라.
[메뉴  분석  다중응답  빈도분석]
 12/6*100=200%
2016년 - SPSS를 활용한 통계특강 -
10
다중응답분석 : 실습
다중응답분석-1 : (대사중후군.sav) 에 대한 다중응답(당뇨,…,기타)문항에 대한 빈도분석
을 수행하시오.
다중응답분석-2 : (산업체인턴.sav)에 대한 다중응답(16번 문항)에 대한 빈도분석을 수행
하시오. (16번 : 인턴쉽 실습을 통해 얻은 것이 무엇입니까 ? (두 가지만 응답요망))
1) 실무능력 ( ) 2) 조직사회 적응력 ( ) 3) 인간관계 ( ) 4) 책임감 ( ) 5) 취업에 대한 목표의식 ( ) 6) 기타 ( )
분설절차 : [메뉴  분석  다중응답  변수군정의]
[메뉴  분석  다중응답  빈도분석]
결과해석 :
2016년 - SPSS를 활용한 통계특강 -
11
교차분석 : 분할표분석 1
교차분석 : 이원 분할표의 자료구조는 다음과 같다. (속성 A : 행 변수, 속성 B : 열 변수)
n : 빈도수
(1) 본인의 인턴쉽기관은 어느 기업군에 속합니까 ?
1) 대기업 (
)
2) 공기업 (
)
3) 중소기업 (
)
4) 국가연구소 (
)
(2) 실제 인턴쉽기간은 ? ( )
1) 2주일 (
)
2) 3주일 (
)
3) 4주일 (
)
4) 6개월 (
)
파일 : (산업체인턴.sav) 산업체 인턴쉽프로그램에 대한 만족도 및 태도조사에서 인턴쉽기
관(기업군)과 인턴쉽 기간의 교차분석을 수행하는 경우.
(속성A =인턴쉽 기업) : A1(대기업)~A4(국가연구소), (속성B =인턴쉽 기간) : B1(2주)~B4(6개월)
2016년 - SPSS를 활용한 통계특강 -
12
교차분석 : 분할표분석 2
교차분석 : 인턴쉽기업을 행으로 인턴쉽기간을 열로하여 셀의 전체퍼센트가 들어간 이원
분할표를 작성하고, 이를 시각화 한 수평누적 막대도표를 작성하여 분할표와 그래프를 해
석하시오.
교차분석 : [메뉴  분석  기술통계량  교차분석]
2016년 - SPSS를 활용한 통계특강 -
13
교차분석 : 분할표분석 3
이원 분할표의 결과를 보면 응답자 157명 중 인턴쉽기업의 경우 중소기업> 국가연구소 > 공
기업> 대기업 순이며, 인텁쉽기간의 경우 4주 > 2주 > 3주 > 6개월 순으로 나타났다.
막대도표는 분할표의 도수를 시각적으로 표현한 것으로 중소기업의 경우 4주동안의 인턴쉽
프로그램이 가장 많음을 알 수 있다.
2016년 - SPSS를 활용한 통계특강 -
14
가설설정
앞의 두 개의 설문 문항인 인턴쉽 기업과 인턴쉽 기간이 서로 연관성이 있지 않겠는가 ?
에 관심이 있어 이를 입증하려 한다면 다음과 같이 가설을 설정한다.
귀무가설 : 인턴쉽 기업과 인턴쉽 기간은 연관성이 없다.
대립가설 : 인턴쉽 기업과 인턴쉽 기간은 연관성이 있다.  (입증하고자 하는 가설)
가설
(Hypothesis)
실증적인 증명 이전에 세워지는 잠정적인 진술.
가설은 논리적인 검정과정을 통해 기각 또는 수정될 수 있다.
귀무가설
 검정대상이 되는 가설 혹은 처음 세운 가설, 기존의 정보 및
주장.
(null hypothesis, H0)
대립가설
(alternative hypothesis, H1)
 귀무가설을 받아들일 수 없을 때 다른 결론을 내리기 위해 설
정되는 가설.
 새롭게 제기된 이론·학설·주장으로서 자료로부터의 강력한
증거에 의하여 입증하고자 하는 가설.
1종 오류 : 귀무가설이 옳은데 귀무가설을 기각하는 오류(
)
2종 오류 : 귀무가설이 틀린데 귀무가설을 채택하는 오류(
)
2016년 - SPSS를 활용한 통계특강 -
15
가설 검정절차
일반적인 가설검정의 절차
가설 설정
유의수준
α 의 설정
검정통계량선정 및 계산
유의확률(p-value) 계산
의사결정
유의수준: 1종 오류를 범할 최대 허용한계로 연구자가 결정. (
).
유의확률: 검정통계량의 관측값에 대해 귀무가설을 기각하는 최소의 유의수준. ( P )
의사결정: if 유의확률(P) < 유의수준(
) then 귀무가설을 기각.
2016년 - SPSS를 활용한 통계특강 -
16
검정통계량과 유의확률
―
다양한 유의수준

t 검정, ANOVA, 회귀분석, 교차분석을 실시했을 때 유의수준을 판단하는

여러 가지 지표가 나오는데, 공통으로 사용되는 유의수준이 바로 p 값이다.
2016년 - SPSS를 활용한 통계특강 -
17
교차분석 : 가설검정방법
교차분석 : 카이제곱 검정. [메뉴  분석  기술통계량  교차분석]
2016년 - SPSS를 활용한 통계특강 -
18
교차분석 : 가설검정결과
= 20.469
의사결정 : 유의확률(P) = 0.015 < 유의수준(
)=0.05 이므로 귀무가설 기각
결과해석 : 인턴쉽 기업과 인턴쉽 기간은 연관성이 있다.
2016년 - SPSS를 활용한 통계특강 -
19
교차분석 : 가중케이스를 이용하는 경우
자료가 빈도로 정리되어 있는 경우 : [자료입력  변수보기  변수이름, 설명, 값 지정]
2016년 - SPSS를 활용한 통계특강 -
20
교차분석 : 가중케이스를 이용하는 경우
자료가 빈도로 정리되어 있는 경우 : [자료입력  메뉴  데이터  가중케이스]
카이제곱검정 : [메뉴  분석  기술통계량  교차분석]
 정확성(또는 대표성)의 문제  셀 조합 수의 20%가 5이하의 기대 값을 갖는 경우 어떻게
처리하나 ?
2016년 - SPSS를 활용한 통계특강 -
21
교차분석 : Fisher’s exact Test
[방법 1] 범주의 수를 합리적으로 줄인다. (기업군, 기간 중 어떤 것을 줄일까?)
[방법 2] Fisher’s exact Test
분석절차 : [메뉴  분석  기술통계량  교차분석  정확(정확한 검정)]
결과해석 :
2016년 - SPSS를 활용한 통계특강 -
22
교차분석 : 가중케이스 - 실습자료
사람들의 피의 형태와 눈의 색깔 사이에 어떤 관련성이 있는가를 알아보기 위해서 400명을
임의로 추출하여 조사한 결과를 다음과 같이 이원분할표로 정리하였다.
 사람의 혈액형과 눈의 색깔 사이에 연관성이 있는가를 유의수준 0.05로 검정하시오.
귀무가설 :
가설설정
대립가설 :
2016년 - SPSS를 활용한 통계특강 -
23
교차분석 : 가중케이스 - 실습자료
(1) 가중케이스(실습).sav 파일을 불러와서 변수 ‘빈도’에 가중케이스를 설정하라.
[메뉴  데이터  가중케이스]
(2) 행 변수를 ‘눈의색깔’, 열 변수를 ‘혈액형’로 하여 [셀 : 관측빈도, 기대빈도, 전체퍼센트]
가 들어간 이원 분할표를 작성하고, 수평누적 막대도표를 그려 의미를 해석하시오.
[메뉴  분석  기술통계량  교차분석 : 셀지정, 수평누적막대도표선택]
(3) 눈의색깔과 혈액형에 연관성이 있는가를 카이제곱 검정을 통해 결과를 해석하시오.
[메뉴  분석  기술통계량  교차분석 : 통계량의 카이제곱을 선택]
2016년 - SPSS를 활용한 통계특강 -
24
카이제곱검정 : 독립성 검정(자료구조)
이원 분할표의 자료구조와 같으며 (속성 A : 행 변수)와 (속성 B : 열 변수)가 독립적인가를
검정하는 경우이다.
[예제] 500명을 임의 추출하여 정당의 선호와 보호무역 법안에 대한 지지도를 질문 하였다.
주어진 이원분할표를 이용해 법안에 대한 선호도와 의견의 유형과 정당의 선호도와는 독립
적이라는 근거가 있는가 ?
2016년 - SPSS를 활용한 통계특강 -
25
카이제곱검정 : 독립성 검정 (가중케이스)
귀무가설 : 정당별 보호무역법안에 대한 선호도는 차이가 없다(독립이다)
대립가설 : 정당별 보호무역법안에 대한 선호도에 차이가 있다(종속이다)
[메뉴  데이터  가중케이스  빈도변수(관측도수)선택]
2016년 - SPSS를 활용한 통계특강 -
26
카이제곱검정 : 독립성 검정(교차분석)
교차분석 : 메뉴  분석  기술통계량  교차분석  셀(빈도:관측빈도, 퍼센트 :전체)
2016년 - SPSS를 활용한 통계특강 -
27
카이제곱검정 : 독립성 검정(연관성측도)
카이제곱검정, 연관성측도 : [통계량 옵션  교차분석 : 분할, 파이 선택]
연관성측도 : 명목-명목
분할계수(O)
파이 및 Cram의 V(P)
람다, 불확실성 계수
연관성측도 : 순서-순서
Gamma
Somers의 d
Kendall의 타우-b, 타우-c
연관성측도 : 명목-등간
에타
연관성 측도 : measure(측도)가 -1 또는 +1에 가까우면 높은 연관성을 나타낸다.
0.2~0.4 : 낮은 상관 , 0.4~0.7 :보통 상관 , 0.7이상 : 높은 상관
2016년 - SPSS를 활용한 통계특강 -
28
카이제곱검정 : 독립성 검정 (실습)
[문제] 980명을 임의 추출하여 성별에 따른 소속정당을 분류한 자료가 아래 표에 주어져
있다. 이 자료를 이용해 성별에 따른 소속정당에 차이가 있는가를 유의수준 0.05로 검정하
고, 연관성측도와 더불어 결과를 해석하시오. [파일 : 독립성검정(실습).sav]
소속정당
성별
민주당
독립당
공화당
합계
여성
279
73
225
577
남성
165
47
191
403
합계
444
120
416
980
귀무가설 :
가설설정
대립가설 :
(1) [메뉴  데이터  가중케이스]
(2) [메뉴 분석 기술통계량 교차분석 : 셀(관측,기대도수), 수평누적막대도표선택]
(3) [메뉴  분석  기술통계량  교차분석 : 통계량(카이제곱, 분할, 파이 선택]
2016년 - SPSS를 활용한 통계특강 -
29
카이제곱검정 : 동일성 검정(자료구조)
이원 분할표의 자료구조와 비슷하지만 두 개의 속성에 따라 빈도자료를 정리하는 독립성
검정과 달리 (속성 A)를 표본조사설계단계에서 몇 개의 층으로 나누어 표본크기를 고정한
후 (속성 B)에 따라 빈도자료를 정리한 경우로 동일성 검정의 자료구조는 다음과 같다.
[예제] 4가지 직업에 종사하는 사람들의 알코올중독 여부에 관하여 알아보기 위해 성직자,
교육자, 행정가, 상인을 각각 300명, 250명, 300명, 350명을 추출하여 조사한 결과이다.
2016년 - SPSS를 활용한 통계특강 -
30
카이제곱검정 : 동일성 검정 (가중케이스)
(1) 직업에 따라 알코올중독에 차이가 있다고 할 수 있는지를 유의수준 0.05로 검정하시오.
(2) 검정결과와 연관성측도에 대해 의미를 해석하시오.
귀무가설 : 직업에 따라 알코올중독에 차이가 없다 (동일이다)
대립가설 : 직업에 따라 알코올중독에 차이가 있다 (동일하지 않다)
(파일 : 동일성검정.sav) - [메뉴  데이터  가중케이스  빈도변수(빈도)선택]
2016년 - SPSS를 활용한 통계특강 -
31
카이제곱검정 : 동일성 검정 (교차분석)
교차분석 : [메뉴  분석  기술통계량  교차분석  셀(빈도:빈도, 퍼센트 :전체)]
2016년 - SPSS를 활용한 통계특강 -
32
카이제곱검정 : 동일성 검정 (실습)
[예제] 연령별로 선호하는 주류의 비율이 다른지를 알아보기 위해 20대, 30대, 40대 이상
의 사람들을 각각 50명씩 조사하여 얻은 자료가 다음과 같다. 유의수준 0.05로 연령과 선
호하는 주류 간에는 연관성이 있는지를 검정하시오. [파일 : 동일성검정(실습).sav]
주류
맥주
소주
위스키
칵테일
합계
20대
20
10
8
12
50
30대
15
19
10
6
50
40대 이상
10
20
15
5
50
합계
45
49
33
23
150
연령
귀무가설 :
가설설정
대립가설 :
(1) [메뉴  데이터  가중케이스]
(2) [메뉴  분석  기술통계량  교차분석 : 셀(관측,전체%), 수평누적막대도표선택]
(3) [메뉴  분석  기술통계량  교차분석 : 통계량(카이제곱, 분할, 파이 선택]
2016년 - SPSS를 활용한 통계특강 -
33