Transcript 메뉴의 종류 File
SPSS Statistics
기초통계분석
신흥대학교 이경희
출처 : ⓒ2013 DataSolution Inc. I Education
치과위생사를 위한 구강보건통계학, 한나래출판사
1. 기초 통계 이론
통계학, 통계학의 두 방향, 모집단과 표본,
모수와 통계량, 신뢰구간
SPSS
통계학은 미지의 자연현상과 현대의 복잡한 사회현상에 대한 자료를 수집하고 정리·요약하며, 수집된 자료와
정보를 이용하여 불확실한 사실에 대해 과학적인 판단을 내릴 수 있는 방법을 제시하는 학문이다.
다양한 분야(물리과학, 생물과학, 인문사회과학, 공학 및 의학)에서 여러 현상을 검증하는 도구가 된다.
▣ 통계학 구성
통계학
• 데이터(자료)를 있는 그대로
정리 및 요약, 시각화 하는
방법
• 집계표, 그래프 등
표나 그래프
• 표본의 요착정보를 이용하여
모집단의 특성
기술통계학
추측통계학
c
c
(모평균, 모표준편차 등)을
추측하는 방법
• 평균비교, 분산분석 등
통계 분석
SPSS
기술통계학(Descriptive Statistics)
방대한 자료를 그래프나 몇 개의 숫자로 요약하여, 그 자료의
전반적인 특성을 쉽고 빠르게 파악할 수 있는 기법을 다루는 통계학
추측통계학(Inferential Statistics)
관심의 대상이 되는 전체집단(모집단)으로부터 일부를 추출하여
관측된(표본) 자료를 근거로 하여, 모집단의 전체 특성(모평균, 모표준차)
을 추측하고 검정하는 통계학
SPSS
모집단과 표본을 통해 기술 통계학과 추측 통계학을 더욱 쉽게 이해할 수 있다.
▣ 기술통계학 & 추측통계학
표본
정리 및 요약
모집단
추출
c c
결론
모집단의
특성에
대한 추측
기술통계학 영역
추측통계학 영역
: 데이터의 요약 및 특성 파악의 영역
(요약 통계학)
: 표본 데이터를 토한
모집단 추론의 영역
(추론통계학)
SPSS
▣ 모집단 & 표본
모집단(Population)
•
•
관심의 대상이 되는 집단
전수조사(?)로도 측정이 불가능한 것이 대부분임
표본(Sample)
•
•
•
모집단의 부분집합으로 모집단에서 일부를 추출해서 정의된 집단
표본 추출 시 대표성이 중요함(모집단을 잘 대표해야 한다!-Random Sample, 집락추출 등)
모수(Parameter)
-
모집단에 대한 실제 값
표시 : 그리스, 로마자
로 표지
평균 : µ
표준편차 : σ
여러 가지 측정 오차로
사실상 알 수 없는 값
(하느님만 아는 값)
ⓒ2013 DataSolution Inc. I Education
모집단(Population)
c 표본(Sample)
c
µ
X
σ
S
•
통계량(Statistic)
-
표본에서 얻은 값
표시 : 알파벳으로 표시
평균 : x
표준 편차 : S
SPSS
모집단(母集團)에서 추출한 표본을 기초로 미지모수 µ를 추정하려고 할 때, 정확도를 나타내는 것으로 신뢰도의
구간을 의미한다.
▣ 신뢰구간
• 모평균 µ에 대한 95% 신뢰구간을 (x-d, x+d)
라고 한다면, 만일 표본을 똑 같은 방법으로
100차례 추출하여 위와 같이 신뢰구간을 구
하였을 때 그 100개의 신뢰구간 중 95개가
모수 µ를 포함하게 됨을 의미한다.
• 여기서 신뢰구간이 모수를 포함할 확률 0.95
즉, 95%를 구간추정의 신뢰수준이라고 한다.
• 신뢰구간은 모수가 어느 범위 안에 있는지를
확률적으로 말해준다.
• cc
µ
2. 가설 검정
가설검정, 검정통계량, 통계오류,
유의수준, 유의확률, 의사결정 단계
가설검정이란 모집단에 대한 어떤 가설을 설정한 뒤에 통계 기법을 통하여 그 가설의 채택여부를 확률적으로 판
정하는 통계적 추론(Statistical Inference)의 한 방법이다.
▣ 가설검정 예시
1) 정치 분야
- 주제(후보자)의 지지율 50%를 넘는다
- 지지율이 50% 이하이다.
2) 경영 분야
- 소비자가 다기능 고가 제품을 선호한다.
- 단순 기능 저가 제품을 선호한다.
3) 생산 분야
- 공정 불량률이 5%를 넘는다.
- 공정 불량률이 5% 이하이다.
4) 농업 분야
- 새로운 품종의 단위 면적당 수확량이 더 높다.
- 변화가 없다.
5) 의학 분야
• c
- 새로운 치료법이 더 효과적이다
- 기존의 치료법과 새로운 치료법은 별 차이가 없다.
6) 산업 보건 분야
- 업종별 산재율에 유의한 차이가 있다.
- 업종별 산재율에 유의한 차이가 없다.
SPSS
가설 : 모수에 대한 예상, 주장, 또는 단순한 추측
(1) 가설의 종류
귀무가설(null hypothesis, 또는 영가설: H0)
: 지금까지 알려진 것과 같은 가설
대립가설(alternative hypothesis, 또는 연구가설 research hypothesis: H1)
: 새롭게 주장하고자 하는 가설
SPSS
▣ 통계적 오류와 유의수준
진실
귀무가설 진실
대립가설 진실
가설 선택
귀무가설 선택
옳은 결정
신뢰수준 (1-α)
대립가설 선택
제 1종 오류
유의수준(α)
제 2종 오류
(β)
옳은 결정
검정력(1-β)
• c
c
• 제 1종 오류(α) : H0이 참인데, H1으로 잘못 선택하는 오류(H0를
기각하는 오류)☞”유의수준”이라고도 한다.
• 제 2종 오류(β) : H1이 참인데, H0으로 잘못 선택하는 오류(H1을 기각하는 오류)
[예시] 그 사람은 유죄인가?
실제로는 유죄인데, 유죄라는 객관적인 증거가 80% 있을 때
⇒증거가 95%보다 적으므로 증거불충분으로 무죄라고 잘못 결정을 한다.
⇒실제는 H1인데 H0라고 잘못 선택 : 제 2종 오류
[예시] 외계인은 존재하는가?
실제로는 존재하지 않는데, 외계인이 존재한다는 객관적인 증거가 97% 있을 때
⇒증거가 95%보다 많으므로 외계인은 존재한다고 잘못 결정을 한다.
⇒실제는 H0인데 H1이라고 잘못 선택 : 제 1종 오류
즉, H1이라고 주장한 것이 틀릴 가능성은 3%이다.
SPSS
▣ 검정통계량과 기각역
검정
통계량
기각역
•
•
•
•
•
•
귀무가설과 대립가설 중 어느 하나를 택하는데 사용되는 통계량
귀무가설이 옳다는 전제 하에서 구한 검정통계량의 값이 나타날 가능
성이 크면 귀무가설을 채택, 나타날 가능성이 작으면 귀무가설을 기각
검정통계량의 확률은 유의확률 P
귀무가설을 기각하게 되는 검정통계량의 관측값의 영역
• cc
귀무가설이 옳다는 전제하에서
검정통계량이 기각역에 속할 확률이 유
의수준인 검정통계량 분포의 일부 영역
기각역의 확률은 유의수준 α
•
•
ⓒ2013 DataSolution Inc. I Education
검정통계량과 기각역을 결정하여 이에 따라
귀무가설 기각 여부를 결정
단측검정과 양측검정에 따라 다름
SPSS
▣ 유의확률과 유의수준
유의확률
( p)
•
•
•
유의수준
(α)
•
•
귀무가설 하에서 검정통계량의 값이 나타날 가능성을 측정하는 확률
값을 의미.
귀무가설의 기각 여부를 유의수준과 비교하여 최종 가설을 선택.
제 1종 오류(귀무가설이 참인데, 대립가설을 선택하는 오류)의 최대 허
• cc
용한계를 의미.
유의수준 α값이 작아지면 귀무가설이 틀렸다는 결론(기각)을 내기가
어렵다.
유의수준 α값이 커지면 귀무가설이 틀렸다는 결론(기각)을 내기가 쉽
다.
•
•
ⓒ2013 DataSolution Inc. I Education
유의확률(p) < 유의수준 ☞ 귀무가설 기각
유의확률(p) > 유의수준 ☞ 귀무가설 채택
SPSS
SPSS
▣ 양측 검정
• 양측 검정(Two – tail Test)
검정통계량의 분포에서 기각 영역이 양쪽에 나타나는 형태의 가설검정
• c
H0 : μ = μ0
H1 : μ ≠ μ0
양측검정: 가설 값이 양측 어디에나
모평균(μ)의 값이 올 수 있는 것을
확인하는 것
▣ 단측 검정
• 단측 검정(One – tail Test)
검정통계량의 분포에서 기각 영역이 한쪽에 나타나는 형태의 가설검정
좌측 검정
(lower-tail
test)v
우측 검정
(lupper-tail
test)
H0 : μ = μ0
H1 : μ < μ0
H0 : μ = μ0
H1 : μ > μ0
ⓒ2013 DataSolution Inc. I Education
우측검정: 대립가설의 값이 귀무가설의
값보다 오른쪽에 있다고 생각되는 가설
• cc
을 확인하는 것
좌측검정: 모평균(μ)이 가설값의 왼쪽
에 있는지 여부를 확인하는 것
SPSS
▣ 통계적 추론을 통한 의사결정 단계
1. 귀무가설과 대립가설의 설정
•
귀무가설 : 기존의 사실, 기존에 받아들이던 가설을 의미
•
대립가설 : 표본을 통해 새롭게 입증하고자 하는 가설을 의미
2. 사용자에 의한 유의수준 설정
•
3. 통계적 분석 기법의 선택
유의수준 : 제 1종 오류 (귀무가설이 참인데, 대립가설을 선택하는 오
류)의 최대 허용 한계로, 보통 통계학에서는 5%기준으로 사용
•
독립변수와 종속변수의 척도(범주형 or 연속형)에 따라 통계적
분석 기법을 적절하게 선택
• cc
4. 검정통계량 VS 기각역
유의확률 VS 유의수준
•
SPSS Statistics를 이용하여 출력된 유의확률을 기준으로
유의수준과 비교
5. 귀무가설의 기각 여부 결정
•
6. 최종 결론 및 의사결정
유의확률이 유의수준(사용자 결정)보다 작게 되면 귀
무가설을 기각
•
기각여부를 판단하여 최종 의사결정
1. 가설을 설정
2. 검정통계량 계산 (어떤 검정을 실시할 것인가를 결정)
T-test ⇒ T-검정통계량 / ANOVA ⇒ F-검정통계량 / X2 test ⇒ X2-검정통계량
3. 각 분석에 필요한 가정들을 검토
(예, 분산분석에서의 정규성, 독립성, 등분산성)
4. 귀무가설을 기각? 또는 채택? (p값으로 결정- 유의수준(0.05)
5. 가설에 맞게 결론을 내림.
(기각 여부는 귀무가설을 기준으로 생각, 결론은 대립가설을 기준으로 기술)
3. 통계분석방법의 결정
데이터, 측정수준, 변수의 분류, 통계분석기법의 선택
SPSS
▣ 데이터 [또는 자료]란?
모집단이나 표본조사 또는 실험의 관측결과 얻어진 개체의 특성값
개체의 특성은 여러 가지로 표현할 수 있으나 통계학에서는 수량적으로 표현된
것이 대부분
사회과학분야에서 수량적으로 측정한 자료는 변수(Variavle)와 개체(Observation)의 집합
변수는 열(comumn) 또는 필드(field), 개체는 행(row) 또는 레코드(record)
▣ 측정 수준이란?
측정은 이론을 구성하고 있는 개념들을
건강상태
이론
현실세계에서 관찰이 가능한 자료와 연결
나쁘다
보통이다
1
2
좋다
시켜주는 과정
측정
측정 수준은 개념에 따라 다르게 정의되 수준
어야 함
3
SPSS
(1) 측정 수준에 의한 분류
① 명칭 또는 명목 변수(nominal variable) = 명목척도
: 측정된 현상을 상호 배타적으로 서로 겹치지 않는
상태에서 범주(category)로 구분
- 상태를 지칭해 주는 기능 가짐(가감승제의 수학적 조작 불가능)
Ex) 성별, 전화번호, 주민등록번호, 혈액형, 인종,
실험군(대조군/치료군), 치료결과(호전, 재발, 사망)
SPSS
(1) 측정 수준에 의한 분류
② 순위변수(ordinal variable) = 순위척도 = 서열척도
: 명칭척도의 기능 + 서열성에 관한 정보 내포
(가감승제의 수학적 조작 불가능)
Ex) 교육정도(국졸/중졸/고졸/대졸)
사회경제적 수준(상/중/하)
병리조직학적 소견(-/+_/+/++/+++)
치료의 정도(반응/중간반응/무반응)
SPSS
(1) 측정 수준에 의한 분류
③ 등간변수(interval variable) = 등간척도
: 특정 상태를 지칭하거나 대소관계 개념 이외에도 측정치간의
간격에 의미를 부여할 수 있을 때 (0 ℃는 없다는 의미 아님)
(가감의 조작가능, 승제의 조작 불가능)
Ex) (20℃ - 30 ℃=10 ℃) =(50 ℃ - 60 ℃=10 ℃)
100 ℃/50 ℃≠212℉/122 ℉
SPSS
(1) 측정 수준에 의한 분류
④ 비율 척도(ratio variable)
: 절대 영점을 가지기 때문에 수학적으로 가장 완전한 형태의
변수 (가감승제 등의 모든 수학적 조작이 가능)
Ex) 40세 - 20세 = 20세
40세는 20세의 2배
SPSS
DATA
비계량적 변수
명목변수
순서변수
범주형 변수
계량적변수
등간변수
비율변수
연속형 변수
SPSS
문제: 다음은 아래의 척도 중 어디에 속하는가?
1. 연속변수
2. 범주형(명목)변수
3. 범주형(순서)변수
1.
환자의 이름 (
2
)
2.
환자의 연령 (
1
)
3.
환자의 초등학교 때부터 이수한 정규교육 년 수(
4.
자녀 수(
5.
주로 이용하는 교통수단(
6.
현재 행복하다고 느끼는 정도(매우 만족/만족/보통/불만족/ 매우 불만족)
( 3 )
1
1
)
)
2
)
SPSS
(2) 전산입력(coding) 형식에 따른 변수의 분
류
① 숫자변수 - 숫자로 코딩된 변수
ex) 남자=1, 여자=2
② 문자변수-문자열로 코딩된 변수
ex) 남자=M,
여자=F
③ 날짜변수-날짜 표기형식으로 코딩된 변수
ex) 98/6/18,
Jun/18/1998
SPSS
연구 목적에 적합한 변수들의 관계를 파악하는 것이 중요.
통계적으로 변수들의 관계 - 인과 관계, 상관 관계, 제 3의 변수와의 관계로 분류
▣변수 관계에 따른 의미
1. 인과 관계
X
•
Y
•
두 변수간 인과 관계를 나타낸 모델로서 화살표가 독립변수 X에서 시
작하여 중속변수 Y에 영향을 미치고 있다.
독립변수가 원인변수가 되며, 종속변수가 결과 변수에 해당됨.
•
•
두 변수간 인과관계는 없지만 상관이 있는 모델
어느 변수가 독립변수인지 종속변수인지 알 수 없는 모델
•
독립변수인 X가 첫번째 종속변수인 Z에 영향을 미치며, Z는 다시 두
번째 종속변수 Y에 영향을 주는 모델.
독립변수 X가 두번째 종속변수인 Y에 직접적인 영향을 미치지 못하
지만, 매개변수인 Z을 통하여 간접적으로 영향을 주는 경우
2. 상관 관계
X
Y
3. 제 3의 변수와의 관계
z
X
V
Y
•
W
•
X
Y
다중 인과 모델 (구조방정식 모형을 통해서 구현 가능)
SPSS
통계학적 가설 검정을 목적으로 두 변수 이상의 관계 보고자 한다면, 이들 변수를 영향을 주는 독립변수와
이에 영향을 받는 종속변수로 분류할 수 있다. 이는 연구하고자 하는 목적에 따라 분석과정에서 정의된다.
예시
▣ 인과관계에 의한 분류
▣
•
• 지역에 따라 TV 프로그램 반응에 유의한 차이가 있는가?
독립변수(설명변수)
•
다른변수에 영향을 주는 변수로 원인을 의미
종속변수(반응변수)
다른변수에 영향을 받는 변수로 원인을 의미
c
차이가 있는가?
독립변수2
종속변수
종업원 근무년수
매출액
독립변수3
1일 전화문의건수
프로그램 반응(좋다/나쁘다)을 종속변수로 정의한다.
• 서울 지역에 따라 학생들의 학력 고사평균 성적은 유의한
독립변수1
광고액(홍보비용)
지역(서울/지방)을 독립변수, 확인하고자 하는 TV
cc
지역(강남/강북) 지역변수를 독립변수, 확인하고자 하는
학력고사 평균 성적을 종속변수로 정의한다.
SPSS
독립변수
종속변수
적용해야 할 통계분석법
명칭척도
(정상군/환자군)
비 척도
(콜레스테롤의 차이)
평균치의 검정(4부 1장)
T검정, Paired T 검정
명칭 혹은 순위척도
(정상군/중등도군/고혈압군)
비 척도
(간기능의 차이)
분산분석법(ANOVA)
명칭척도
(비만군/정상군)
명칭척도
(당뇨병 발생률)
카이제곱(chi-square)검정
로지스틱 회귀분석
순위척도
(비만군/중등도비만/정상군)
명칭척도
(당뇨병 발생률)
경향분석(test for trend)
비 척도
(재태기간)
비 척도
(신생아 체중)
회귀분석
(simple regression)
비 척도+명칭척도
(재태기간+감염여부)
비 척도
(출생시 체중)
공분산분석(ANACOVA)
명칭척도
(암의 형태)
명칭척도+비 척도
생존분석
(생존여부+생존기간)
(비 척도)
종속관계가 명확하지 않을 때
(비 척도)
상관분석
SPSS
SPSS
▣
통계분석 기법의 선택
연속형
없음
1개
One sample
t-test
범주형
Yes
Paired
t-test
수준
3이상
독립변수
연속형
범주형
(1개)
종속변수
이분
명목
명목,서열(2수준) (3수준 이상)
No
Covariate
서열
(3수준 이상)
GLM
회귀분석
(Covariate) (Dummy)
Y
t-test
Wilcoxon
검정
독립변수
Yes
cc
정규성
N
연속형 or
변수 2개 이상
2개이상
범주형
No
짝
정규성
Y
연속형
독립변수
2
독립변수의
개수?
범주형
종속변수
N Y
정규성
One-Way
ANOVA
(F-test)
MannWhitney
검정
N
단순
회귀분석
KruskalWallis
검정
Two-Way
ANOVA
(F-test)
다중 카이제곱검정
회귀분석 +대응일치분석
순서형
Logistic 회귀
이분형(이항)
Logistic 회귀
다항
Logistic 회귀
SPSS
1. 성별에 따른 색상 선호에 차이가 있는가?
→2-Sample(독립표본) t-test
3. 안전띠 착용 여부와 차종에 따른
사망자수는 차이가 있는가?
2. 자동차 종류에 따른 연비 차이가 있는가?
→ One-way ANOVA(일원배치분산분석)
4. 환율은 매출에 영향을 주는가?
→단순 회귀분석(Simple Regression Analysis)
→Two-way ANOVA(이원 분산분석)
SPSS 시작하기
• SPSS 시작하기, window 창, viewer 창, 피벗표 편집창
• SPSS 사용하기 – 도구 모음
SPSS
코드북이란?
변수의 이름,
변수가 나타내는 내용,
변수가 가질 수 있는 값
또는 범위,
각 변수값이 나타내는
내용,
변수값의 길이(칼럼수),
변수값의 위치 등을
일목요연하게
정리한 기록
부호화란?
조사표에 있는
각 변수의 값을
입력하기 쉽게
숫자 또는 기호로
표시하여 코딩용지에
적는 것
전산화란?
부호화된 자료를
컴퓨터에 입력하는 것
SPSS사용하기
1.
Spss 시작하기
내컴퓨터 → c: → Program files → SPSS
→ spsswin. exe
SPSS사용하기
2. SPSS의 Windows(창)
(1) 데이터 편집기 창
제2절. SPSS사용하기
SPSS사용하기
2. SPSS의 Windows(창)
(1) 데이터 편집기 창
•
SPSS의 초기화면
•
테이터보기 - 테이터 파일을 불러오거나 자료 직접 입력 및 편집, 저장
•
변수보기 – 변수정의 및 변수 설명, 변수 유형 등 변수에 대한 수정
제2절. SPSS사용하기
SPSS사용하기
2. SPSS의 Windows(창)
(2) SPSS 뷰어창
출력결과
출력결과
트리
제2절. SPSS사용하기
SPSS사용하기
2. SPSS의 Windows(창)
(2) SPSS 뷰어창
•
실행한 작업의 결과가 나오는 곳
•
편집과 저장 기능
•
왼쪽 - 출력결과 트리(분석방법과 분석결과 요약)
원하는 부분 클릭 - 빨간 화살표로 표시
선택한 부분을 두번 클릭 - 출력결과 숨겨짐
•
오른쪽 – 출력결과 내용
SPSS사용하기
(3) 피벗표 편집창
표를 더블클릭,
오른쪽 마우스클릭
(SPSS 피벗표 개체->
편집)하여 활성화
제2절. SPSS사용하기
SPSS사용하기
3. 분석대화상자
변수목록:
분석중인 데이터
시트에 있는 모든
변수의 목록을
나타냄
선택변수목록:
분석할 변수를 지정
둘 이상의 변수는
Ctrl키나 Shift키를 사용
실행/취소
아이콘
분석 옵션/선택 아이콘:
아이콘을 클릭하면 분석 내용에 따라 여러가지
옵션을 선택할 수 있는 대화상자가 열림
제3절 SPSS 활용
SPSS사용하기
창제목줄
메뉴
도구모음
데이터 시트
상태표시줄
제3절 SPSS 활용
SPSS사용하기
도구모음
파일열기
파일저장
인쇄
대화상자 다시 불러오기: 최근 실행한 통계분석이나 작업의
목록을 보여줌. 같은 분석을 여러 번 반복하는 경우 유용
복구: 최근에 사용한 작업을 취소(
) 또는 복구(
)
제3절 SPSS 활용
SPSS사용하기
도구모음
도표로 이동 : spss 도표편집기 창으로 이동
케이스 이동: 보고자 하는 케이스가 있는 줄로 바로 커서 이동
아이콘 클릭→케이스번호 입력
변수정보: 변수 목록으로부터 관심변수에 대한 정보 보여줌, 이동가능
찾기: 테이터 편집창과 명령문 편집창에서 찾고자 하는 문자열을
입력하면 커서의 앞뒤로 찾기를 실행
케이스삽입: 현재 커서가 있는 자리 위쪽에 새 케이스 추가
SPSS사용하기
도구모음
변수삽입: 현재 커서가 있는 자리 왼쪽에 새 변수 추가
파일분할: 파일 분할 대화상자에서 선택한 변수의 값을 기준으로 하여
집단별로 테이터 파일을 분리
가중케이스: 지정한 변수의 값으로 각 사례에 대해 가중값을 적용
케이스선택: 일정 기준에 따라 분석하고자 하는 사례들만 추출
변수값 설명
변수군 사용: 실행속도를 빠르게 하기 위해서 대화상자의 변수목록들을
작은 변수군으로 제한
데이터 관리
데이터 작성하기, 데이터 저장하기, 데이터 불러오기
데이터 관리
1. 데이터 작성
(1) 원자료를 SPSS 테이터 편집기 창에 직접 입력
(2) 원자료를 문서편집기(한글, 워드패드, 메모장 등)에서
입력 -> SPSS에서 불러들여 만드는 방법
(3) 원자료를 스프레드시트(EXCEL이나 LOTUS)에서
입력 -> SPSS에서 불러들여 만드는 방법
제2절
데이터관리
작성
데이터
1. 데이터 작성
1) 원자료를 SPSS 테이터 편집기 창에 직접 입력
① 변수정의하기
변수이름
id
이름
생년월일
성별
교육수준 주거형태 친_중요1 친_중요2
1
김유미 03/05/1970
f
2
2
1
2
2
류석영 05/12/1973
f
3
2
2
4
3
오오목 11/20/1971
f
2
1
4
5
4
유수덕 06/15/1971
f
2
2
6
7
5
전진현 03/22/1974
f
3
3
6
8
6
김형준 01/01/1976
m
3
1
10
11
7
김윤철 09/19/1973
m
3
1
13
8
8
김선대 04/08/1969
m
9
3
6
8
9
서기선 06/20/1970
m
9
3
2
10
가상데이터의 코드북
내용
id
이름
생년월일
성별
교육수준
주거형태
일련번호
(문자)
mm/ dd/ yy(06/ 11/ 1977)
f.여자 m. 남자
1. 고졸 2. 대졸 3. 대학원졸 9. 무응답
1. 주택 2. 아파트 3. 연립주택
친_중요1,2
1.공부 잘하는 것
2. 춤, 노래, 운동, 우머 등 재주가 있는 것
3. 리더쉽이 있는 것
4. 취미가 비슷한 것
5. 잘 사는것(부자)
6. 친구들과 잘 어울리는 것
7. 학교생활에 성실한 것
8. 나를 잘 이해해 주는 것
9. 함께 있으면 즐것운 것
10. 친구들에게 돈을 잘 쓰는것
11. 잘 생긴 것/ 예쁜 것
12. 싸움을 잘하는것
13. 성격
기타)---99. 모르겠다.
가상데이터
제2절
데이터관리
작성
데이터
1. 데이터 작성
1) 원자료를 SPSS 테이터 편집기 창에 직접 입력
① 변수정의하기(변수보기에서 실시)
•
변수 이름 정의하기
⇒ 알파벳이나 한글,숫자(단, 첫자는 반드시 알파벳이나 한글)
⇒ 이름의 길이: 영문 8자, 한글 4자 이내
- (12.0이상: 영문 64자, 한글 32자)
⇒ 동일 이름 중복 사용 불가
⇒ 예약어 사용불가(ALL, AND, OR, NE 등)
•
변수 유형 정의하기
⇒ 숫자, 콤마, 점, 지수표기, 날짜, 달러, 사용자 통화, 문자열
데이터 관리
1. 데이터 작성
1. 원자료를 SPSS 테이터 편집기 창에 직접 입력
① 변수정의하기(변수보기에서 실시)
데이터 관리
1. 데이터 작성 연습하기
제2절
데이터관리
작성
데이터
1. 데이터 작성
1) 원자료를 SPSS 테이터 편집기 창에 직접 입력
② 데이터 편집기 창에 원자료 입력하기
•
코드북에 따라 데이터 입력(엔터키와 방향키 이용)
⇒ 생년월일: 코드북에 따라 ‘-’이나’/’을 입력해야 함.
⇒ 생년월일을 모두 입력했는데도 숫자가 다 나오지 않으면 셀 너비를
늘려주면 됨.
데이터 관리
1. 데이터 작성
1) 원자료를 SPSS 테이터 편집기 창에 직접 입력
② 데이터 편집기 창에 원자료 입력하기
제2절
데이터관리
작성
데이터
소수점이하자리를
포함한 변수값의 자
리수
변수에 대한
설명
변수값에 대
한 설명
데이터시트에서
셀의 너비를 조절
무응답: 9
데이터 시트의 셀
에서 글자의 위치
를 왼쪽이나 오른
쪽으로 정렬
변수의 측정수준
을 척도(비율이나
구간), 순서, 명목
으로 지정
데이터 관리
2. 완성된 데이터시트 저장하기
데이터 관리
2. 완성된 데이터시트 저장하기
제2절
데이터관리
작성
데이터
2. 완성된 데이터시트 저장하기
제2절
데이터관리
작성
데이터
2. 완성된 데이터시트 저장하기
제2절
데이터관리
작성
데이터
3. 데이터 불러오기
제2절
데이터관리
작성
데이터
3. 데이터 불러오기
데이터 변환
코딩변경하기 – 같은 변수로, 새로운 변수로
변수계산
데이터 변환
1. 코딩 변경: 변수 값의 변경
<예>
• 실제로 측정한 연령 => 10대, 20대, 30대와 같이 집단으로 묶기
• 문자로 입력된 성별(m,f) => 숫자(1,2)
• 리커트 척도로 측정할 때 긍정 문항과 부정 문항을 섞어 묻는 경우 =>
부정적인 문항은 코딩변경을 통해 긍정적인 내용으로 점수를 바꿔 줌(=역코딩)
데이터 변환
1. 코딩 변경: 변수 값의 변경
(1) 같은 변수로 코딩 변경
문자로 입력된 성별(m,f) => 숫자(1,2)로 변경하기
데이터 변환
1. 코딩 변경: 변수 값의 변경
(1) 같은 변수로 코딩 변경
문자로 입력된 성별(m,f) => 숫자(1,2)로 변경하기
3절
데이터
변환변환
제
데이터
1. 코딩 변경: 변수 값의 변경
(1) 같은 변수로 코딩 변경
문자로 입력된 성별(m,f) => 숫자(1,2)로 변경하기
3절
데이터
변환변환
제
데이터
1. 코딩 변경: 변수 값의 변경
(1) 같은 변수로 코딩 변경
문자로 입력된 성별(m,f) => 숫자(1,2)로 변경하기
데이터 변환
1. 코딩 변경: 변수 값의 변경
(2) 새로운 변수로 코딩 변경
•
실제로 측정한 연령(18세~89세)
=> 30세 이하(1), 31~50세(2), 51~70세(3), 71세 이상(4)
•
SPSS저장 데이터 -> 파일 열기 -> 변환 -> 코딩변경
-> 새로운 변수로 코딩 변경
3절
데이터
변환변환
제
데이터
1. 코딩 변경: 변수 값의 변경
(2) 새로운 변수로 코딩 변경
•
실제로 측정한 연령(18세~89세)
=> 30세 이하(1), 31~50세(2), 51~70세(3), 71세 이상(4)
3절
데이터
변환변환
제
데이터
1. 코딩 변경: 변수 값의 변경
(2) 새로운 변수로 코딩 변경
•
실제로 측정한 연령(18세~89세)
=> 30세 이하(1), 31~50세(2), 51~70세(3), 71세 이상(4)
데이터 변환 연습
1. 코딩 변경: 변수 값의 변경
(1) 다른 변수로 코딩 변경
실제로 측정한 연령(18세~89세) => 숫자(1,2,3,4)로 변경하기 연습
파일 메뉴 – 열기 – 데이터 – 데이터 클리닝
- Day 1_data - exercise - ex1_GSS2004_day1.sav
파일 열기 – 연령 코딩 변경하기
=> 30세 이하(1), 31~50세(2), 51~70세(3), 71세 이
상(4)
데이터 변환
2. 변수계산
- 측정된 변수 값으로 여러 가지 계산을 하여 새로운 변수를
만들어야 하는 경우
<예>
• 비만도 = [체중/{(키-100)*0.9}]*100
• 마음을 터놓을 정도로 친한 친구의 수 = 동성친구 + 이성친구
• 생활 행복 만족도 = (행복도 + 생활)/2
3절
데이터
변환변환
제
데이터
2. 변수계산
예시 : 생활 행복 만족도 = (행복도 + 생활)/2
• SPSS 저장 데이터 -> 파일 열기 -> 변환 -> 변수계산
• 숫자표현식을 쓸때 : 대문자로 쓰거나 소문자로 쓰는 것은 마찬가지
• 변수나 함수 - 직접 입력 가능
• 사칙연산 부호들(+,-,*,/) - 직접 입력 가능
• 함수에 적절한 값이 괄호 안에 들어가도록 주의
(log함수를 쓰면서 괄호 안에 음수를 쓸 수 없음)
• 키패드
은 or를 의미,
는 제곱을 의미
• 변수들 가운데 하나라도 결측 값이 있으면 계산결과는 결측 값으로 나옴
데이터 변환
2. 변수계산
데이터 편집
케이스 정렬
일부 케이스 선택
데이터 파일 합치기 – 케이스 추가하기, 변수추가하기
데이터 편집
1. 케이스 정렬
: 케이스들을 특정한 변수의 값으로 정렬하고자 하는 경우 이용
• SPSS저장 데이터 -> 파일 열기 -> 데이터 -> 케이스 정렬
(인종을 올림차순으로 정렬)
데이터 편집
1. 케이스 정렬
데이터 편집
1. 케이스 정렬
데이터 편집
2. 일부 케이스 선택
: 일부 케이스만 선택하여 분석하는 경우
<예>
• 응답자 중 남자들만 선택하여 분석-> 남자들 중 흡연을 하는 사람의 수는?
• 조사된 사람들 중 일부(예를 들어 절반)만 선택하여 분석하는 경우 ->
수집된 케이스를 절반으로 나누어 두 개의 서로 다른 독립된 표본으로 삼아
한쪽 표본에서 얻은 결론을 다른 쪽에 적용하는 경우
• SPSS저장 데이터 -> 파일 열기 -> 데이터 -> 케이스 선택
(성별에서 남자만 선택)
데이터 편집
2. 일부 케이스 선택
데이터 편집
제 4절 데이터 편집
2. 일부 케이스 선택
데이터 편집
제 4절 데이터 편집
2. 일부 케이스 선택
데이터 편집
제 4절 데이터 편집
2. 일부 케이스 선택
여학생만 케이스 선택하여 빈도분석 결과산출
전체 케이스로 빈도분석 결과산출
데이터 편집
2. 일부 케이스 선택 - 복귀
데이터 편집
2. 일부 케이스 선택 - 복귀
데이터 편집
제 4절 데이터 편집
2. 일부 케이스 선택
데이터 편집
제 4절 데이터 편집
3. 데이터 파일 합치기
(1) 케이스 추가하기
: SPSS 데이터 파일 중에서 동일한 변수를 지닌 두개의 파일을 합치는 경우
id
이름
생년월일
성별
교육수준
주거형태
1
김유미
03/05/1970
f
2
2
2
류석영
05/12/1973
f
3
2
3
오오목
11/20/1971
f
2
1
4
유수덕
06/15/1971
f
2
2
5
전진현
03/22/1974
f
3
3
6
김형준
01/01/1976
m
3
1
7
김윤철
09/19/1973
m
3
1
8
김선대
04/08/1969
m
9
3
9
서기선
06/20/1970
m
9
3
id
10
11
이름
홍길동
이하니
생년월일
12/11/1970
08/29/1973
성별
m
f
교육수준
3
2
주거형태
2
1
+
데이터 편집
3. 데이터 파일 합치기
(1) 케이스 추가하기
데이터 편집
제 4절 데이터 편집
3. 데이터 파일 합치기
(1) 케이스 추가하기
데이터 편집
제 4절 데이터 편집
3. 데이터 파일 합치기
(2) 변수 추가하기
: 같은 케이스에 대해 다른 변수들을 가지고 있는 두 파일을 하나의 파일로 합치고자 할 때
•
기준변수(id와 같은)가 있어야 함.
•
변수를 추가하기 전에 양쪽 파일 모두 데이터가 기준변수의 오름차순으로 정렬되어야 함.
id
이름
생년월일
성별
교육수준
주거형태
1
김유미
03/05/1970
f
2
2
2
류석영
05/12/1973
f
3
2
3
오오목
11/20/1971
f
2
1
4
유수덕
06/15/1971
f
2
2
5
전진현
03/22/1974
f
3
3
6
김형준
01/01/1976
m
3
1
7
김윤철
09/19/1973
m
3
1
8
김선대
04/08/1969
m
9
3
9
10
11
서기선
홍길동
이하니
06/20/1970
12/11/1970
08/29/1973
m
m
f
9
3
2
3
2
1
+
id
1
2
3
4
5
6
7
8
9
10
11
이름
김유미
류석영
오오목
유수덕
전진현
김형준
김윤철
김선대
서기선
홍길동
이하니
지역
2
1
1
3
1
1
3
3
2
2
3
데이터 편집
제 4절 데이터 편집
3. 데이터 파일 합치기
(2) 변수 추가하기
데이터 편집
3. 데이터 파일 합치기
(2) 변수 추가하기
데이터 편집
제 4절 데이터 편집
3. 데이터 파일 합치기
(2) 변수 추가하기
기술통계
용어 설명
데이터 탐색
정규성 검정
SPSS
▣ 위치 측도
값
평균(Mean)
중앙값(Median)
최빈값(Mode)
합계(sum)
계산방법
• 관찰치 전체를 합한 후에 자료의
관찰치 총 개수로 나눈 값
• 데이터를 순서대로 배열한 상태의
정중앙값
설명
• 데이터의 무게 중심을 나타낸다.
• 특이치/이상치 같은 극단값에 영
향을 많이 받는다
• 특이치/이상치에 같은 극단값에
영향을 덜 받는다
• 자료의 분포에서 빈도수가 가장 높
은 관찰치
• 명목형 척도에 주로 사용한다.
• 데이터 중에서 가장 많이 발생한 값
c c
• 전체 개체들의 총합
값
▣ 백분위수
값
백분위수
(Percentile)
사분위수
(Quartile)
계산방법
• 자료를 순서화하여 각 백분율에 일
치하는 값
• 백분위 수와 비슷한 의미로, 자료를 순서
화하여 25%, 50%, 75%, 100% 비율에
해당하는 값
설명
SPSS
▣ 변이 측도
값
계산방법
설명
최소값(Min)
최대값(Max)
• 데이터 중에서 가장 작은 값
• 데이터 중에서 가장 큰 값
범위(Range)
• 최대값 - 최소값
• 계산과 해석이 용이하지만 두 개의 극단값만을 사
용하므로 이상치에 영향을 많이 받는다.
• 제 3사분위수 – 제 1사분위수
• 데이터 중에서 중간에 위치하는 50%의 데이터의
범위를 의미한다
• 각 편차 제곱의 합을 관찰치의 수로 나눈 값
• 데이터의 퍼진 정도를 표현하기 위해 가장 자주 사용
하는 통계량이다.
사분위 범위
(Interquartile Range)
분산
(Variance)
표준편차
(Srandard Deviation)
평균의 표준오차
(Stardard Eorror)
c c
• 분산의 제곱근
• 표본 평균의 표준편차
• 분산은 원 자료와 단위가 달라지기 때문에, 원 자료와
단위를 통일하기 위해 표준편차를 계산한다
• 모집단 평균이 표본평균에 의해서 얼마나 정확히
추정될 수 있는지를 반영하는 지표
▣ 분포 측도
값
계산방법
설명
왜도
(Skewness)
• 분포의 대칭성, 분포의 편중(치우침)
• 절대값이 0에 가까울수록 정규분포와 유사한 형태
• +:오른쪽 고리 - :왼쪽 꼬리
범위(Range)
• 최대값 - 최소값
• 절대값이 0에 가까울수록 정규분포와 유사한 형태
• +:좁게 밀집, - :넓게 밀집
SPSS로 기술통계량 구하기
[예제1]
①
분석-> 기술통계량 ->기술통계
1
3
2
SPSS로 기술통계량 구하기
[예제1]
- 총 케이스는 1517 중, 결측케이스가 3개 있으므로
유효수는 1514케이스로서, 최소값은 18, 최대값 89이고
평균은 45.63, 표준편차 17.808임.
SPSS로 기술통계량 구하기
[예제1] 분석-> 기술통계량 ->데이터탐색
1
SPSS로 기술통계량 구하기
[예제1] 분석-> 기술통계량 ->데이터탐색
2
3
4
SPSS로 기술통계량 구하기
[예제1]
① 기술통계부분에서 출력된 내용에
덧붙여 중위수와 분산, 범위, 사
분수범위, 왜도, 첨도 등이 함께
출력됨. 평균은 45.63, 중위수는
41.00임.
② 범위와 사분위수범위가 각각 71
과 28.00인 것으로 보아, 절반은
사분위수 범위인 28.00안에 있고,
나머지 절반은 그 바깥에 넓게 퍼
져 있는 것을 알 수 있음.
③ 왜도의 값은 양수이므로 오른쪽
으로 꼬리를 가짐.
SPSS로 기술통계량 구하기
[예제1]
④ 첨도는 –0.786으로 0보다
작은 것으로 보아, 점수는
평균 주위에 넓게 퍼져 있으며,
낮고 완만
⑤ 신뢰구간: 모집단의 평균이
있을 것으로 추정되는 구간
연령의 95% 신뢰구간의
하한은 44.73, 상한은 46.52
모든 학생들을 다 조사했을 때,
평균점수는 약 44.73에서
46.52 사이에 있을 것
SPSS로 기술통계량 구하기
[예제1]
⑥ 5% 절삭평균은 이상점이
평균에 영향을 주는 것을
막아보고자 하는 노력임.
데이터의 양쪽에서 5%의
데이터를 제외하고 평균을 낸 것.
연령의 평균은 45.63, 5% 절삭
평균은 44.97이므로, 이상점의
영향이 조금 있음.
SPSS로 기술통계량 구하기
[예제1]
- 연속변수에 해당하는 연령에 대하여 분석을 실시하기 전
정규성을 따르는지 검정하시오.
학자별로 의견이 다름
: 일반적으로는
Shapiro-willk가
많이 사용됨
Kolmogrove-smirnov: 관측표본이 50개 이상인 경우
Shapiro-willk: 관측표본이 50개 이하인 경우
본 데이터는 50개 이상이므로 Kolmogrove-smirnov를 보게 된다.
SPSS로 기술통계량 구하기
[예제1]
- 연속변수에 해당하는 연령에 대하여 분석을 실시하기전
정규성을 따르는지 검정하시오.
H0(귀무가설): 정규성을 따른다.
H1(대립가설): 정규성을 따르지 않는다.
P<0.05 귀무가설 기각 (정규성을 따르지 않는다 받아들임)
카이제곱 검정
카이제곱 검정
Fisher′s exact test
SPSS
▣
통계분석 기법의 선택
연속형
없음
1개
One sample
t-test
범주형
Yes
Paired
t-test
수준
3이상
독립변수
연속형
범주형
(1개)
종속변수
이분
명목
명목,서열(2수준) (3수준 이상)
No
Covariate
서열
(3수준 이상)
GLM
회귀분석
(Covariate) (Dummy)
Y
t-test
Wilcoxon
검정
독립변수
Yes
cc
정규성
N
연속형 or
변수 2개 이상
2개이상
범주형
No
짝
정규성
Y
연속형
독립변수
2
독립변수의
개수?
범주형
종속변수
N Y
정규성
One-Way
ANOVA
(F-test)
MannWhitney
검정
N
단순
회귀분석
KruskalWallis
검정
Two-Way
ANOVA
(F-test)
다중 카이제곱검정
회귀분석 +대응일치분석
순서형
Logistic 회귀
이분형(이항)
Logistic 회귀
다항
Logistic 회귀
SPSS
정의 : 교차표로 정리된 두 범주형 변수의 관계를
확률적으로 분석하고 검정하는 것을 말함.
- 교차분석에 사용되는 검정통계량은 카이제곱 분포를
따르기 때문에 카이제곱 분석이라고도 함
SPSS
교차분석의 독립성 검정
1. 두 변수의 독립성
•
아이스크림 선호여부와 삼촌유무처럼 서로 관계가 없는 경우는
‘서로 독립이다’
•
본인의 안경착용여부와 부모의 안경착용여부처럼 관계가 있는 경우는
‘서로 독립이 아니다’
⇒ 독립이 아닌 것:‘서로 종속이다’,‘서로 상관이 있다.’
교차분석은 두 변수가 서로 독립이 아니라고 할 수 있는 가를
알아보는 것
연구가설: 두 변수는 서로 관계가 있을 것이다.
SPSS
교차분석의 독립성 검정
2. 기본가정
• 독립변수와 종속변수는 모두 범주형 데이터이어야 함.
• 수집된 데이터는 충분히 커야 함.
⇒ 판단근거: 기대빈도
: 기대빈도가 5 미만인 경우 비모수검정 실시
- 정확한 검정실시 = Fisher 의 Exact test
SPSS
관측빈도와 기대빈도의 개념
어떤 소비자가 단체에서 A,B두 회사가 제조한 에어컨을 새로 구입한 200명의 구입자를 대상으로 조사하여 3년 내에 수리를 필요로 하는
고장이 발생했는지의 여부를 조사한 결과가 아래와 같다. 이 자료를 근거로 두 제품의 3년 내 고장 비율이 같다고 할 수 있는지 살펴보자.
수리를 필요로 하는 고장 발생 여부
수리를 필요로 하는 고장 발생 여부
교차로
교차로
수리필요
상표
수리불필요
수리필요
전체
A
16(20%)
64(80%)
80(100%)
B
48(40%)
72(60%)
120(100%)
전체
60(30%)
140(70%)
200(100%)
• 관측 빈도 : 실제 조사에 의해 관찰된 빈도
상표
• cc
수리불필요
전체
A
24(30%)
56(70%)
80(100%)
B
36(30%)
84(70%)
120(100%)
전체
60(30%)
140(70%)
200(100%)
• 기대빈도 : 두 변수 사이에 연관성이 없다는
가정하에 예상되는 빈도
이러한 관측빈도와 기대빈도의 차이를 반영한 검정통계량이 카이제곱 값이다!
이 값이 클수록 귀무가설이 거짓이고, 대립가설이 참인 증거가 커진다고 할 수 있다.
SPSS
예제 - 국내의 한 노조에서 전체의 노동운동을 현재처럼 상급단체(민주노총, 한국노총) 및 대
기업 노조가 주도해 나가는 것이 바람직한 거인지 아니면 독자적으로 하는 것이 바람직한지를
알아보기 위해 20-40대의 노조원 201명을 대상으로 조사하였다. 연령대별로 노조에 대한 생
각에 차이가 있는지를 검정하여라. (Chi_예제1.sav)
가설 수립
귀무가설(H0) : 연령대에 따라 찬/반에 대한 차이가 없다.(서로 독립)
대립가설(H1) : 연령대에 따라 찬/반에 대한 차이가 있다.(서로 종속)
연령대
20
30
30
30
40
40
…
20
단체
주도
찬성
반대
찬성
반대
반대
찬성
…
반대
연령대 : 20, 30, 40대
독립변수 : 연령대 – 범주형
단체주도 : 1(반대), 3(찬성)
종속변수 : 단체주도 - 범주형
SPSS
예제 – 연령변수를 연령대로 그룹화하기 위해서 다른 변수로 코딩변경을 실행해 보자. . (Chi_예제1.sav)
SPSS 프로시저
SPSS 대화상자
SPSS 프로시저
SPSS 프로시저
SPSS
예제 – 연령그룹별 상급단체 주도 찬반에 차이가 있는지 카이제곱 검정을 실행해 보자. (Chi_예제1.sav)
SPSS 프로시저
SPSS 대화상자
행 : 인구사회학적 특성
열 : 나머지 특성
SPSS 통계량 옵션 대화상자
SPSS 셀 옵션 대화상자
연령대에 대한 찬반을
보는 것이기 때문에
“행”의 퍼센트를 구함
SPSS
예제 – 연령그룹별 상급단체 주도 찬반에 차이가 있는지 카이제곱 검정을 실행해 보자. (Chi_예제1.sav)
카이제곱 검정 결과
1. 케이스 처리요약
- 결측치 없음
2. 교차표
- 각 셀의 기대빈도 값 확인
- 20대의 반대율이 79.4%로
40대의 45.9%보다 더 높다.
3. Pearson의 카이제곱
- 유의확률이 0.015로 유의수준 0.05 보다
작으므로 귀무가설 기각
- 연령대 간의 노동운동 반대율의 차이가 있
다.
SPSS
▣ 결과 정리
NO
프로세스
1
연구 예제
2
Data의 특성 파악
3
분석방법의 결정
4
기본 가정 검토
5
결과 해석
6
결론
결과 정리
연령대에 따라 노동운동 찬성/반대율이 통계적으로 차이가 있는가?
(종속적인가?)
독립변수 : 연령대
종속변수 : 노동운동
독립변수 :•범주형
cc 변수 (수준3)
종속변수 : 범주형 변수 (수준2)
☞카이제곱 검정
기대값이 5보다 작은 셀이 존재하는가? ☞ No
P = 0.015 < 0.05 ☞ 귀무가설 기각
연령에 따른 노동운동 반대율에 대한 차이를 분석한 결과,
유의수준 5% 하에서 통계적으로 차이가 있는 것으로 나타났다.
20대 79.4%, 30대 59.2%, 40대 45.9%의 반대율로 연령대가 낮을수록
반대율이 높아지는 것으로 나타났다.
SPSS
예제 – 300명의 자가 운전자를 랜덤 추출하여 성별과 선호하는 자동차의 색상을 조사한 결과이
다. 성별에 따라 선호하는 자동차의 색상이 차이가 있는가?. (Chi_예제1.sav)
가설 수립
귀무가설(H0) : 성별에 따라 자동차 색상 선호도의 차이가 없다.(서로 독립)
대립가설(H1) : 성별에 따라 자동차 색상 선호도의 차이가 있다.(서로 종속)
구분
흰색(1)
자주색(2)
푸른색(3)
계
남자(1)
37
41
44
122
여자(1)
35
72
71
178
계
72
113
115
300
성별 : 남(1), 여(2)
독립변수 : 성별 – 범주형
선호색: 흰색(1), 자주색(2), 푸른색(3)
종속변수 : 선호색 - 범주형
SPSS
예제 – 빈도변수에 가중케이스를 설정한 후, 성별에 따른 색상선호도에 차이가 있는지 카이제곱 검정을
실행해보자. (Chi_예제12. sav)
SPSS 프로시저
SPSS 가중케이스 대화상자
메뉴창
- 데이터
- 가중케이
스
선택
SPSS 교차분석 대화상자
SPSS 통계량/ 셀 옵션 대화상자
SPSS
예제 – 성별에 따른 색상선호도에 차이가 있는지 카이제곱 검정을 실행해 보자. (Chi_예제2.sav)
카이제곱 검정 결과
1. 케이스 처리요약
- 결측치 없음
2. 교차표
- 각 셀의 기대빈도 값 확인
- 남자 흰색 선호율 30.3%로
여자 흰색 선호율 19.7% 보다 더 높다.
3. Pearson의 카이제곱
- 유의확률이 0.100으로 유의수준 0.05 보다
크므로 귀무가설 채택
- 성별에 따른 색상선호도에 차이가 없다.
SPSS
▣ 결과 정리
NO
프로세스
1
연구 예제
2
Data의 특성 파악
3
분석방법의 결정
4
기본 가정 검토
5
결과 해석
6
결론
결과 정리
성별에 따라 자동차의 색상 선호도가 통계적으로 차이가 있는가?
(종속적인가?)
독립변수 : 성별
종속변수 : 선호색상
cc 변수 (수준3)
독립변수 •: 범주형
종속변수 : 범주형 변수 (수준2)
☞ 카이제곱 검정
기대값이 5보다 작은 셀이 존재하는가? ☞ No
P=0.1 〉0.05 ☞ 귀무가설 채택
성별에 따른 자동차의 색상 선호도에 대한 차이를 분석한 결과 유의수준
5% 하에서 통계적으로 차이가 없는 것으로 나타났다.
SPSS
예제
미소프로스톨이란 약제를 각각 방법1, 방법2로 투여한 후, 투여 방법에 따라
부작용에 차이가 있는지 통계적으로 검정하여라.(미소프로스톨. sav)
1. 데이터 설명
•
2. SPSS 정확 옵션 대화상자
미소프로스톨.sav
전체 66개의 케이스, 2개 필드
투여방법(1 : 방법1, 2 : 방법2)
부작용(0 : 없음, 1 : 있음)
3. Fisher’s Exact Test 결과
Fisher’s Exact Test
모수적 검정법의 기본 가정이 만족하지 않는 경우 및
표본의 수가 작거나, 점근 유의수준 경계에 걸릴 경우에 사용
이 검정은 가능한 모든 경우의 수를 직접 따져서 가설을 검정
하는 방법이다.
최소 기대빈도가 2.82이고, 5보다 작은 기대빈도가 전체의
50%를 차지하므로 기본 가정을 만족하지 않는다.
출력되는 정확 유의확률(Exact Sig)은 0.091로 유의수준
0.05보다 크므로‘투여 방법에 따른 부작용에는 연관성이 없
다.’ 라는 귀무가설을 채택
SPSS
▣ Reviw
NO
프로세스
결과 정리
1
변수의 척도 판단
2
가설 설정
H0 : 독립변수와 종속변수는 유의한 차이가 없다. (서로 독립)
H1 : 독립변수와 종속변수는 유의한 차이가 있다. (서로 종속)
3
가정 검토
• 5보다
cc 작은 셀의 수는 전체 셀의 25% 미만인가?
기대빈도가
가정을 만족하면 ☞ 카이제곱 검정
가정을 만족하지 않으면 ☞ Fisher’s exact test
4
분석 수행
1, 2, 3단계에서 얻어진 결론을 가지고 최종분석방법을 선택하고
분석한다.
5
결과 해석
4단계에서 얻어진 p값을 보고 2개의 가설 중 하나를 선택한다.
6
최종 결론 도출
종속변수 / 독립변수 : 명목, 서열, 등비 중에서 어느 것인가?
SPSS
▣ 연습하기
예제 : 어느 생활지도 상담자는 110명의 고등학생을 대상으로 독서하는 시간과 TV 시청시간을 조사하였다.
각 항목을 높고 낮음으로 분류하여 다음과 같은 표를 얻었다. 유의수준이 0.05일 때, 이 자료들은 독서량과
TV 시청량이 관련이 있다고 주장하기에 충분한 근거를 제공하는가? (데이터는 직접 입력하여라)
제시된 표
SPSS 입력 표
독서량
TV 시청량
높다(1) 낮다(2)
합
높다(1)
40
18
58
낮다(2)
41
11
52
총합
81
29
110
TV 시청
량
독서량
빈도
1
1
40
1
2
18
2
1
41
2
2
11
교차분석 전에 가중치 설정 필요 – (데이터 – 가중케이스 – 빈도 가중치 설정)
t -검정
독립표본 t-검정
대응표본 t-검정
SPSS
▣
통계분석 기법의 선택
연속형
없음
1개
One sample
t-test
범주형
Yes
Paired
t-test
수준
3이상
독립변수
연속형
범주형
(1개)
종속변수
이분
명목
명목,서열(2수준) (3수준 이상)
No
Covariate
서열
(3수준 이상)
GLM
회귀분석
(Covariate) (Dummy)
Y
t-test
Wilcoxon
검정
독립변수
Yes
cc
정규성
N
연속형 or
변수 2개 이상
2개이상
범주형
No
짝
정규성
Y
연속형
독립변수
2
독립변수의
개수?
범주형
종속변수
N Y
정규성
One-Way
ANOVA
(F-test)
MannWhitney
검정
N
단순
회귀분석
KruskalWallis
검정
Two-Way
ANOVA
(F-test)
다중 카이제곱검정
회귀분석 +대응일치분석
순서형
Logistic 회귀
이분형(이항)
Logistic 회귀
다항
Logistic 회귀
SPSS
독립표본 t검정(2 sample t-test)은 두집단 간의 평균의 차이를 비교하는 분석 방법이다.
▣ 기본 가정
(1) 독립성
• 독립변수의 그룹군은 서로 독립적이어야 한다.
(2) 정규성
• 독립 변수에 다른 종속변수는 정규분포를 만족해야 한다.
(☞ SPSS Statistics의 [데이터 탐색] 메뉴에서 확인 가능)
• Data가 대표본(일반적으로, 30개 이상)이면 대표본 근사(중심극한정리)에 의해 정규성을 만족한다.
(3) 등분산성
• 마다
c
• 독립 변수에 다른 종속변수 분포의 분산은 각 군
c 동일해야 한다.
• 통계 분석결과에서 등분산을 만족하면 “등분산이 가정됨” 줄의 통계량 검정
• 통계 분석결과에서 등분산을 만족하지 않으면 “등분산이 가정되지 않음” 줄의 통계량 검정
▣ 가설 수립
• 귀무가설(H0) : 독립변수(인자)에 따라 종속변수(특성값)는 같다.
• 대립가설(H1) : 독립변수(인자)에 따라 종속변수(특성값)는 다르다.
▣ 예시
• 휘발유 첨가제를 사용하기 전과 후의 자동차 주행거리에 차이가 있는가?
• 다이어트 약품 복용 전과 후의 몸무게의 차이가 있는가?
SPSS
예제 : 성별에 따라서 스트레스의 정도를 측정한 자료이다. 남자, 여자의 스트레스 정도는
차이가 있다고 할 수 있는가?(T_예제 1.sav)
데이터 설명
SPSS 가중케이스 대화상자
T_예제 1. sav
전체 14개의 케이스, 2개 필드
성별(1: 남, 2: 여)
독립변수 : 스트레스
(명목형 변수, 측정수준 : 2수준)
종속변수 : 스트레스(연속형 변수)
SPSS 교차분석 대화상자
• cc
SPSS 통계량/ 셀 옵션 대화상자
정규성 검정을
하기 위해
반드시
살펴 봐야 함
SPSS
정규성 검정 결과
Shapiro-Wilk를 보편적으로 사용
Kolmogrove-smirnov는 케이스가
2000개가 넘는 경우 주로 사용
정규성 가정 검토
정규성
H0 : 정규분포를 만족한다. (p값이 0.05 보다 커야 한다.)
H1 : 정규분포를 만족하지 않는다.
정규성 가정을 만족하는 지 검토하기 위해 Shapiro-Wilk의 유의확률을 확인한 결과,
유의확률이 0.05 보다 크므로 귀무가설 채택
- 따라서 독립표본 t-검정 사용이 가능
SPSS
독립표본 t검정(2 sample t-test)은 두집단 간의 평균의 차이를 비교하는 분석 방법이다.
SPSS 프로시저 - 독립표본 t검정
SPSS 대화상자
• cc
SPSS 교차분석 대화상자
SPSS 통계량/ 셀 옵션 대화상자
독립변수는 수
옵션에서
준이 2인
신뢰구간을
명목척도이므로
설정할 수
1, 2로 입력하여
있다.
정의한다.
기본 : 95%
SPSS
독립표본 T- 검정 결과
독립표본 t-검정
등분산성 검정
H0 : 등분산성을 만족한다. (p값이 0.05 보다 커야 한다.)
H1 : 등분산성을 만족하지 않는다.
- Levene의 등분산 검정 결과, 유의확률이 0.05보다 크므로 등분산을 만족한다.
“등분산이 가정됨” 셀을 살펴보면 t-검정의 유의확률이 0.194로 0.05보다 크므로
귀무가설을 채택됨 : 성별에 따른 스트레스는 통계적으로 유의한 차이가 없다.
SPSS
▣ 결과 정리
NO
프로세스
1
연구 예제
2
Data의 특성 파악
3
분석방법의 결정
4
기본 가정 검토
5
결과 해석
6
결론
결과 정리
성별에 따라서 스트레스 정도는 차이가 있는가?
독립변수 : 성별
종속변수 : 스트레스 정도
짝을 이루었는가? ☞ No
독립변수 : 범주형 변수 (수준 2)
종속변수 : 연속형 변수
☞ 독립표본 t-검정
정규성 ☞ 만족 O
등분산성 ☞ 만족 O(Levene의 등분산 검정)
P=0.1 94 〉0.05
☞ 귀무가설 채택
성별에 따라서 스트레스 정도는 통계적으로 유의한 차이가
없는 것으로 나타났다.
SPSS
▣ 연습하기
예제 : 16명을 대상으로 다이어트 연구자료를 이용하여 성별에 따른 최초 중성지방과
최초 체중의 차이가 통계적으로 유의한지 검정하여라?(다이어트 연구.sav)
독립변수 : 성별(명목변수)
종속변수 : 최초 중성지방, 최초 체중(연속형 변수)
분석실시
1. 정규성 검정 실시
2. 독립표본 t-검정 실시
3. 분석결과 확인
SPSS
▣ 연습문제 결과 정리
NO
프로세스
1
연구 예제
2
Data의 특성 파악
3
분석방법의 결정
4
기본 가정 검토
5
결과 해석
6
결론
결과 정리
성별에 따라서 최초 중성지방과 최초체중은 차이가 있는가?
독립변수 : 성별
종속변수 : 최초 중성지방 최초체중
짝을 이루었는가? ☞ No
독립변수 : 범주형 변수 (수준 2)
종속변수 : 연속형 변수
☞ 독립표본 t-검정
정규성 ☞ 만족 O
등분산성 ☞ 만족 O(Levene의 등분산 검정)
최초 중성지방 P=0.1 72 〉0.05 ☞ 귀무가설 채택
최초 체중 P=0.000 〈 0.05 ☞ 귀무가설 기각
성별에 따라서 최초 중성지방은 통계적으로 유의한 차이가
없는 것으로 나타났고, 최초 체중은 통계적으로 유의한 차이
가 있는 것으로 나타났다.
SPSS
대응표본 t검정(Paired t-test)은 실험 이전의 집단과 실험 이후의 집단이 동일한 집단인 경우 사용하는 검정으
로, 한 개인이 서로 다른 두 조건에서 짝을 지어 한 쌍의 연구 대상이 되는 경우의 분석 방법이다.
▣ 기본 가정
한 개의 case에 2개의 값을 입력한 경우
(1) 정규성
• 독립 변수에 다른 종속변수는 정규분포를 만족해야 한다.
☞SPSS Statistics의 [데이터 탐색] 메뉴에서 확인 가능하다.
• Data가 대표본(일반적으로, 30개 이상)이면 대표본 근사(중심극한정리)에 의해 정규성을 만족한다.
▣ 가설 수립
• c
c
• 귀무가설(H0) : 독립변수(인자)에 따라 종속변수(특성값)는
같다.
• 대립가설(H1) : 독립변수(인자)에 따라 종속변수(특성값)는 다르다.
▣ 예시
• 휘발유 첨가제를 사용하기 전과 후의 자동차 주행거리에 차이가 있는가?
• 다이어트 약품 복용 전과 후의 몸무게의 차이가 있는가?
SPSS
예제 : 한 회사에서는 매년 사원들을 대상으로 실시하는 정규 컴퓨터 교육이 업무 효율성을 증진시키는 효과가
있는지를 판단하고자 16명의 사원을 대상으로 정규 컴퓨터 교육을 실시한 후 각 사원에 대해 교육 전과 교육 후
의 업무 효율성을 측정하였다. 정규 컴퓨터 교육이 업무 효율성을 증진시키는 효과가 있는가?(T_예제 2.sav)
데이터 설명
SPSS 프로시저 - 변수계산
T_예제 1. sav
전체 16개의 케이스, 2개 필드
교육 전(연속형 변수)
교육 후(연속형 변수)
데이터 입력 구조 중요 !
• c
SPSS 대화상자
SPSS 데이터 보기
SPSS
SPSS 프로시저 – 정규성 검정
SPSS 프로시저 - 변수계산
• c
SPSS 교차분석 대화상자
검정과 함께
정규성 도표:
정규성 검정
통계량을 확인
하기 위해
정규성 도표에
체크한다.
대응 표본 t-검정은 동일 표본에서의
차이를 보는 것이기 때문에
“ 정규성 검정” 시 반드시
“차이”에 대한 검정을 실시해야 함
SPSS
대응표본 t- 검정 결과
정규성 가정 검토
- 정규성 가정을 만족하는 지 검토하기 위해
Shapiro-Wilk의 유의확률을 확인한 결과,
유의확률이 0.05 보다 크므로 귀무가설 채택
- 따라서 모수적 방법인 대응표본 t-검정 사용이 가
능
SPSS 프로시저 - 대응표본 t- 검정
SPSS 대화상자
SPSS
대응표본 t- 검정 결과
1. 대응 표본 통계량
- 교육 전과 교육 후 업무능력 평균과 표준
편차 및 표준오차의 통계량을 나타낸다.
2. 대응표본 상관계수
- 교육 전과 후의 업무능력의 상관관계를 봄
- 유의확률이 0.001로 0.05 보다 작기 때문에
교육 전과 후의 업무능력은 서로 상관이 있다.
(상관분석에서 자세히!!)
3. 대응표본 검정
- 유의확률이 0.473로 0.05 보다 크기 때문에
귀무가설 채택
- 교육 전과 후의 업무능력에는 유의한 차이가
없다.
SPSS
▣ 결과 정리
NO
프로세스
1
연구 예제
2
3
Data의 특성 파악
분석방법의 결정
결과 정리
교육 전과 후의 업무능력에는 유의한 차이가 있는가?
독립변수 : 교육 전, 교육 후
종속변수 : 업무능력
짝을 이루었는가? ☞ Yes
독립변수 : 범주형 변수 (수준 2)
종속변수 : 연속형 변수
☞ 대응표본 t-검정
4
기본 가정 검토
정규성 ☞ 만족 O
5
결과 해석
P=0.473 〉0.05
6
결론
☞ 귀무가설 채택
교육 전과 후의 업무능력은 통계적으로 유의한 차이가
없는 것으로 나타났다.
SPSS
▣ 연습하기
예제 : 실험대상자 16명에게 다이어트 약을 일정기간 동안 복용시키고 규칙적으로 중성지방
과 몸무게를 측정하였다. 실험대상자의 최초 측정한 값과 일정기간이 지난 최종 측정값을 기
준으로 다이어트 약은 효과가 있다고 할 수 있는지 검정하여라.(다이어트 연구.sav)
독립변수 : 다이어트 약 복용 전, 후(범주형 변수)
종속변수 : 중성지방, 체중(연속형 변수)
분석실시
1. 정규성 검정 실시 (중성지방 차이, 체중 차이 = 변수 계산 필요)
2. 대응표본 t-검정 실시 (중성지방, 체중)
3. 분석결과 확인
SPSS
▣ 연습하기 – 결과 확인하기
정규성 검정 결과 ☞
정규성 ☞ 만족 O
대응표본 t-검정
결과 ☞
중성지방 P=0.249 〉0.05 ☞ 귀무가설 채
택
체중 p=0.000 〈 0.05 ☞ 귀무가설 기각
SPSS
▣ Reviw
NO
프로세스
결과 정리
1
Data의 특성 파악
2
가설 설정
3
짝을 이루었는지
짝을 이루지 않으면 ☞ 독립표본 t-검정
짝을 이루면 ☞ 대응 표본 t-검정
4
정규성 가정 검토
정규성을 만족하면 ☞ t- 검정
정규성을 만족하지 않으면 ☞ Mann-Whitney 검정, Wilcoxon 검정
종속변수 / 독립변수 : 명목, 서열, 등비 중에서 어느 것인가?
H0 : 독립변수에 따라 종속변수는 같다.
H1 : 독립변수에 따라 종속변수는 다르다.
5
등분산성 가정 검토
등분산을 만족하면 “등분산이 가정됨” 줄의 통계량 검정
등분산을 만족하지 않으면 “등분산이 가정되지 않음” 줄의 통계량 검정
** 대응 표본 t-검정이나 비모수 검정에서는 불필요함
6
분석 수행
1-5단계에서 얻어진 결론을 가지고 최종분석방법을 선택하고 분석한다.
7
결과 해석
6단계에서 얻어진 p값을 보고 2개의 가설 중 하나를 선택한다.
8
최종 결론 도출
SPSS
Exercise 1. 20개의 점포를 무작위로 10개씩 두 개의 집단으로 나눈 후 한 집단에는 적색포장만, 다른 한 집
단에는 청색 포장만 진열하였다. 포장 색상별로 판매량에 차이가 있는지, 포장에 대한 판매효과에 차이가 있
는지 검정하여라.(쿠키. Sav)
NO
프로세스
1
연구 예제
2
3
Data의 특성 파악
분석방법의 결정
결과 정리
독립변수 : 교육 전, 교육 후
종속변수 : 업무능력
짝을 이루었는가?
독립변수 : 범주형 변수 (수준의 수: )
종속변수 : 연속형 변수
☞
4
기본 가정 검토
5
결과 해석
6
결론
독립표본 t-검정
정규성 ☞
등분산성 ☞
P=0.
0.05 ☞ 귀무가설 채택/ 기각
SPSS
Exercise 2. 8명에게 다이어트 프로그램을 한 달 동안 시행한 결과로, 처음 시작할 때와 한달 후 다이어트
프로그램이 끝났을 때의 체중을 측정하였다. 프로그램 참여 전/후 체중에 차이가 있는지 검정하여라.
(다이어트_1. Sav)
NO
프로세스
1
연구 예제
2
3
Data의 특성 파악
분석방법의 결정
결과 정리
독립변수 : 교육 전, 교육 후
종속변수 : 업무능력
짝을 이루었는가?
독립변수 : 범주형 변수 (수준의 수: )
종속변수 : 연속형 변수
☞
4
기본 가정 검토
5
결과 해석
6
결론
Wilcoxon 부호 순위검정
정규성 검정 ☞
P=0.
0.05 ☞ 귀무가설 채택/ 기각
분산분석(ANOVA)
SPSS
▣
통계분석 기법의 선택
연속형
없음
1개
One sample
t-test
범주형
Yes
Paired
t-test
수준
3이상
독립변수
연속형
범주형
(1개)
종속변수
이분
명목
명목,서열(2수준) (3수준 이상)
No
Covariate
서열
(3수준 이상)
GLM
회귀분석
(Covariate) (Dummy)
Y
t-test
Wilcoxon
검정
독립변수
Yes
cc
정규성
N
연속형 or
변수 2개 이상
2개이상
범주형
No
짝
정규성
Y
연속형
독립변수
2
독립변수의
개수?
범주형
종속변수
N Y
정규성
One-Way
ANOVA
(F-test)
MannWhitney
검정
N
단순
회귀분석
KruskalWallis
검정
Two-Way
ANOVA
(F-test)
다중 카이제곱검정
회귀분석 +대응일치분석
순서형
Logistic 회귀
이분형(이항)
Logistic 회귀
다항
Logistic 회귀
SPSS
- 분산분석은 3개 이상의 범주를 갖는 독립변수에 대한 종속변수의 평균 차이를 검정하는
분석 방법이다. 하나의 독립변수와 하나의 종속변수를 기준으로 일원배치분산분석이라고 함
▣ 기본 가정
(1) 독립성
• 독립변수의 그룹군은 서로 독립적이어야 한다.
(2) 정규성
• 독립 변수에 다른 종속변수는 정규분포를 만족해야 한다.
(☞ SPSS Statistics의 [데이터 탐색] 메뉴에서 확인 가능)
• Data가 대표본(일반적으로, 30개 이상)이면 대표본 근사(중심극한정리)에 의해 정규성을 만족한다.
• c
(3) 등분산성
• 독립 변수에 따른 종속변수 분포의 분산은 각 군 마다 동일해야 한다.
▣ 가설 수립
• 귀무가설(H0) : 독립변수(인자)에 따라 종속변수(특성값)는 같다.
• 대립가설(H1) : 독립변수(인자)에 따라 종속변수(특성값)는 적어도 하나는 다르다.
SPSS
예제 : 자동차 종류에 따라 연비가 서로 다른지 알기 위해 동급의 자동차 4종류에 대해 1리터 당
주행거리를 측정하였다. 자동차에 따라 연비가 서로 다르다고 할 수 있는지 검정하여라.
(자동차 연비.sav)
SPSS 대화상자
SPSS 프로시저 – 정규성 검정
• c
1.
정규성 가정 검토
정규성 가정을 만족하는 지 검토하기 위해
Shapiro-Wilk의 유의확률을 확인한 결과,
유의확률이 0.05 보다 크므로 귀무가설 채택
- 따라서 모수적 방법인 분산분석 사용이 가능
SPSS
SPSS 프로시저 – 분산분석
옵션 대화상자
SPSS 대화상자
• c
사후분석 대화상자
기술통계 : 케이스 수, 평균,
표준편차, 표준오차, 신뢰구간
등 통계량 값이 출력된다.
등분산
분산 동질성 검정 : 집단 간
분산의 동질성 여부를 검정
하는 것으로 Levene의
통계량을 계산한다.
따라
가정
여부에
선택할 수
있다.
SPSS
분산분석 검정 결과
기술통계
- 자동차 종류에 따라서 연비의 평균, 신뢰구간, 최소값,
최대값 등의 기술통계량이 출력된다.
등분산성 검정
H0 : 등분산성을 만족한다. (p값이 0.05 보다 커야 한다.)
H1 : 등분산성을 만족하지 않는다.
- Levene의 등분산 검정 결과, 유의확률이 0.05보다
크므로 등분산을 만족한다.
분산분석표
1) 가설설정
- 귀무가설 : 자동차 종류에 따라 연비는 차이가 없다.
- 대립가설 : 적어도 하나는 다르다.
2) 가설 검정
- 연비의 유의확률은 0.000으로 유의수준 0.05 보다
작기 때문에 귀무가설이 기각됨
- 자동차의 종류에 따라 연비는 유의한 차이가 있다.
SPSS
등분산 가정 하에서 사후검정 결과
사후검정
- Spss 통계분석에서 가장 많이 사용되는 다중비교
방법은 Duncan, Tukey, Scheffe의 방법이다.
- Duncan이 가장 개방적인 결과가 나타나므로
연구자가 선호하는 경향이 있으며, Scheffe의
방법이 가장 보수적이다.
Tukey, Scheffe의 방법으로 사후 검증한 결과
- 외제차인 Benz와 BMW와 국산차인 토스카와
소나타 사이에서 수준의 차이가 있음을 확인할 수
있었다.
- 평균 연비로 보았을 경우, 국산차의 연비가 외제차
보다 높게 나타나 더 좋음을 알 수 있었다.
SPSS
▣ 결과 정리
NO
프로세스
결과 정리
1
연구 예제
자동차 종류별 연비에 차이가 있는가?
2
Data의 특성 파악
3
분석방법의 결정
4
기본 가정 검토
5
결과 해석
6
결론
독립변수 : 자동차 종류
종속변수 : 연비
독립변수 : 범주형 변수 (수준 4)
종속변수 : 연속형 변수
☞ 일원배치 분산분석
정규성 ☞ 만족 O
등분산성 ☞ 만족 O
P=0.000 〈 0.05 ☞ 귀무가설 기각, 대립가설 채택
분산분석 : 자동차 종류에 따라 연비는 유의한 차이가 있다.
사후검정 : 국산차와 외제차의 연비는 유의한 차이가 있다.
SPSS
▣ Review
One – Way ANOVA : 3개 이상의 집단 간의 차이를 비교하는 분석
• 등분산성을 만족하지 않으면
Welch나 brown-forsythe 검정
상세 내용
을
실시해야 함
종속변수/독립변수 : 명목, 서열, 등비 중에서 어느 것인가?
-결과해석은 ‘sig.’의 점수가
H0 : 독립변수에 따라 종속변수는 같다.
0.05보다 작으면 유의한 차이가
H1 : 적어도 하나는 다르다.
있 다고 봄
- 또한 사후분석도 ‘등분산이
정규성을 만족하면 ☞ One – Way ANOVA
정규성을 만족하지 않으면 ☞ 비모수 통계 검정(Kruskal-Wallis
검정) 부분에서 결정
가정되지 않음’
(Data의 수가 30개 이상이면 대표본 근사에 의해 정규성을
만족한다.)
해야 함(Dunette
T3 등)
• c
NO
프로세스
1
Data의 특성을 파악한다.
2
가설을 설정한다.
3
정규성 가정을 검토한다.
4
등분산성 가정을 검토한
다.
5
분석을 수행한다.
1~4단계에서 얻어진 결론으로 최종 분석 방법을 선택하고 분석한다.
6
결과를 해석한다.
5단계에서 얻어진 P 값을 보고 2개의 가설 중 하나를 선택한다.
** 사후검정 : 결과가 유의한 차이가 있다고 판단되는 경우, “독립변수의 범주
(수준)사이에 유의한 차이가 있는가?”에 대해 추가적으로 비교하여 결정한다.
7
최종 결론을 도출한다.
c
등분산성을 만족하면 ☞ One – Way ANOVA
등분산성을 만족하지 않으면 ☞ Weich
** 비모수 통계 검정에서는 필요 없는 가정이다.!!
SPSS
▣ Exercise 1. 4가지 교육방법의 효과를 비교분석 하기 위하여 학생 40명을 무작위로 10명씩 4개 집단
으로
나누고 한 학기 동안 각 교육방법으로 교육을 시킨 후에 치른 학기말 시험성적을 조사하였다.
4가지 교육방법의 효과가 다르다고 할 수 있는지를 검정하여라.(성적.sav)
NO
프로세스
1
연구 예제
2
Data의 특성 파악
3
분석방법의 결정
4
기본 가정 검토
5
결과 해석
6
결론
결과 정리
교육방법에 따라 교육효과에 차이가 있는가?
독립변수 : 교육방법
종속변수 : 교육효과
독립변수 : 범주형 변수 (4수준 )
종속변수 : 연속형 변수
☞
일원배치 분산분석
정규성 ☞ 만족
등분산성 ☞
P=
0.028
분산분석 :
사후검정 :
만족
(〈
) 0.05 ☞
귀무가설 기각
교육방법에 따라 유의한 차이가 있다.
교육방법 3과 4는 유의한 차이가 있다.
SPSS
SPSS
SPSS
ANOVA와 사후검정 결과에 차이가 있을 때
이런 경우에는
사후분석 결과를
무시한다.
ANOVA와 사후검정 결과에 차이가 있을 때
SPSS
ANOVA와 사후검정 결과에 차이가 있을 때
SPSS
ANOVA와 사후검정 결과에 차이가 있을 때
SPSS
ANOVA와 사후검정 결과에 차이가 있을 때
SPSS
상관분석
상관분석(Correlation Analysis)
편상관분석 (Partial Correlation Analysis)
SPSS
- 상관분석은 연속변수로 측정된 두 변수 간의 선형관계가 있는지 탐색 및 확인하는 분석방법으로, 이 분석에서
구해지는 상관계수는 두 변수 간의 직선적인 연관성의 정도를 나타낸다. 즉, 한 변수가 증가하면 다른 한 변수
도 직선적으로 증가 또는 감소하는지를 나타내는 것이다.
▣ 기본 가정
(1) 선형성
• 데이터 탐색을 통해 연속형 두 변수 간에는 선형적인 관계가 있어야 한다.
☞ 상관분석을 실시하기 전에 반드시 두 변수 간의 산점도를 그리는 것은 필수적인
프로세스로 SPSS 프로그램의 〔그래프〕-〔산점도〕 메뉴에서 확인 가능하다.
▣ 가설 수립
• cc
• 귀무가설(H0) : 두 변수 간에는 (선형적인) 관계가 없다.
• 대립가설(H1) : 두 변수 간에는 (선형적인) 관계가 없다.
▣ 예시
• 혈중 중성지방 수치와 콜레스테롤 수치의 관련성이 있는가?
• 간 기능 수치들 간의 관련성이 있는가?
SPSS
- 상관계수는 선형적인 관계만 알 수 있을 뿐 곡선의 관계는 알 수 없으므로 관계의 정도만을 제시하고,
기울기는 상관분석의 관심의 대상이 아니며, 회귀분석으로 확대해야 한다.
▣ 상관계수(R)
상관계수 R은 -1부터 1까지의 값을 가진
다.
• cc
양의 상관 : X가 커지면 Y도 커진다.
음의 상관 : X가 커지면 Y도 작아진다.
무상관 : X와 Y는 선형적인 관계가 없다.
R = 1, -1 : 완벽한 직선의 관계이다.
상관계수 R의 제곱은 결정계수이다.(R2)
SPSS
-1≤R≤1
• R = 0.1(small)
• c
c
• R = 0.29(medium)
• R = 0.46(large)
= Cohen의 주장
SPSS
• 예제 : 190명을 대상으로 측정한 건강검진 자료를 이용하여 간 기능 수치인 GOT, GPT, 감마
GTP
수치가 서로 관련성이 있는지 산점도를 통해 탐색한 후, 상관분석을 수행하여라.(검진.sav)
데이터 설명
분석 데이터 셋
전체 190개의 케이스, 19개 필드
기본정보 : 성별(1: 남, 2: 여), 연령, 신장, 체중
혈중의 지방 수치 정보 : 중성지방, 콜레스테롤
간 기능 관련 검사 정보
: GOT, GPT, 감마 GTP, 간염항원, 간염항체
SPSS 대화상자 - 산점도
• cc
SPSS 대화상자 - 산점도
SPSS
행렬 산점도 및 상관분석 결과
행렬 산점도
- 행렬 산점도는 상관분석과 회구분석을 수행하기 전에
전체적인 데이터의 상관 관계 구조를 한 번에 파악하고자
할 때 사용하는 그래프로, 대각선을 중심으로 위, 아래의
그래프는 같은 그래프이므로 한 쪽의 그래프만 해석하면
된다.
- 간 기능 수치인 GOT, GPT, 감마 GTP 사이에는
전체적으로 선형적인 상관관계가 높음을 한 눈에 알 수 있다.
SPSS
1. SPSS 프로시저 - 상관분석
3. SPSS 옵션 대화상자
2. SPSS 대화상자
SPSS
행렬 산점도 및 상관분석 결과
기술통계
- 검정하고자 하는 간 기능 수치의 세 변수에 대해 각 평균
및 표준편차가 요약 통계량으로 출력된다.
상관계수
- 상관계수 값은 아래의 순서대로 출력된다.
상관계수
P값
Data의 수
GOT - GPT, GOT – 감마 GTP, GPT – 감마 GTP 간의
유의확률(p값)은 모두 0.000으로 귀무가설을 기각하므로
각각의 변수 간에는 관련성이 있다는 결론을 내리게 된다.
- 그 중에서도 GOT – GPT의 상관계수는 0.789로 강한 양
의
상관관계가 있음을 알 수 있다.
SPSS
▣ Review
상관분석 : 연속형 변수 사이의 선형 관계의 정도를 규명하는 분석
NO
프로세스
상세 내용
1
Data의 특성을 파악한다.
2
가설을 설정한다.
3
Matrix plot이나 plot의
그래프를 그려본다.
4
분석을 수행한다.
1~3단계에서 얻어진 결론으로 최종 분석 방법을 선택하고 분석한다.
5
결과를 해석한다.
결과로 얻어진 P 값을 보고 상관관계가 있는 변수의 쌍을 선택하여 정리한다.
그 쌍들의 상관계수를 확인하고 정리하고, 상관계수의 절대값이 높은 변수들에 대
하여 참고한다.
관계의 정도(양의 상관, 음의 상관, 무상관, 완벽한 직선 관계 등)을 해석한다.
6
최종 결론을 도출한다.
종속변수/독립변수 : 명목, 서열, 등비 중에서 어느 것인가?
☞ 모두 ‘등비’여야 한다.
• H0 : 두 변수 간에는 선형적인 관계가 없다.
• H1 : 두 변수 간에는 선형적인 관계가 없다.
• c
상관분석은 선형적인c관계를 규명하는 것이므로 선형적인 관계가 아니면
분석의 의미가 없다.
SPSS
- 편상관분석은 제 3의 변수를 통제한 상태에서 두 변수 간의 선형관계가 있는지 확인하는 분석방법 이
다.
▣ 기본 가정
• 기본 가정은 Pearson의 상관관계와 동일하다.
• 데이터 탐색을 통해 연속형 두 변수 간에 선형적인 관계가 있어야 한다.
▣ 관련 용어
• cc
• 제어변수(control variable) : 두 개의 변수 X와 Y에 영향을 미치는 변수
• 0차 상관 : 제어변수가 없는 편상관계수. 일반적으로 상관계수를 의미함
SPSS
• 예제 : 1인당 GDP를 통제하였을 때, 인구 천명당 출생률과 사망률 간의 상관관계가 있는가?
(World 95 for Missing Values.sav)
데이터 설명
분석 데이터 셋
전체 109개의 케이스, 46개 필드
인구 천명당 출생률 : 출생률(연속형 필드)
인구 천명당 사망률: 사망률(연속형 필드)
1인당 GDP의 10로그 변환
: log_gdp (연속형 필드)
SPSS 대화상자 - 산점도
• cc
SPSS 대화상자 – 산점도 행렬
SPSS
행렬 산점도 및 상관분석 결과
행렬 산점도
- 행렬 산점도는 상관분석과 회구분석을 수행하기 전에
전체적인 데이터의 상관 관계 구조를 한 번에 파악하고자
할 때 사용하는 그래프로, 대각선을 중심으로 위, 아래의
그래프는 같은 그래프이므로 한 쪽의 그래프만 해석하면
된다.
- 출생률, 사망률, 1인당 GDP의 10로그 변환 사이에는
전체적으로 선형적인 상관관계가 있음을 알 수 있다.
SPSS
1. SPSS 프로시저 - 상관분석
3. SPSS 옵션 대화상자
2. SPSS 대화상자 - 편상관계수
SPSS
행렬 산점도 및 상관분석 결과
기술통계
- 검정하고자 하는 각 변수에 대해
평균 및 표준편차가 요약 통계량으로 출력된다.
상관계수
- 지정 않음 : 0차 상관을 선택한 결과, 즉 통제변수를 지정
하지 않은 일반적인 상관계수를 의미함
- 통제변수를 지정하지 않은 상태에서 인구천명 당 출생률과
사망률 간의 상관계수는 0.367로 나타났다. 유의확률도
0.000을 보여 통계적으로 유의한 것으로 나타났다.
1인당 GDP의 10로그 변환 변수를 통제한 상태에서,
- 인구천명 당 출생률과 사망률 간의 편상관계수를 살펴본
결과, 0.1 00의 상관을 보였으나, 유의확률이 0.304로
유의하지 않게 나타났다.
회귀분석
단순회귀분석
다중회귀분석
SPSS
두 변수 사이의 관계와 설명과 예측
- 연령에 따라 스트레스는 관계가 있는가?
- 강수량과 교통사고 횟수에는 관계가 있는가?
• 독립변수와 종속변수가 모두 등비이고, 두 변수 사이의 관계와 설명과 예측
▣ 기본 가정
• Data : 정규성, 등분산성 → 실제적으로 확인이 어렵다.
• 잔 차 : 정규성, 등분산성 → 모형의 적합성을 판별할 수 있다.
• 잔차 : 예측값과 관측값의 차이
• 오차 : 관측값과 실제값의 차이
• 편차 : 관측값과 평균의 차이
▣ 가설 수립
• 귀무가설(H0) : β1 = 0 (선형 회귀모형이 존재하지 않는다)
c
• c
• 대립가설(H1) : β1 ≠ 0 (선형 회귀모형이 존재한다) → 독립변수와 종속변수가 직선의 관계가 있다.
▣ 특징
• 회귀분석은 선형적인 관계를 직선의 식으로 표현한 것, 직선의 관계가 아닌 곡선의 관계가 있을 때에는
비선형 회귀분석을 실시해야 함
• y = β0 + β1x + εi = 절편 + 기울기 + 잔차
: 여기서 중요한 것은 기울기이다.
SPSS
잔차의 등분산성 :
- 어떤 통계모형에서 정의된 잔차(오차)항의 분산이
독립변수나 예측변수의 각 관찰값에서 동일한 값
1. SPSS 프로시저 - 상관분석
을 보이는 성질을 등분산성(等分散性)이라고 함.
- 회귀분석에서의 등분산성은 예측변수(보통은 X)의
값에 대응하는 종속변수(Y)의 분산이, 예측변수의
모든 값에 대해서 같을 것을 의미한다.
잔차의 등분산성
그래프는 통계적인
모형의 적합성을
판별해 주는 도구이다.
잔차
SPSS
결정계수 R2
- 상관계수의 제곱, data의 분산비
- 회귀식이 자료를 얼마나 잘 설명하고 있는지를 나타내는 계수
-1.
R2SPSS
〉 0.65
: 회귀식이
자료를 설명하는 데 좋다.
프로시저
- 상관분석
수정된 결정계수 adj.R2
- 독립변수와 데이터의 수를 고려한 결정계수
- R2과 adj.R2의 차이가 작을수록 좋다.
상관관계가 높으면 그래프이 폭이 좁고 결정계수가 증가한다.
- 잔차가 높으면 상관관계가 낮아지고 결정계수도 낮아진다.
이상값 판별
- 저장된 통계량의 절대값이
• 표준화된 잔차 〉 3
• 표준화된 Cook 〉 1
• 표준화된 DFITS 〉 2 또는 다른 값들에 비해 상대적으로 크면(2배 정도) 의심
SPSS
표준화잔차(studentized residual)
: 잔차는 오차 와는 달리 분산이 서로 다를 뿐만 아니라 서로 독립적이지도 않으
며 특히 표본의 크기에 의존하는 성질을 가지고 있다. 따라서 이러한 단점을 부분
적으로
보완한
것 - 상관분석
1. SPSS
프로시저
자기상관(autocorrelation) 함수
: 시간의 진행에 따른 자기 상관의 정도를 나타내는 함수
: 오차항의 독립성을 검토하기 위해 주로 사용하는 것으로
더빈-왓슨(Durbin-Watson) 통계량을 사용하여 평가함
SPSS
1. SPSS 프로시저 - 상관분석
SPSS
- 예제 : 다음 data는 어떤 기계의 사용빈도와 그 기계의 수리비용이다. 사용빈도가 기계의 수리비용에
영향을 주는가?(reg_예제 1)
1. SPSS 프로시저 - 상관분석
종속변수 : 기계의 수리비용 – 등비
독립변수 : 기계의 사용빈도 – 등비
직선의 관계가 있는가? 그래프를 이용하여 확인
분석방법 : 회귀분석
분석순서 : Graph – 잔차검정 – 이상값 - 분석
SPSS
그래프 – 산점도 - 단순산점도
1. SPSS 프로시저 - 상관분석
선형성 확인
이상값
SPSS
도표 두 번
클릭 후 활성화
1. SPSS 프로시저 - 상관분석
이상 값 확인
- 11번 데이터라는
뜻
SPSS
분석 – 회귀분석 -선형
독립변수 : 사용빈도, 종속변수 : 수리비
용
SPSS
잔차를 저장한다.
→ 이상 값과 잔차의 정규성 확인
이상값 판별
- 저장된 통계량의 절대값이
• 표준화된 잔차 〉 ± 3
• 표준화된 Cook 〉 1
• 표준화된 DFITS 〉 2
또는 다른 값들에 비해 상대적으로 크면
(2배 정도) 의심
SPSS
X : 표준화된 예측값
Y : 표준화된 잔차
자기상관 확인
SPSS
11번 데이터
: 기준 값을 넘지는 않으나 다른
값들에 비해 월등히 크다.
→ 이상 값
SPSS
여러가지 내용으로 보아 11번째
data가 이상 값으로 판명됨
→ 제거 후 다시 분석
분석 – 기술통계량 – 데이터
탐색 – 종속변수 삽입(ZRE)
- 확인
P = 0.618 〉0.05
→ 잔차의 정규성 만족
SPSS
11번 데이터 제거 후의 그래프
잔차의 등분산 인정
P = 0.859 〉0.05
→ 잔차의 정규성 만족
SPSS
P = 0.000 < 0.05
→ H1
(기울기가 0이 아니다)
11번 데이터 제거 전
제거 후에 설명율이 16% 정도
상승하고, DW 값도 좋아짐
11번 데이터 제거 후
SPSS
회귀 모형 :
수리비용 = -16.065 + 0.074(사용빈도)
: X가 1 커질 때, Y가
0.074
커진다는 뜻
• 잔차의 정규성, 등분산성 : 모두 만족(회귀모형 적합)
• 회귀모형 분석 : P = 0.000 < 0.05 → H1(기울기가 0이 아니다)
• 설명률 : 41.1%
• 회귀식 : 수리비용 = -16.065 + 0.074(사용빈도)
• 사용빈도가 1번 늘어나면 수리비용은 0.074 정도 올라가면, 사용빈도
가 수리비용을 설명할 수 있는 비율은 41.1% 이다.
SPSS
B
SE
Constant
16.065
8.662
사용횟수
0.074
0.016
= .432
β
0.657
F = 20.531
t
p
1.855
0.075
4.531
0.000
p=0.000
기계의 시용횟수가 수리비용에 미치는 영향을 알아보기 위하여 회귀분석을
실시한 결과, 1개의 데이터가 이상 값으로 판정이 되어, 이상 값을 제외한 후
회귀분석을 실시하였다. 기계의 사용횟수는 수리비용에 유의한 영향을 주는
것으로 나타났다(p=0.000<0.005)
기계의 사용횟수가 많아질수록 수리비용이 높아지는 것으로 나타났으며,
기계의 사용횟수가 수리비용을 설명할 수 있는 설명력은 43.2%로 나타났다.
SPSS
단순 회귀분석 : 독립 변수, 종속 변수가 모두 등비이고, 두 변수간의 관계와 설명, 예측
- 기본가정 : Data : 선형성
잔차 : 정규성, 등분산성 → 모형의 적합성을 판별할 수 있다.
– 가
설 : H0 : β1= 0 (선형 회귀모형이 존재하지 않는다)
H1 : β1≠ 0 (선형 회귀모형이 존재한다)
– 독립변수와 종속변수가 직선의 관계가 있다.
– 이상값의 확인
: 표준화된 잔차, Cook, DFITS
– 독립변수의 설명력
: 수정된 결정계수
– Dummy 변수의 사용
: ANOVA와 Plot
– 회귀모형의 적합성 여부
: 잔차의 정규성, 등분산성
– 종속변수
: 등비
– 독립변수
: 등비
SPSS
분석 순서:
1. Data의 특성을 파악한다.
종속, 독립 변수 : 명목, 서열, 등비 중 어느 것인가?
2. Dummy 변수의 여부를 판별한다.
ANOVA와 그룹화 된 Plot
3. 이상 값을 판별한다.
표준화된 잔차, Cook, DFITS, DFBETA
4. 정규성, 등분산 검정을 한다.
회귀분석 모형의 적합성을 판별한다.
5. 분석을 한다.
1-4단계에서 얻어진 결론으로 최종 분석 방법을 선택하고 분석한다.
6. 결과를 해석한다.
P값, 수정된 결정계수, 회귀식을 정리하고
결과로 얻어진 P값을 보고 가설하고 선택한다.
나머지 통계량들에 대하여 해석을 한다.
7.결론을 내린다.
SPSS
독립변수가 여러 개인 회귀분석
- 연령과 스트레스의 정도는 삶의 만족도에 영향이 있는가?
- 전산교육, 통계교육, 회사 만족도는 업무 능력 향상에 기여를 하는가?
• 독립변수와 종속변수가 모두 등비이고, 변수 사이의 관계와 설명과 예측
▣ 기본 가정
• Data : 선형성, 정규성, 등분산성 → 실제적으로 확인이 어렵다.
• 잔 차 : 정규성, 등분산성 → 모형의 적합성을 판별할 수 있다.
▣ 가설 수립
• 귀무가설(H0) : β1 = β2 =… βn = 0 (선형 회귀모형이c존재하지 않는다)
• c
• 대립가설(H1) : 적어도 하나의 회귀계수는 0이 아니다(선형 회귀모형이 존재한다)
→ 독립변수와 종속변수가 직선의 관계가 있다.
▣ 특징
• 회귀분석은 선형적인 관계를 직선의 식으로 표현한 것, 직선의 관계가 아닌 곡선의 관계가 있을 때에는
비선형 회귀분석을 실시해야 함
• 회귀식 : y = β0 + β1x
1
+ β2x
2
+ … + βnx
n
+ εi = 절편 + 기울기 + 잔차
SPSS
다중공선성 (Multicollinearity) :
- 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 것.
- 회귀분석의 전제 가정을 위배하는 것이므로 적절한 회귀분석을 위해 해결해야 하는
문제가 됨.
진단법
- 결정계수 R2값은 높아 회귀식의 설명력은 높지만 식 안의 독립변수의 P-value값이 커
서
개별 인자들이 유의하지 않는 경우가 있다. 이런 경우 독립변수들 간에 높은 상관관계가
있다고 의심된다.
- 독립변수들간의 상관계수를 구한다.
- 분산팽창요인(Variance Inflation Factor, VIF)를 구하여 이 값이 10을 넘는다면
보통 다중공선성의 문제가 있다.
해결법
- 상관관계가 높은 독립변수 중 하나 혹은 일부를 제거한다.
- 변수를 변형시키거나 새로운 관측치를 이용한다.
- 자료를 수집하는 현장의 상황을 보아 상관관계의 이유를 파악하여 해결한다.
SPSS
다중 공선성 의 발생 원인
1. 잘못된 자료 수집과정, 모집단 모든 모형에서의 제한 사항
2. Data의 수에 비해 과다한 독립변수의 사용
다중 공선성 이 의심되는 경우
1 .독립변수들의 상관계수가 크게 나타난다.
2. 한 독립변수를 회귀모형에 추가하거나 제거하는 것이 회귀계수의 크기나 부호에 큰 변화를 줄 때
3. 새로운 Data를 추가하거나 기존의 Data를 제거하는 것이 회귀계수의 크기나 부호에 큰 변화를 줄 때
4. 중요하다고 생각되어지는 독립변수에 대한 P값이 크게 나와 통계적 차이가 없을 때
5. 회귀계수의 부호가 과거의 경험이나 이론적인 면에서 기대되는 부호와 정반대일 때
다중 공선성 이 유발하는 문제점
1. 분산이 커진다(회귀모형의 적합성이 떨어진다.)
2. 다른 중요한 독립변수가 모형에서 제거될 가능성이 높다.
3. 결정계수의 값이 과대하게 나타날 수 있다.
SPSS
계수 a
비표준화 계수
B
모형
1
(상수)
X1
X2
X3
X4
59.595
1.662
.604
.221
-4.08E-02
공선성 통계량
유의확률
표준오차
66.865
.711
.691
.720
.677
공차한계
.454
.048
.407
.767
.953
X2, X4 : VIF > 10
그 중에서도 더 큰 VIF를
보이는 X4 제거
VIF
.026
.004
.021
.004
38.496
254.423
46.868
282.513
a. 종속변수 : Y
각 회귀계수들의 P값의
변화가 심하다
계수 a
비표준화 계수
B
모형
1
(상수)
X1
X2
X3
a. 종속변수 : Y
48.568
1.703
.646
.236
공선성 통계량
표준오차
3.726
.195
.042
.176
유의확률
공차한계
.000
.000
.000
.169
.308
.940
.318
X4 제거후의 VIF의 변화
다중 공선성의 없다.
VIF
3.251
1.064
3.142
최적 변수의 선택 방법 1
SPSS
최적 변수 선택의 목적
1. 종속변수에 대하여 영향력이 큰 독립변수를 찾는다.
2. 가능한 한 최소의 변수로 최대의 효과를 본다.
변수 선택 방법
1 .모두선택(All Selection : Enter(입력))
2. 전진선택(Forward Selection)
3. 후방제거(Backward Remove)
4. 단계선택(Stepwise)
단계별 회귀(Stepwise Regression)
1. 종속변수에 기여도가 가장 높은 변수(x1)를 선택한다.
2. 나머지 변수 중에서 새로이 회귀모형에 추가될 때 기여도가 가장 높은 변수(X2)를 선택
3. X2의 P값이 기준 값보다 작으면 모형에 추가한다.
4.새롭게 추가 또는 삭제되는 변수가 없을 때 까지 2-3을 반복한다.
SPSS
- 예제 : 다음 data는 종속변수 y를 설명하기 위한 4개의 독립변수 (X 1-4)의 자료이다.
최적변수를 선택하고 회귀식을 만들어라.(다중회귀_예제 1)
1. SPSS 프로시저 - 상관분석
종속변수 : Y – 등비
독립변수 : X 1 -4 : – 등비
직선의 관계가 있는가? 그래프를 이용하여 확인
분석방법 : 회귀분석
분석순서 : Graph – VIF – Stepwise - 잔차검정 – 분석
SPSS
1. 그래프 – 산점도 - 단순산점도
1. SPSS 프로시저 - 상관분석
다
중
공
성
성
의
심
SPSS
2. 분석 – 회귀분석 – 선형 – 통계량 - 공선성진단
X 1 -4 : 독립변수
1. SPSS 프로시저 - 상관분석
Y : 종속변수
SPSS
1. SPSS 프로시저 - 상관분석
X4 제거 후
- 모든 변수의 VIF값이
10 보다 크다.
- 가장 VIF 값이 큰 변
수
를 제거한다.
SPSS
3. 잔차
1. SPSS 프로시저 - 상관분석
의
등분산
만족
4. 정규성 검정 : 분석 – 기술통계량 – 데이터 탐색 – 종속변수 삽입(ZRE) - 확
인
P = 0.932 〉0.05
→ 잔차의 정규성 만족
SPSS
분산분석 표 - P값 : 0.000
1. SPSS 프로시저 - 상관분석
계수표
•
B값 : 회귀식에 사용
•
베타 값 : 각 변수의 영향력
•
유의확률 p값
: 통계적으로 유의한 변수(X1, X2)
•
VIF : 모두 10을 넘지 않음
모형요약 표
•
수정된 R제곱
: 모형설명력 = 97.8%
•
DW(자기상관) : 1.990으로 1.4 –
2.6 사이에 존재하여 문제가 없는
것으로 판단함
SPSS
분석 방법
독립변수 X1 –X4가 종속변수 Y에 미치는 영향은 모두선택 방법에 의한 다중회귀분석을 실
시
1. SPSS 프로시저 - 상관분석
결과
: 회귀분석을 실시하기 위하여 종속변수의 자기상관과 독립변수 간 다중공선성 검토를 한다.
Durbin-Watson 지수는 1.990 으로 나타나 자기상관이 없이 독립이며, VIF 지수를 살펴본
결과 X2 와 X4사이에 다중공선성이 발생되어 VIF 값이 가장 큰 X4를 제거한 후 독립변수
X1- X3가 종속변수 Y에 미치는 영향을 분석한다.
: 그 결과, Durbin-Watson 지수는 1.990으로 나타나 자기상관이 없이 독립이며, VIF 지수
를 살펴본 결과 1.064 ~ 3.261로 모두 10 미만으로 나타나 다중공선성이 없는 것으로 나
타나
회귀분석을 실시하기 적절하다.
SPSS
Constant
x1
1.
B
SE
48.568
3.726
SPSS 프로시저 - 1.703
상관분석
β
t
p
13.037
<.001
.195
.673
8.743
<.001
x2
.646
.042
.676
15.334
<.001
x3
.263
.175
.113
1.495
.169
adj.R2 = .978
F = 179.683
p<.001
회귀분석을 실시한 결과, X1(p<.001), X2(p<.001)은 종속변수 Y에 유의한 영향을 주
는 것으로 나타났으며, X1이 높을수록(B=1.703), X2가 높을수록(B=.646) Y가 높아지
는
것으로 드러났다. 이들 변수가 Y를 설명하는 설명력의 정도는 97.8% 이며, X2(β=.676)
회귀식 : Y = 48.568 + 1.703(X1) + 0.646(X2) +
가 가장 높은 영향을 주었다.0.263(X )
3
SPSS
다중 회귀분석(Multiple Regression) : 독립 변수, 종속 변수가 모두 등비이고 변수간의 관계와 설명, 예
측
중요한 변수가 명목이나, 서열이어도 Dummy 변수화 하여 분석가
능
1. SPSS 프로시저 - 상관분석
–
기본가정 : Data : 선형성
잔차 : 정규성, 등분산성 → 모형의 적합성을 판별할 수 있다.
–
가
설 : H0 : β1=β2= ···=βn = 0 (선형 회귀모형이 존재하지 않는다)
H1 : 적어도 하나의 회귀계수는 0이 아니다 (선형 회귀모형이 존재한다)
–
독립변수와 종속변수가 직선의 관계가 있다.
–
최적 변수의 선택
: Stepwise
–
이상값의 확이
: 표준화된 잔차, Cook, DFITS
–
인자의 설명력
: 수정된 결정계수
–
Dummy 변수의 사용
: ANOVA와 Plot
–
회귀모형의 적합성 여부
: 잔차의 정규성, 등분산성
–
종속변수(특성값)
: 등비
–
독립변수(인 자)
: 등비
SPSS
분석 순서:
1. Data의 특성을 파악한다.
종속, 독립 변수 : 명목, 서열, 등비 중 어느 것인가?
2. Dummy 변수의 여부를 판별한다.
그룹화 된 Plot
1. SPSS 프로시저 -ANOVA와
상관분석
3.다중 공선성(VIF)을 확인한다.
VIF > 10 : 다중 공선성이다.
4. 최적 변수(인자)를 선택한다.
Stepwise
5. 잔차의 정규성, 등분산 검정을 한다. 이상 값을 판별한다.
회귀분석 모형의 적합성을 판별한다.
6. 분석을 한다.
1-4단계에서 얻어진 결론으로 최종 분석 방법을 선택하고 분석한다.
7. 결과를 해석한다.
P값, 수정된 결정계수, 회귀식을 정리하고
결과로 얻어진 P값을 보고 가설하고 선택한다.
나머지 통계량들에 대하여 해석을 한다.
8.결론을 내린다.
비모수 검정
Mann-Whitney U 검정(2개의 독립 표본)
Wilcoxon 부호 – 서열 검정(2개의 대응 표
본)
kruskal-Wallis H 검정(K개의 독립표본)
SPSS
▣
통계분석 기법의 선택
연속형
없음
1개
One sample
t-test
범주형
Yes
Paired
t-test
수준
3이상
독립변수
연속형
범주형
(1개)
종속변수
이분
명목
명목,서열(2수준) (3수준 이상)
No
Covariate
서열
(3수준 이상)
GLM
회귀분석
(Covariate) (Dummy)
Y
t-test
Wilcoxon
검정
독립변수
Yes
cc
정규성
N
연속형 or
변수 2개 이상
2개이상
범주형
No
짝
정규성
Y
연속형
독립변수
2
독립변수의
개수?
범주형
종속변수
N Y
정규성
One-Way
ANOVA
(F-test)
MannWhitney
검정
N
단순
회귀분석
KruskalWallis
검정
Two-Way
ANOVA
(F-test)
다중 카이제곱검정
회귀분석 +대응일치분석
순서형
Logistic 회귀
이분형(이항)
Logistic 회귀
다항
Logistic 회귀
SPSS
- 비모수검정은 통계학에서 모수에 대한 가정을 전제로 하지 않고, 모집단의 형태에 관계없이 주어진 데이터에
서
직접 확률 계산하여 통계학적 검정을 하는 분석 방법이다. 비모수 통계 혹은 분포 무관이라고 한다.
▣ 사용조건
• 표본 수가 30개 미만이면서 정규성을 만족하지 못하는 경우
• 모수적 방법에서의 가정에 강한 의문이 드는 경우
• 변인의 척도가 명목척도나 서열척도인 경우
• 수치는 큰 의미가 없고 그 상대적 크기가 의미가 있을 때
▣ 비모수 검정에서의 모수와 검정통계량
• 모수 : 모집단의 중앙값
• cc
• 검정통계량 : 표본의 중앙값
▣ 예시
• 기업의 기술력 / 소비자의 기호 / 맛 등의 비교 : 측정값들 간의 상대적인 크기 자료(rank)
Mann-Whitney U 검정(1)
- Mann-Whitney U 검정은 모수적 방법에서의 독립 2표본 검정과 대비되는 방법이다.
▣ 기본 가정
• 두 모집단에 대한 정규성의 가정 성립 여부에 대한 확신이 없다.
▣ 가설 수립
• cc
• 귀무가설(H0) : 두 집단의 중앙값은 같다(두 집단의 분포가 모두 동일하다).
• 대립가설(H1) : 두 집단의 중앙값은 같지 않다(두 집단의 분포에 차이가 있다).
SPSS
SPSS
Mann-Whitney U 검정(2)
- 예제 : 두 갱의 각성제 반응속도 차이를 비교하기 위한 실험을 실시하였다. 환자는 두 집단으로 임의 배정되었다.
집단 1에는 13명이 배정되었으며, 각성제 1을 복용하였다. 한편 집단 2에는 6명이 배정되었으며, 이들은 각성제
2를 복용하였다. 두 각성제에 따른 반응속도 차이를 분석하여라.(react.sav)
1. 데이터 설명
전체 19개의 케이스, 2개 필드
Stim(범주형 필드, 2수준)
Time(연속형 필드)
2. SPSS 프로시저 – 정규성 검정
3. SPSS 대화상자 – 데이터 탐
색
요인 : Stim
종속변수 : Time
Mann-Whitney U 검정(3)
4. SPSS 대화상자 - 도표
SPSS
5. 결과
검정과 함께 정규성 도표 : 정규성 검정통계량을
확인하기 위해 검정과 함께 정규성 도표에 체크한다.
1. SPSS 프로시저 - 상관분석
정규성 가정을 만족하는 지 검토하기 위해
Shapiro-Wilk의 유의확률을 확인한 결과,
유의확률이 0.05 보다 작게 나타나
귀무가설 기각
- 즉, 정규분포를 만족하지 않으므로 모수적
방법은 사용할 수 없다. 비모수 방법을
선택하여야 한다.
Mann-Whitney U 검정(4)
6. SPSS 프로시저 – 비모수 검정
분석 – 비모수검정 - 독립표본
1. SPSS 프로시저 - 상관분석
SPSS
7. 목표 설정
〔목표〕탭 - 집단 전체에서 분포 자동 비교
Mann-Whitney U 검정(5)
8. 분석대상 변수 선정
〔필드〕탭 : 사용자 정의 필드 할당 사용
- 검정 필드 : Time
1.- SPSS
프로시저 - 상관분석
집단 : Stim
SPSS
9. 설정
〔설정〕탭 - 검정 사용자 정의 – 만-휘트니
U
Mann-Whitney U 검정(6)
10. 비모수 검정 결과
1. SPSS 프로시저 - 상관분석
두번클릭
결과해석
: 검증결과, 두 각성제 종류에 따라 반응속도
차이의 p값은 0.087로 유의수준 0.05보다 높
게
나타났다.
즉, 두 각성제에 따른 반응속도의 차이는 없다.
SPSS
SPSS
Mann-Whitney U 검정(7)
▣ 결과 정리
NO
프로세스
1
연구 예제
2
Data의 특성 파악
3
분석방법의 결정
4
기본 가정 검토
5
결과 해석
6
결론
결과 정리
두 각성제의 반응속도에 차이가 있는가?
독립변수 : 각성제
종속변수 : 반응속도
짝을 이루었는가?
☞ No
독립변수 : 범주형 변수 (수준 2)
종속변수 : 연속형 변수
정규성 ☞ 만족 X
☞ Mann-Whitney U 검정
P = 0.087 〉0.05
☞ 귀무가설 채택
두 각성제에 따른 반응속도에는 유의한 차이가 없다.
SPSS
검정(1)
- Wilcoxon 부호 서열 검정은 각 쌍의 차이의 부호와 크기를 알아보는 방법으로 모수적 방법에서의 대응 t표본
검정(paired t-test)과 대비되는 방법이다.
▣ 특징
• 짝을 이룬 관측치들이 서로 차이가 있는지를 검정하는 분석기법으로 짝을 이룬 표본이 t-test 요건을 충
족하지 못하였을 때 이용할 수 있다.
• 윌콕슨 검정은 모집단의 분포가 정규분포일 필요가 없으며, 최소한 연속적 서열 척도이면 분석이 가능하
다.
• cc
▣ 가설 수립
• 귀무가설(H0) : 독립변수에 따라 종속변수(특성 값)은 같다.
• 대립가설(H1) : 독립변수에 따라 종속변수(특성 값)은 다르다.
SPSS
검정
• 예제 : 다음은 항우울제의 효능을 알아보기 위한 예비연구이다. 총 10명의 우울증 환자를 대상으로 하여
투약 전/후의 우울증 점수를 측정하였다 치료를 받기 전과 받은 후의 우울증 점수에 차이가 있는지
검증하여라.(medicine.sav)
1. 데이터 설명
2. SPSS 프로시저 - 변수계
산
전체 10개의 케이스, 2개 필드
우울증 치료 받기 전: Pre(연속형 필드)
우울증 치료 받은 후: Post (연속형 필드)
c
• c
3. SPSS 대화상자 - 변수계산
4. SPSS 데이터 보기
SPSS
검정
5. SPSS 프로시저 – 정규성 검
정
6. SPSS 대화상자 – 데이터 탐
색
7. SPSS 도표 옵션 대화상자
8. 정규성 검정 결과
검정과 함께
정규성 도표:
정규성 검정
통계량을
정규성 가정을 만족하는 지 검토하기 위해 Shapiro-Wilk의
확인하기 위해
유의확률을 확인한 결과, 0.05 보다 작게 나타나 귀무가설 기
각
정규성 도표에
체크한다.
- 정규분포를 만족하지 않으므로 비모수 방법 선택
-☞ Wilcoxon 검정 실시
SPSS
검정(4)
9. SPSS 프로시저 – 비모수 검정
분석 – 비모수검정 - 대응표본
1. SPSS 프로시저 - 상관분석
10. 목표 설정
〔목표〕탭 - 집단 전체에서 분포 자동 비교
SPSS
검정(5)
11. 분석대상 변수 선정
〔필드〕탭 : 사용자 정의 필드 할당 사용
- 검정 필드 : Pre, Post
1. SPSS 프로시저 - 상관분석
12. 설정
〔설정〕탭 - 검정 사용자 정의 – 만-휘트니
U
SPSS
검정(6)
13. 비모수 검정 결과
1. SPSS 프로시저 - 상관분석
순위 : 항우울증 치료를 받은 후의 점수(Post) 보다 받
기
전의 점수(Pre)의 점수가 높은 사람은 7명, 전 보다 후
의
점수가 높은 경우는 3명으로 나타났다.
검정 통계량:
귀무가설을 검증한 결과이다.
1) 가설설정
- 귀무가설 : 치료 전과 후의 우울증 점수에 차이가 있다.
- 대립가설 : 치료 전과 후의 우울증 점수에 차이가 없다.
2) 가설 검정
- 유의확률이 0.168로 0.05 유의수준 보다 크게 나타나
귀무가설을 채택한다.
- 따라서 치료 전과 후의 우울증 점수에 차이가 없다.
두번클릭
SPSS
검정(7)
▣ 결과 정리
NO
프로세스
1
연구 예제
2
Data의 특성 파악
3
분석방법의 결정
4
기본 가정 검토
5
결과 해석
6
결론
결과 정리
치료 전과 후의 우울증 점수에 통계적으로 차이가 있는가?
독립변수 : 치료 전, 치료 후
종속변수 : 치료 전 우울증 점수, 치료 후 우울증 점수
☞ yes
짝을 이루었는가?
독립변수 : 범주형 변수 (수준 2)
종속변수 : 연속형 변수
정규성 ☞ 만족 X
☞
P = 0.168 〉0.05
검정
☞ 귀무가설 채택
치료 전과 치료 후의 우울증 점수는 유의한 차이가 없다.
SPSS
(1)
-
비모수적 방법으로 모수적 방법에서의
분산분석과 대비되는 방법이다.
▣ 특징
• K개의 모집단의 중앙값은 각각 M1, M2, Mk이다.
• 적어도 하나 이상의 모집단 중앙값의 차이가 없다면 모든 중앙값은 동일하다.
• 모집단에 대한 정규성 가정 성립 여부에 대한 확신이 없다.
▣ 가설 수립
• cc
• 귀무가설(H0) : 모 집단의 중앙값은 같다(K개의 집단의 분포가 모두 동일하다).
• 대립가설(H1) : 모든 모집단의 중앙값은 같지 않다.
즉, 적어도 하나의 모집단의 중앙값은 다른 모집단 중앙값들과 다르다.
(k개의 집단의 분포가 모두 동일하지 않다. 적어도 두 집단 간의 분포에 차이가 있다).
SPSS
• 예제 : 교수방법에 따라 영어성적에 차이가 있는지를 알아보기 위해 중학교 1학년 학급을 선정하여 강의,
조별토의, 시청각 학습법을 실시하였다. 교수방법에 따라 영어성적에 차이가 있는가?(교수법.sav)
1. 데이터 설명
2. SPSS 프로시저 – 정규성 검
정
전체 18개의 케이스, 2개 필드
교수방법(범주형 필드, 3수준)
영어성적(연속형 필드)
3. SPSS 대화상자 – 데이터 탐색, 도표 옵
션
4. 정규성 검정 결과
- 강의에 대한 유의확률이 0.017로 유의수준
보다 작게 나타나 비모수적 방법 선택
(3)
5. SPSS 프로시저 – 비모수 검정
분석 – 비모수검정 - 독립표본
1. SPSS 프로시저 - 상관분석
SPSS
6. 목표 설정
〔목표〕탭 - 집단 전체에서 분포 자동 비교
SPSS
(4)
7. 분석대상 변수 선정
〔필드〕탭 : 사용자 정의 필드 할당 사용
- 검정 필드 : 영어성적, 집단 : 교수방법
1. SPSS 프로시저 - 상관분석
8. 설정
〔설정〕탭 - 검정 사용자 정의 – 만-휘트니
U
(5)
9. 비모수 검정 결과
1. SPSS 프로시저 - 상관분석
두번클릭
검정 통계량:
귀무가설을 검증한 결과이다.
1) 가설설정
- 귀무가설 : 교수법의 종류에 따라 영어성적은 모두 동일하다.
- 대립가설 : 교수법의 종류에 따라 영어성적이 모두 동일하지
는
않다. 즉, 적어도 어느 교수법 간에는 영어성적의 차이가 있다.
2) 가설 검정
- 검증결과, 카이제곱은 7.027이고, 이에 대한 유의확률은
0.030으로 나타나 0.05 유의수준에서 귀무가설을 기각한다.
- 즉, 교수법에 따라 영어성적에는 차이가 있다.
SPSS
SPSS
(6)
10. 비모수 검정 결과 - 사후검정
순위:
1. SPSS 프로시저 - 상관분석
교수방법 종류별 케이스들의 평균 순위를 보여준다.
시청각 학습의 평균 순위는 5.80, 강의의 평균 순위
는
8.29, 조별토의의 평균순위는 14.00으로 계산되었
다.
분석화면
오른쪽 하단의
사후검정:
‘보기’단추 클릭
‘대응별
비교’후 선택test를
3개의 집단 간의 차이에
대해 Kruskal-Wallis
시행한 결과, 집단 간 유의한 차이가 있게 나타났다.
어느 집단에서 차이가 발생하였는지에 대해
대응별비교 결과를 살펴본다.
- 시청각학습과 조별토의에서 조정된 p값이 0.034로
나타나 두 교수방법에서 영어성적의 중심에 차이가
있다고 할 수 있다.
SPSS
(7)
▣ 결과 정리
NO
프로세스
결과 정리
1
연구 예제
2
Data의 특성 파악
3
분석방법의 결정
4
기본 가정 검토
정규성 ☞ 만족 X
5
결과 해석
P = 0.03 〈 0.05
6
결론
교수방법에 따라 영어성적에 통계적으로 차이가 있는가?
독립변수 : 교수방법
종속변수 : 영어성적
독립변수 : 범주형 변수 (수준 3)
종속변수 : 연속형 변수
☞
☞ 귀무가설 기각
교수방법에 따라 영어성적에 통계적으로 차이가 있다.
사후분석 : 시청각 학습과 조별토의에서 차이를 보임
경청해 주셔서 감사합니다.
LOGO