a8강 자료분석 - 사회복지통계연구소
Download
Report
Transcript a8강 자료분석 - 사회복지통계연구소
이수천
(서울기독대학교 M.A., Ph.D.)
사회복지통계연구소
http://isws.tistory.com
자료분석의 준비
통계방법과 척도
추리통계의 이해
사회복지통계연구소
http://isws.tistory.com
1. 코드북 작성
● 설문조사가 끝나면 코딩 작업을 하게 된다.
● 코딩(coding)이란, 설문지에 응답한 내용을 통계 프로그램으로 처리할 수 있도록
수치화하는 것을 의미한다.
(예. 남자는 ‘1’로 입력, 여자는 ‘2’로 입력하는 것)
● 코드북은 설문지에 응답한 결과들을 숫자로 바꾸어 입력할 수 있도록 안내해주는
지침서이다.
● 코드북의 유용성 : 입력오류를 줄일 수 있으며, 분석할 때 분석방향에 대한 힌트를
얻을 수 있다. 특히, 통계를 처음 다루는 사람은 반드시 작성할 필요가 있다.
● 코드북은 역문항이나 하위변수에 대한 표시 등 비교적 상세하게 작성할 필요가 있
다. 이렇게 해야 데이터 변환 시 참고할 수 있기 때문이다.
사회복지통계연구소
http://isws.tistory.com
● 코드북 작성의 실예
설문지
사회복지통계연구소
http://isws.tistory.com
코드북
사회복지통계연구소
http://isws.tistory.com
2. 입력과 환산하기
(1)
●
입력하기 전 작업
SPSS는 ‘데이터보기’(Data View)와 ‘변수보기’(Variable View)로 구성되어 있다.
데이터보기 창은 데이터를 입력하는 곳이고, 변수보기 창은 변수에 대한 정의 및
변수값을 지정하는 곳이다.
● 먼저 변수보기(Variable View)로 가서 코드북의 변수명과 같은 이름으로 변수명
(Name)을 지정해 주어야 한다.
● 각 변수에 대해 변수유형(Type)을 지정해 주어야 한다. 일반적으로 변수유형은 숫
자형으로 한다. 결국 입력하는 것은 숫자이기 때문이다. 이름 등 문자로 입력할 경
우는 문자형으로 지정해야 한다.
● 변수설명(Label)을 기록한다. 변수에 대한 설명을 구체적으로 기록해 넣는다.
● 변수값(Value)을 지정한다. 코드북의 입력값과 동일하게 지정해야 한다.
● 결측(Missing), 열(Column), 척도(Measure)를 지정한다.
사회복지통계연구소
http://isws.tistory.com
(2) 입력하기
● 데이터보기(Data View)로 가서 설문지에 체크되어 있는 대로 입력한다.
●(설문지와 코드북과 동일해야 하며, 다를 경우 코드북에 그 다름에 대해서 간결하면
서도 정확하게 설명되어야 한다.)
● 시간이 걸리더라도 ‘정확하게’ 입력하는 것이 중요하다.
잘못 입력되면 통계 결과를 신뢰할 수 없게 된다.
‘단무지’를 생각하며 입력한다. (왕도는 없다! 나중에 생김 ^^ )
● 입력할 때 일련번호를 설문지에도 적어둔다. 후에 데이터 오류 수정 시 확인을 하
려면 반드시 필요하다.
사회복지통계연구소
http://isws.tistory.com
(3) 입력 후 작업
● 눈으로 데이터의 이상이 없는가를 살펴본다.
● 빈도분석을 통하여 데이터의 이상치를 통하여 잘못 입력된 부분을 찾아 수정한다.
● 역코딩을 한다. 역코딩은 같은 변수로 변환을 사용하여 하는 것이 편리하다.
● 변수합산을 한다.
척도를 사용한 경우, 하위척도 별로 또는 연구설계에 따라 측정값들을 합산하여야
할 부분을 합산한다. 합산은 ‘변수계산’을 활용하여 하며, 합산할 결과는 새로운 변
수로 만들어 진다.
● 변수 합산을 하는 방법도 여러 가지인데 일반적으로 합산(Sum)과 평균(Mean)을
활용한다. ‘합산’을 활용할 경우 응답값의 범위를 보기에 좋은 면이 있다. ‘평균’을
활용할 경우 응답값이 설문한 것과 비교할 때 어느 정도인지를 보기에 편리한 점이
있다.
사회복지통계연구소
http://isws.tistory.com
※신뢰도분석과 요인분석을 통하여 문항을 정리할 수도 있다.
● 변수합산 전에, 필요에 따라, 신뢰도를 점검하여 신뢰도를 떨어뜨리는 문항을 제거한
후 합산을 할 필요가 있다.
● 척도 사용 시 하위척도로 구분은 되지 않지만 필요한 경우 요인분석을 통하여 요인을
축소화하여 합산을 하여 분석에 사용할 수도 있다.
사회복지통계연구소
http://isws.tistory.com
● 분석방법의 결정
° 독립변수와 종속변수의 관계와 이 둘이 어떤 척도로 측정되어 있는지에 따라 달라진다.
° 설문과 연구 목적에 따라 가정 적절한 통계방법이 이루어져야 한다.
° ANOVA난 χ2가 선형회귀분석만 못한 것이 아니다. ANOVA의 경우 2차 함수와 같은
곡선의 성질이 있기 때문에 두 함수의 선형(liner)으로 이루어지는 회귀분석과 분석의
방법이 다른 것이다.
사회복지통계연구소
http://isws.tistory.com
1.
빈도분석
● 모든 변수의 첫 번째 분석에 사용되는 가장 기초적인 분석이다.
● 척도와 상관없이 사용되나 등간, 비율척도는 가급적 기술통계분석을 사용하는 것
이 좋다.
● 연령, 급여 등 분포가 넓은 변수를 구역으로 설정할 경우, 즉 연령대, 급여대로 리
코딩할 경우 빈도분석을 할 수 있다.
● 퍼센트(%)와 빈도로 값을 제시한다.
● SPSS에서 분석→기술통계량→빈도분석으로 따라가며 분석하면 된다.
● 주로 명목척도, 서열척도로 된 변수에 사용된다.
사회복지통계연구소
http://isws.tistory.com
2. 기술통계분석
● 연령, 키, 월평균 급여와 같이 수치로 된 변수의 일반적 특징을 살필 때 사용한다.
● 평균과 표준편차로 제시한다.
● 5점 척도나 리커트 척도는 등간척도로 가정하고 사용 가능하다.
● SPSS에서 분석→기술통계량→기술통계분석으로 따라가며 분석하면 된다.
● 등간척도, 비율척도로 된 변수에 사용된다.
3. 교차분석
● 2개 이상의 범주형 변수들의 관련 정도를 알아보고자 하는 경우에 사용한다.
● 연령대별 정당 선호도, 학년별 과목 선호도 등
● χ2값의 유의확률을 통하여 통계적인 의미를 검증한다.
● SPSS에서 분석→기술통계량→교차분석으로 따라가며 분석하면 된다.
● 명목척도, 서열척도로 된 변수에 사용된다.
사회복지통계연구소
http://isws.tistory.com
4. 티검증(t-test)
(1) 독립표본 t-test
● 평균을 이용하여 분석하는 것이다. 따라서 종속변수는 평균값을 가질 수 있는 변수
이어야 한다. 즉, 등간척도 이상이어야 한다. (단, 리커트 척도는 등간척도로 간주하
고 분석할 수 있다.)
● 2개의 집단을 서로 비교하는 것이다. 따라서 독립변수는 2개의 범주를 나타내는 척
도가 사용되어야 한다. 대표적인 예를 성별에 따라서 분석하는 경우이다.
● t값과 유의확률을 통하여 통계적 의미를 검증한다.
● SPSS에서 분석→평균비교→독립표본t-test를 따라가며 분석하면 된다.
사회복지통계연구소
http://isws.tistory.com
(2) 대응표본 t-test
● 집단은 하나인데 시점을 달리하여 검증할 때 사용한다.
● 즉, 시점 상 상이한 두 시점을 각각 집단으로 상정하는 것이다.
● 사전사후 검증할 때 많이 사용된다.
● SPSS에서 분석→평균비교→대응표본t-test를 따라가며 분석하면 된다.
(3) 일표본 t-test
● 하나의 값만 가지고 있고
● 그것에 다른 기준값을 대비하여 분석할 경우
사회복지통계연구소
http://isws.tistory.com
5. 분산분석(ANOVA:Analysis of Variance)
● 평균을 이용하여 분석하는데 집단이 세 개 이상일 경우에 사용한다.
● F값과 유의확률을 통하여 통계적 의미를 검증한다.
● SPSS에서 분석→평균비교→일원배치분산분석을 따라가며 분석하면 된다.
● t-test와 ANOVA는 종속변수가 평균을 구할 수 있는 등간척도 이상이어야 한다.
● t-test의 경우는 두 집단 사이의 평균 비교이기 때문에 사후검증이 필요없으나,
ANOVA는 세 집단 이상의 평균비교이기 때문에 사후검증을 필요로 한다.
사회복지통계연구소
http://isws.tistory.com
6. 상관관계분석
(1) 상관관계분석
● 변수 간 서로 상관의 정도를 보는 경우에 사용한다.
● 변수 간 인과관계가 없어도 볼 수 있어 폭넓게 사용할 수 있다.
● 등 간 척 도 이 상 인 경 우 Pearson 을 , 서 열 척 도 가 하 나 라 도 포 함 되 어 있 으 면
Spearman이나 Kendall's tau-b를 활용한다.
● r값과 유의확률을 통하여 통계적인 의미를 검증한다.
● SPSS에서 분석→상관분석→이변량 상관계수로 따라가며 분석하면 된다.
● 독립변수, 종속변수 모두 서열척도 이상이어야 한다.
사회복지통계연구소
http://isws.tistory.com
7. 회귀분석
● 변수 간의 인과관계를 보는 경우 사용한다.
● F값과 유의도를 통하여 회귀식의 적정성을 보며,
R2값을 통하여 설명력을 보며,
t값과 유의도를 통하여 영향요인을 본다.
B값과 β값이 따로 제시된다.
● SPSS에서 분석→회귀분석→선형회귀분석을 따라가며 분석한다.
● 독립변수, 종속변수 모두 등간척도 이상이어야 한다.
사회복지통계연구소
http://isws.tistory.com
8. 신뢰도분석
● 하나의 척도(지수)에 포함되어 있는 하위 변수(개념)간의
내적 일관성이 있는지를 분석하고자 할 때 사용한다.
● Chronbach's α값으로 판단을 한다.
● SPSS에서 분석→신뢰도분석을 따라가면 분석한다.
● 독립변수와 종속변수의 구분은 없으며,
등간척도 이상이어야 한다.
사회복지통계연구소
http://isws.tistory.com
1. 기술통계와 추리통계
● 통계는 크게 기술통계(Description Statistics)와
추리통계(Inferential Statistics)로 구분한다.
(또한 분석되는 변수의 수에 따라 하나이면 일원적 통계, 두 개 이상이면 다원적 통
계로 구분한다.)
● 기술통계는 통계자료를 수집, 요약 정리된 내용을 그대로 기술하는 기능을 갖는다.
● 빈도분석, 평균, 표준편차 등이 해당한다.
● 추리통계는 표본을 통하여 조사된 자료를 통하여 모집단을 추정하거나, 가설을 검
증하는 통계방법이다.
사회복지통계연구소
http://isws.tistory.com
● 추리통계는 모수적 추리통계와 비모수적 추리통계로 구분한다.
● 모수적 추리통계
•
추리통계기법을 통하여 표본으로 모집단의 값을 추정
•
확률표집
•
척도는 등간척도와 비율척도로 구성
•
정규분포곡선의 성질
● 비모수적 추리통계
•
추리통계기법을 통하여 통계적 유의미한 차이는 검증할 수 있으나
•
모집단의 특성은 추정해 내지 않는다.
•
확률표집을 하지 않아도,
•
척도는 등간․비율척도가 아니어도,
•
정규분포성도 요구하지 않는다.
사회복지통계연구소
http://isws.tistory.com
2. 정규분포곡선
● 정규분포곡선은 어떤 분포도가 마치 종을 엎어놓은 것처럼 하나의 봉우리를 가지고
있으며, 그 봉우리를 기준으로 좌우가 대칭을 이루는 분포를 말한다.
● 이론적으로 완벽한 정규분포곡선에서는 평균값(mean), 중앙값(median), 최빈값
(mode)이 모두 일치한다.
● 정규분포가 일어나는 경우는, 사건과 사건이 아무런 영향 없이 발생하는 경우, 그리
고 사건이 무한히 발생하였을 경우이다. ➜ 이렇게 우연히 일어나는 사건들의 경우
의 수를 정규분포로 만들 경우 정규분포에서 가지는 위치를 파악할 수 있어 상대적
인 비교는 물론 발생가능성을 확률적으로 추정할 수 있기 때문에 이것을 확률분포
라고도 한다.
● 키를 통한 예
사회복지통계연구소
http://isws.tistory.com
● 정규분포의 정도를 평가하는 기준은 첨도와 왜도이다.
● 첨도(Kurtosis)는 곡선이 뾰족한지 평평한지 알려주는 값이다. 정규분포에서 첨도
의 값은 0이다. 뾰족하면 0보다 큰 +값을, 평평하면 0보다 작은 -값을 가진다.
● 왜도(Skewness)는 곡선이 좌우로 얼마나 기울었는지 알려주는 값이다. 정규분포
에서 왜도의 값은 0이다. 좌측으로 기울었으면 0보다 큰 +값을, 우측으로 기울어졌
으며 0보다 작은 -값을 가진다.
● 첨도와 왜도의 값은 SPSS 옵션에서 선택하면 쉽게 구할 수 있다.
사회복지통계연구소
http://isws.tistory.com
3. 모수추정
● 통계치의 신뢰도(reliability)는 표본에서 나온 통계치가 모집단의 값인 모수를 얼마
나 반영하는지의 문제이다.
● 모수 = 표본값 + 표집오차
● 모수는 통상 이론적인 값이고, 전수조사는 현실적으로 어렵거나 거의 하지 않기 때
문에, 실제 모집단의 값인 모수는 표본을 통하여 추정하게 된다.
● 만약 모집단이 정규분포라고 가정한다면 그 모집단에서 무작위로 표집된 여러 표본
들에서 나오는 평균치들의 표집분포인 표준오차도 정규분포가 된다.
● 이렇게 반복되어 측정된 표본값의 평균은 모수로 수렴하게 된다.
● 정규분포의 확률이론에 따라 통상적으로 95% 범위 내에서 모수를 추정하게 된다.
사회복지통계연구소
http://isws.tistory.com
σm = σ / √n
σm=평균치의 표준오차, σ=표본의 표준편차, n=표본의 수
● 정규분포곡선 : 면적 95%를 차지하는 값은 ±1.96, 면적 99%를 차지하는 값은
±2.58, (면적 90%를 차지하는 값은 ±1.65)
신뢰도 수준
평균치의 신뢰한계
90%
m ± 1.65σm
95%
m ± 1.96σm
99%
m ± 2.58σm
● 지역주민(가구당)의 평균수입은? 표본값{N=5만가구, n=500가구, m=100만원,
σ=3만원}
사회복지통계연구소
http://isws.tistory.com
4. 가설검증
● 가설은 연구가설과 영가설로 나누어진다.
● 연구가설 : 변수와 변수간의 관계나 차이에 대하여 ‘다르다’. ‘차이가 있다’
● 영 가 설 : 변수와 변수간의 관계나 차이에 대하여 ‘동일하다’, ‘차이가 없다’
● A=B 이면 A-B=0인 경우 하나밖에 없으므로 검증의 경로가 하나다.
● 1종오류 : 영가설이 참인데 기각하는 경우
● 2종오류 : 영가설이 거짓인데 채택하는 경우
● (3종오류 : 애초 시작부터 잘못된 연구질문/연구문제를 갖고 연구를 시작하는 오류)
사회복지통계연구소
http://isws.tistory.com
● 유의도는 1종오류가 발생할 가능성을 % 또는 p(probability:확률)로 표시하는 것이
다.
유의도
유의수준
신뢰도
기각영역 5% 이하
α=.05
p<.05
95%
기각영역 1% 이하
α=.01
p<.01
99%
기각영역 .1%이하
α=.001
p<.001
99.9%
● 자유도는 사례수라고 생각하면 된다.
● 표본에서 자유도는 n-1이다.
사회복지통계연구소
http://isws.tistory.com
- 수고하셨습니다 -
사회복지통계연구소
http://isws.tistory.com