Transcript Document

목차
EXCEL활용
현대통계학
제 7 장 표본분포
■
■
■
■
■
■
■
■
EXCEL활용 현대통계학
표본조사
표본추출방법
표본분포
표본평균의 표본분포(복원추출)
표본평균의 표본분포(비복원추출)
중심극한정리
비율의 표본분포
Excel 활용
1
표본조사
EXCEL활용
현대통계학
■ 표본조사
표본 조사
모집단의 모수에 대해 어떤 결론을 내리기 위해서는 자료를 수집할 때
전수조사(census)를 하거나 또는 표본조사(sampling)를 하는 방법이 있다.
표본추출방법을 사용하는 이유
시간절약, 비용절약, 파괴검사의 경우, 모집단에 접근할 수 없는 경우
EXCEL활용 현대통계학
2
표본추출방법
EXCEL활용
현대통계학
표본 추출방법
표본추출(sampling)
표본(sample)
통계량(stiatistic)
모집단
(population)
모수
(parameter)
모수추정 :
추정량(estimator)
통계량(stiatistic)
모수추정 :
추정치(estimate)
가설검정 :
가설검정 :
검정통계량(test statistic) 검정통계치(test statistic)
사전적 의미
- 확률변수
사후적 의미
- 실현치
추론
(inference)
EXCEL활용 현대통계학
3
표본추출방법
EXCEL활용
현대통계학
표본조사
표본오차와 비표본오차
표본추출을 할 때는 모집단의 특성을 대표할 수 있는 요소들
로 표본을 구성해야 한다.
그러나 모집단을 구성하는 모든 요소들을 조사하여 얻은 결
과가 그의 일부를 조사하여 얻은 결과와 똑같을 수는 없기 때
문에 오차가 발생한다.
오차의 종류
표본오차 (sampling error)는 모집단 전체를 조사하지 않고
다만 그의 일부분인 표본을 추출하기 때문에 발생하는 오
차를 말한다.
비표본오차(nonsampling error)는 자료측정이나 표본선정
에 잘못이 있기 때문에 발생하는 오차이다.
EXCEL활용 현대통계학
4
표본추출방법
EXCEL활용
현대통계학
잘못된 표본 추출의 예
1936년 미국 대통령 선거결과의 예측
루즈벨트의
득표율(%)
EXCEL활용 현대통계학
실제선거결과
62
다이제스트사의 예측
43
다이제스트사의 예측치에 대한
갤럽의 예측
44
선거결과에 대한 갤럽의 예측
56
루즈벨트 승리
랜던 승리
루즈벨트 승리
5
표본추출방법
EXCEL활용
현대통계학
잘못된 표본 추출의 예
표본조사에서의 편의와 그 종류

편의 : 표본이 모집단과 어떤 체계적인 차이를 드러
내는 것
• 표본추출편의 : 표본이 모집단을 대표하려면 표본추출에 있
어 체계적인 왜곡이 없어야 함
• 무응답편의 : 응답하지 않는 사람들은 응답하는 사람들과 체
계적으로 다를 수 있음
• 응답편의
• 표본으로 뽑힐 확률은 가구원수가 많은 가구의 구성원이 적
은 가구의 구성원보다 낮음
EXCEL활용 현대통계학
6
표본추출방법
EXCEL활용
현대통계학
잘못된 표본 추출의 예
표본추출 편의
: 전화번호부나 클럽회원 명단에서
파악한 주소를 이용하여 여론조사
-당시 전화나 클럽은 부의 상징
-가난한 사람들은 표본에서 배제
-가난한 사람에게 인기있는
루즈벨트에게 불리한 예측치 나옴
무응답편의
: 설문지를 받은 천만 명 중 240만
명만이 응답
-저소득층이나 고소득층이 응답을
거부하는 경향이 커서 중산층의
의견이 과도하게 반영됨
-루즈벨트의 지지자들이 주로
응답하지 않음
EXCEL활용 현대통계학
응답 편의
- 사람들은 조사표의 양식, 디자인
또는 조사원의 태도에도 영향을
받음
- 후보자의 이름 순서도 영향을 줌
- 모든 응답자들이 가급적 같거나
비슷한 조사원과 정해진 규칙대로
면담해야 함
가구 편의
-표본으로 뽑힐 확률은 가구원수가
많은 가구의 구성원이 적은 가구의
구성원보다 낮음
-해결책은 다단계 군집추출방식
7
표본추출방법
EXCEL활용
현대통계학
표본 추출방법
표본을 추출하는 방법은 크게 확률추출방법(probability
sampling)과 비확률추출방법(nonprobability sampling)
이 있다.
확률추출방법에는 단순무작위 추출, 층별 추출, 체계적
추출, 군집 추출 등이 있다. 확률추출방법은 객관적이므
로 표본오차의 측정이 가능하다.
비확률추출방법은 조사자의 주관에 의하여 표본을 임의
로 추출하는 방법으로서 표본오차를 객관적으로 측정할
수 없다는 결점을 갖는다. 여기에는 판단추출과 편의추
출이 속한다.
EXCEL활용 현대통계학
8
표본추출방법
EXCEL활용
현대통계학
단순무작위추출
여러 가지 방법 중에서 단순무작위 추출방법(simple random sampling)이 중요한데 그 이유는 많은 통계적 기법이
이에 기초하기 때문이다.
N개의 요소로 구성된 모집으로부터 표본크기 n개의 요소를
선정한다고 할 때 단순무작위방법은 n개의 가능한 각 표본이
똑같이 1/N의 확률로 선정될 수 있도록 설계된 방법이다.
모집단의 크기가 표본크기보다 훨씬 크다면 비복원추출일지
라도 크게 문제될 것은 없다.
예) 복권추첨, 아파트추첨
EXCEL활용 현대통계학
9
표본추출방법
EXCEL활용
현대통계학
층별추출
층별추출(stratified sampling)은 모집단을 부, 지역, 연령,
성별, 교육 같은 일정한 기준에 의하여 동질적인 그룹(층)으
로 분류한 다음 각 그룹으로부터 표본을 단순무작위로 추출
하는 방법이다.
각 그룹에서 추출하는 표본의 수가 모집단의 구성비율을 따
를 때 비례적 층별추출이라고 한다.
층별추출은 모집단의 특성을 더욱 정확하게 반영한다는 장
점을 갖는다. 층별추출이 효과적인 때는 특성에 있어 층간에
는 차이가 크지만 층 내에서는 차이가 별로 없는 경우이다.
EXCEL활용 현대통계학
10
표본추출방법
EXCEL활용
현대통계학
체계적 추출
모집단이 큰 경우 단순무작위 추출방식을 사용하면 시간과
비용상 비경제적이므로 체계적 방법(systematic sampling)
을 사용할 수 있다.
모집단의 크기가 100이고 표본크기가 5이면 표본간격을
20=100/5으로 정하고 모집단을 순서대로 번호를 부여한 후
첫 20명 중에서 1명을 무작위 추출한 후 20의 간격으로 5개
의 표본을 추출하는 방법이다.
예) 9, 29, 49, 69, 89
EXCEL활용 현대통계학
11
표본추출방법
EXCEL활용
현대통계학
군집추출
군집추출(cluster sampling)이란 모집단을 군집(그룹)으로
구분하고 이 중에서 단순무작위방식으로 조사대상인 군집을
선정하는 방식이다.
선정된 군집에 대해서 전수조사를 하거나 일부의 표본을 추
출하게 된다.
군집추출이 효과적인 경우는 층별추출과 반대의 경우로 군
간에는 동질적이고 군 내에서는 이질적인 특성을 갖는 경우
이다.
EXCEL활용 현대통계학
12
표본추출방법
EXCEL활용
현대통계학
다단계 군집추출
갤럽의 표본
추출방식
EXCEL활용 현대통계학
•
거주지를 바탕으로 해
서 표본수를 할당한다.
•
각 단계마다 확률적 방
법을 통해 표본을 추출
한다.
13
표본추출방법
EXCEL활용
현대통계학
전화조사
• 갤럽 : 전화번호를 컴퓨터 작업을 통해 단순 무
작위 추출로 뽑는다. 분석목적에 따라 전화번호
를 지역별로 추출할 수도 있고 전국을 대상으로
추출할 수도 있다.
• 전화가 없는 사람이 있는 사람과 선호가 다르면
전화조사에 있어 편의를 가져온다.
• 요즘은 집 전화와 휴대 전화를 어떻게 구분하여
처리할 것인가의 문제도 고려해야 한다.
• 전화에 응답하지 않는 것도 편의를 일으킬 수 있
다. → 갤럽: 응답률을 높이기 위해 저녁, 주말
에 전화조사, 전화를 받지 않을 경우 반복전화
EXCEL활용 현대통계학
14
표본추출방법
EXCEL활용
현대통계학
편의추출
비확률 추출기법의 하나인 편의추출방법은 표본이 조사자의
편의에 의해서만 선정되는 방법이다.
비교적 쉽게 표본을 선정하고 자료를 수집하는 장점이 있으
나 모집단을 제대로 대표할 수 없다는 단점을 갖는다.
판단추출
판단추출방법은 모집단의 특성을 잘 아는 전문가가 모집단
을 가장 잘 대표하리라고 믿는 요소들을 표본으로 추출하는
방법이다.
EXCEL활용 현대통계학
15
표본분포
EXCEL활용
현대통계학
■ 표본분포
표본분포
표본분포(sampling distribution)란 주어진 모집단으로부터
크기 n의 확률표본을 수없이 반복하여 추출한 결과로 얻은
표본통계량의 확률분포를 말한다.
EXCEL활용 현대통계학
16
복원추출
EXCEL활용
현대통계학
■ 표본평균의 표본분포(복원추출)
표본평균 x 는 확률변수로 이들 표본평균들은 확률분포를 갖
는데 이를 표본평균의 표본분포(sampling distribution of the
sample means)라고 한다.
평균의 표본분포
평균의 표본분포란 표본평균 x의 모든 가능한 값들의 확률
분포를 말한다.
EXCEL활용 현대통계학
17
표본분포
EXCEL활용
현대통계학
■ 평균의 법칙
x
EXCEL활용 현대통계학
18
표본분포
EXCEL활용
현대통계학
■ 평균의 법칙
앞면이 많이 나왔다
고 해서 이후의 시도
에서 앞면이 나올 확
률이 감소하는 것이
아니다.
x
던지는 횟수가 증
가한다고 해서 앞
면이 나오는 횟수
와 기대횟수의 차
이가 줄어드는 것
은 아니다.
EXCEL활용 현대통계학
19
표본분포
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 평균의 법칙
20
표본분포
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 평균의 법칙
21
복원추출
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본평균의 표본분포(복원추출)
22
복원추출
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본평균의 표본분포(복원추출)
23
복원추출
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본평균의 표본분포(복원추출)
24
복원추출
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본평균의 표본분포(복원추출)
25
복원추출
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본평균의 표본분포(복원추출)
26
표준오차
EXCEL활용
현대통계학
■ 기대값과 표준오차
- 기대값
하나의 확률 과정에 의해 결정되는 숫자는 하나의
값 주위로 분포한다. 이 분포의 중심이 되는 값을
기대값(expected value)이라고 한다.
- 표준오차
기대값과 차이가 나는 정도를 표준오차(standard
error)라고 부른다.
EXCEL활용 현대통계학
27
표준오차
EXCEL활용
■ 기대값과 표준오차
현대통계학
•
상자의 표준편차
: 상자로부터 하나의 값을 추출할 때 이 값이 상자의 평
균(모평균)으로부터 얼마나 떨어져 있는가를 나타내는
지표
•
표본평균의 표준오차(SE)
: 추출한 값들의 평균(표본평균)이 모평균과 얼마나 떨어
져 있는가를 나타내는 지표
•
표본의 표준편차(SD)
:
EXCEL활용 현대통계학
표본 내 하나의 값이 표본평균과 얼마나 떨어져 있는가
를 나타내는 지표. 이는 상자의 표준편차에 대한 추정
치
28
표준오차
EXCEL활용
현대통계학
■ 기대값과 표준오차
5가 한 장, 1 이 세 장 들어 있는 상자로부터 100회
무작위복원추출을 한다면…
EXCEL활용 현대통계학
29
표준오차
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 기대값과 표준오차
30
표준오차
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표준오차
31
표준오차
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표준오차
32
표준오차
EXCEL활용
현대통계학
■ 표준오차
주사위 하나를 60번 던졌다.
(1) 나온 숫자들의 합은 대략 ( )이고, ( ) 정도 차이가 날 수
있다.
☞ 상자의 평균 : 3.5, 상자의 표준편차 : 1.71
기대값은 210, 표준오차는 1.71  60 13.25 이다.
(2) 6이 나올 횟수는 대략 ( )이고, ( ) 정도 차이가 날 수 있다.
☞ (1/6)60 = 10
새로운 상자 모형
대략 10번 정도 나온다.
3 정도의 오차가 존재한다
EXCEL활용 현대통계학
33
복원추출
EXCEL활용
현대통계학
평균의 표본분포의 기대값과 분산
기대값과 분산
E ( x)   x   xP ( x)
Var ( x)  x2   ( x   x ) 2 P ( x)
x 
 ( x  x )2 P( x)
모집단의 분포와 평균의 표본분포와의 관계
E ( x)   x  
Var( x)   
2
x
x 
EXCEL활용 현대통계학

2
n
n
34
복원추출
EXCEL활용
현대통계학
■ 표본평균의 표본분포(복원추출)
평균의 표본분포의 기대값과 분산
EXCEL활용 현대통계학
35
복원추출
EXCEL활용
현대통계학
■ 표본평균의 표본분포(복원추출)
평균의 표본분포의 기대값과 분산
EXCEL활용 현대통계학
36
복원추출
EXCEL활용
현대통계학
■ 표본평균의 표본분포(복원추출)
평균의 표본분포의 기대값과 분산
EXCEL활용 현대통계학
37
비복원추출
EXCEL활용
현대통계학
■ 표본평균의 표본분포(비복원추출)
 
2
x
2
n
을 사용하는 경우
1. 무한모집단이거나
2. 유한모집단이지만 복원추출하거나
3. 유한모집단이지만 n이 N의 5%이하인 경우
 
2
x
2
n
N n
N  1 을 사용하는 경우
1. 유한모집단에서 비복원추출하거나
2. 유한모집단이지만 n이 N의 5%보다 큰 경우
EXCEL활용 현대통계학
38
비복원추출
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본평균의 표본분포(비복원추출)
39
비복원추출
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본평균의 표본분포(비복원추출)
40
비복원추출
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본평균의 표본분포(비복원추출)
41
비복원추출
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본평균의 표본분포(비복원추출)
42
비복원추출
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본평균의 표본분포(비복원추출)
43
중심극한정리
EXCEL활용
현대통계학
■ 중심극한정리
모집단이 정규분포를 따를때
평균 , 분산  2인 정규모집단으로부터 표본크기 n을 무작위
로 수없이 추출할 때 표본평균 x 의 표본분포는 평균  x, 분산
2
 x  인 정규분포를 따른다. 이를 정규표본분포라고 하며,
n
2
X ~ N (  x , x ) 으로 표현한다.
2
EXCEL활용 현대통계학
44
중심극한정리
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 중심극한정리
45
중심극한정리
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 중심극한정리
46
중심극한정리
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 중심극한정리
47
중심극한정리
EXCEL활용
현대통계학
■ 중심극한정리
모집단이 정규분포를 따르지 않을 때
중심극한정리(central limit theorem)란 확률변수 X의 모집단
분포가 정규분포가 아니더라도 표본크기 n  30 이면 평균의
2
표본분포는 평균  x , 분산  x  로 정규분포를 따른다는
n
정리이다.
2
EXCEL활용 현대통계학
48
중심극한정리
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 중심극한정리
49
중심극한정리
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 중심극한정리
50
비율의 표본분포
EXCEL활용
현대통계학
■ 비율의 표본분포
경영/경제문제에서는 성공비율을 분석해야 하는 경우가 있다.
예를 들면 시장점유률, 제품의 불량률, 정당 또는 후보의 지지율
등이 있는데 이를 모비율이라고 한다.
모비율과 표본비율
x 모집단에서 발생하는 성공횟수

N 모집단을 구성하는 모든 요소
x 표본에서의 성공횟수
ˆ
p

표본비율 :

n
표본크기
모비율 : p  P(성공) 
비율의 표본분포
비율의 표본분포란 모집단으로부터 동일한 표본크기 n을
무작위로 수없이 추출하여 그들의 비율을 구했을 때 나타
나는 표본비율들의 확률분포를 말한다.
EXCEL활용 현대통계학
51
비율의 표본분포
EXCEL활용
현대통계학
비율의 표본분포의 기대값과 표준오차
기대값 : E( pˆ )  p
p(1  p)
n
2
분산 :  pˆ 
표준오차 : 
pˆ

 pˆ 
EXCEL활용 현대통계학
p (1  p )
n
(무한모집단)
p (1  p ) N  n
n
N 1
(유한모집단)
52
비율의 표본분포
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 비율의 표본분포
53
비율의 표본분포
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 비율의 표본분포
54
비율의 표본분포
EXCEL활용
현대통계학
표본비율과 정규분포
np  5, nq  5
  np
Z
Z
EXCEL활용 현대통계학
  np(1  p)
pˆ  p
 pˆ
( pˆ 
1
) p
2n
 pˆ
55
비율의 표본분포
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 비율의 표본분포
56
Excel 활용
EXCEL활용
현대통계학
■ Excel 활용
[1] [예 7-1]
EXCEL활용 현대통계학
57
Excel 활용
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ Excel 활용
58
Excel 활용
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ Excel 활용
59
Excel 활용
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ Excel 활용
60
Excel 활용
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ Excel 활용
61
Excel 활용
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ Excel 활용
62