9. 추정(8장)

Download Report

Transcript 9. 추정(8장)

목차
EXCEL활용
현대통계학
제 8 장 통계적 추정 : 한 모집단
■
■
■
■
■
■
■
■
■
EXCEL활용 현대통계학
점추정과 신뢰구간 추정
추정량
신뢰구간 추정
모평균의 신뢰구간
t 분포
모비율의 신뢰구간
표본크기 결정
모분산의 신뢰구간
Excel 활용
1
통계적 추론
EXCEL활용
현대통계학
■ 통계적 추론
 통계적 추론은 확률적 방법에 기초를 두고 있다.
 추세나 경향성이 있는 경우, 상자모형으로 환원되지 않는 모형에
서 표준오차는 무의미하다.
표본을 무작위로 추출하면 표본크기와 표본표준편차만을 이용하
여 표본평균의 표준오차를 계산할 수 있다.
EXCEL활용 현대통계학
2
통계적 추론
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 모집단과 표본
3
통계적 추론
EXCEL활용
현대통계학
■ 모집단과 표본
모평균 : 모집단으로부터 자료 하나를 추출할 때의 기대값.
모표준편차 : 모평균으로부터의 편차를 제곱하여 그 기대값을 구
한 뒤 제곱근을 취한 것.
표본평균 :
- 개별 관측치가 표본에서 어떤 값을 취할지 그 기대값을 알
려준다. (표본 내 자료 분포에 따른 기대값)
- 표본내 관측치 각각에 1/n의 동일한 가중치를 주어 평균한
다.
표본분산 :
- 가상적 표본분산식에서 미지의 모수인 모평균을 표본평균
으로 대체하여 구한다.
- 잔차 제곱합을 자유도인 n-1로 나누어 표본분산을 구해야
모분산을 체계적으로 과소평가하는 경향을 피할 수 있다.
EXCEL활용 현대통계학
4
점추정과 신뢰구간 추정
EXCEL활용
현대통계학
■ 점추정과 신뢰구간 추정
추정량과 추정치
추정량(estimator)이란 표본정보에 의존하는 확률변수로서
모수를 추정하는데 사용되는 표본통계량을 말하고 추정치
(estimate)란 추정량을 평가하여 얻게 되는 특정한 수치를
말한다.
점추정치과 구간추정치
점추정치(point estimation)는 모르는 모수를 가장 잘 대표
할 수 있는 표본을 추출하고 필요한 계산을 하여 얻는 하나
의 수치를 말하고, 구간추정치(interval estimation)은 모수
의 참값이 포함되리라고 기대하는 추정치를 일정한 범위로
나타내는 것을 말한다.
어느 정도 오차를 포함하는 구간추정방법이 일반적으로 널
리 사용된다.
EXCEL활용 현대통계학
5
점추정과 신뢰구간 추정
EXCEL활용
현대통계학
■ 점추정과 구간추정
모수를 추정하는 데 좋은 추정량이 되기 위해서는 다음 조건을
만족해야 한다.
불편성(unbiasedness)
효율성(effectiveness)
일치성(consistency)
충족성(sufficiency)
EXCEL활용 현대통계학
6
점추정과 신뢰구간 추정
EXCEL활용
현대통계학
불편성
불편추정량

점추정량  의 표본분포의 기대값이 모수  와 같을 때 점

추정량  은 모수의 불편추정량(unbiased estimator)이라
고 한다.

E ( )  


2
1

바이어스
EXCEL활용 현대통계학

7
점추정과 신뢰구간 추정
EXCEL활용
현대통계학
효율성
효율추정량
불편추정량 중에서 분산이 작은 추정량을 효율추정량
(efficient estimator)이라고 한다.


Var ( 1 )  Var ( 2 )

f ( )

1

2


EXCEL활용 현대통계학

8
점추정과 신뢰구간 추정
EXCEL활용
현대통계학
일치성
일치추정량

표본크기가 증가할수록 추정량  이 모수  에 더욱 근접
하는 추정량을 일치추정량(consistent estimator)이라고
한다.

f ( )
n  500
n  100
n  20
n5


EXCEL활용 현대통계학

9
점추정과 신뢰구간 추정
EXCEL활용
현대통계학
충족성
충족추정량
충족추정량(sufficient estimator)이란 모수  를 추정하기
위하여 추출하는 동일한 크기의 표본으로부터 가장 많은
정보를 제공하는 추정량을 말한다.
EXCEL활용 현대통계학
10
점추정과 신뢰구간 추정
EXCEL활용
현대통계학
모수와 추정량
모수
추정량
평
균 ( )
분
산
( 2 )
표준편차 ( )
비율
EXCEL활용 현대통계학
( p)
표본평균
(X )
표본분산
(S 2 )
표본표준편차 (S )
표본비율

( p)
11
신뢰구간 추정
EXCEL활용
현대통계학
■ 신뢰구간 추정
신뢰구간 추정의 성격
신뢰구간
신뢰구간(confidence interval)이란 모수가 특정확률로 포
함될 것이라고 주장하는 범위를 말한다.
EXCEL활용 현대통계학
12
신뢰구간 추정
EXCEL활용
현대통계학
■ 신뢰구간 추정
신뢰구간 추정의 성격
신뢰수준
신뢰수준(level of confidence)이란 모수의 참값이 두 신뢰
한계 안에 포함될 것이라고 주장할 때 확률을 사용하는 확
률로서 신뢰도(confidence)라고도 한다.
EXCEL활용 현대통계학
13
신뢰구간 추정
EXCEL활용
현대통계학
■ 신뢰구간 추정
신뢰구간 추정의 성격
오차율
신뢰구간 설정
EXCEL활용 현대통계학
14
신뢰구간 추정
EXCEL활용
현대통계학
■ 신뢰구간 추정

왜 표준편차대신 표준오차를 쓸까?
• 표준편차 : 추출한 한 장의 카드가 상자의 평균으로부터 떨어져 있는
정도
• 표본평균의 표준오차 : 추출한 카드들의 평균이 상자의 평균으로부터
떨어져 있는 정도
신뢰구간을 구할 때 표준정규분포곡선을 쓰는 근거는?
•
중심극한정리 : 개별관측치의 히스토그램이 정규분포곡선과 다르더라
도 표본평균의 확률히스토그램은 그 모양이 정규분포곡선과 유사해진다.
EXCEL활용 현대통계학
15
모평균의 신뢰구간
EXCEL활용
현대통계학
■ 모평균의 신뢰구간
모표준편차를 아는 경우
모수를 모르는 상태에서 표준편차를 알고 있다는 것은 드문 일
이지만 과거 경험에 의해서 알고 있다고 가정하자.
 에 대한 100(1   )% 신뢰구간


 
  1  
P X  Z
   X  Z
n
n


2
2
EXCEL활용 현대통계학
16
모평균의 신뢰구간
EXCEL활용
현대통계학
■ 모평균의 신뢰구간
모표준편차를 아는 경우
EXCEL활용 현대통계학
17
모평균의 신뢰구간
EXCEL활용
현대통계학
■ 모평균의 신뢰구간
모표준편차를 아는 경우
EXCEL활용 현대통계학
18
모평균의 신뢰구간
EXCEL활용
현대통계학
■ 모평균의 신뢰구간
모표준편차를 아는 경우
EXCEL활용 현대통계학
19
모평균의 신뢰구간
EXCEL활용
현대통계학
모표준편차를 모르는 경우(대표본)
모집단의 표준편차를 모르고 표본크기가 큰 경우는 모집단의
분포가 어떻든 간에 모평균의 신뢰구간은 다음 공식을 이용한
다.
 에 대한 100(1   )% 신뢰구간 :  를 모르지만 n  30 인 경우
EXCEL활용 현대통계학
20
모평균의 신뢰구간
EXCEL활용
현대통계학
EXCEL활용 현대통계학
모표준편차를 모르는 경우(대표본)
21
모평균의 신뢰구간
EXCEL활용
현대통계학
모표준편차를 모르는 경우(소표본)
모집단의 평균과 표준편차를 모르고 표본크기가 n<30 인 경우
는 표준정규분포를 따르지 않고 자유도 (n-1)의 t분포를 따른
다.
t 분포
평균 인 정규모집단으로부터 크기 n의 표본을 무작위로
추출했을 때 그 평균이 X 이고 표본표준편차가 s일 때 표
본통계량(t 통계량) t는
t
X  X
S n
으로 자유도 (n-1)인 t 분포를 따른다.
EXCEL활용 현대통계학
22
모평균의 신뢰구간
EXCEL활용
현대통계학
t 분포의 특성
1. t 분포(t distribution)는 표준정규분포와 같이 평균 0을
가지며 확률밀도 함수는 평균을 중심으로 종모양의 좌
우대칭을 이룬다.
2. t 분포의 밀도함수는 표준정규분포보다 큰 분산을 갖게
된다.
3. 표본크기가 클수록(자유도가 클수록) t 분포는 표준정규
분포에 근접한다.
모평균의 신뢰구간
EXCEL활용 현대통계학
23
t 분포
EXCEL활용
현대통계학
■ t 분포표의 이용
자유도
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
EXCEL활용 현대통계학
0.1
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.296
1.289
0.05
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.671
1.658
0.025
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.000
1.980
오른쪽 꼬리면적
0.01
0.005
31.821
63.656
6.965
9.925
4.541
5.841
3.747
4.604
3.365
4.032
3.143
3.707
2.998
3.499
2.896
3.355
2.821
3.250
2.764
3.169
2.718
3.106
2.681
3.055
2.650
3.012
2.624
2.977
2.602
2.947
2.583
2.921
2.567
2.898
2.552
2.878
2.539
2.861
2.528
2.845
2.518
2.831
2.508
2.819
2.500
2.807
2.492
2.797
2.485
2.787
2.479
2.779
2.473
2.771
2.467
2.763
2.462
2.756
2.457
2.750
2.423
2.704
2.390
2.660
2.358
2.617
α
0.0025
127.321
14.089
7.453
5.598
4.773
4.317
4.029
3.833
3.690
3.581
3.497
3.428
3.372
3.326
3.286
3.252
3.222
3.197
3.174
3.153
3.135
3.119
3.104
3.091
3.078
3.067
3.057
3.047
3.038
3.030
2.971
2.915
2.860
0.001
318.289
22.328
10.214
7.173
5.894
5.208
4.785
4.501
4.297
4.144
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.610
3.579
3.552
3.527
3.505
3.485
3.467
3.450
3.435
3.421
3.408
3.396
3.385
3.307
3.232
3.160
0.0005
636.578
31.600
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
3.819
3.792
3.768
3.745
3.725
3.707
3.689
3.674
3.660
3.646
3.551
3.460
3.373
24
t 분포
EXCEL활용
현대통계학
EXCEL활용 현대통계학
t 분포표
25
t 분포
EXCEL활용
현대통계학
■ t 분포
100(1   )%
EXCEL활용 현대통계학
26
t 분포
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ t 분포
27
t 분포
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ t 분포
28
t 분포
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ t 분포
29
모비율의 신뢰구간
EXCEL활용
현대통계학
■ 모비율의 신뢰구간
표본비율의 표본분포

평
균 :
표준편차 :
E ( p)  p
 

p
p (1  p )
n
모비율 p에 대한 100(1   )% 신뢰구간(대표본)
EXCEL활용 현대통계학
30
모비율의 신뢰구간
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 모비율의 신뢰구간
31
표본크기 결정
EXCEL활용
현대통계학
■ 표본크기 결정
모평균을 추정할 경우
표본크기의 결정: 를 아는 경우
 Z
 2
n
 e






2
표본크기의 결정:  를 모르는 경우
2


 t   S 2  (t  ) S 2
n 1,
 n1, 2 

2 
n


e2
e




EXCEL활용 현대통계학
32
표본크기 결정
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본크기 결정
33
표본크기 결정
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본크기 결정
34
표본크기 결정
EXCEL활용
현대통계학
모비율을 추정하는 경우
표본크기 결정: 표본비율을 아는 경우

 Z
n   2



p(1  p) 


e




2
표본크기 결정(표본비율을 모르는 경우)
 Z  0.5 
 2

n

e




EXCEL활용 현대통계학
2
35
표본크기 결정
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ 표본크기 결정
36
모분산의 신뢰구간
EXCEL활용
현대통계학
■ 모분산의 신뢰구간
 2 분포
 2 분포
평균 , 분산  2인 정규분포를 따르는 모집단으로부터 크
기 n의 표본을 무작위로 반복하여 추출하고 각 표본에 대
2
해 분산 S 2 을 계산하였을 때 확률변수  은

2
n 1

(n  1)S 2
2
2
으로 자유도 (n-1)인  분포를 따른다.
EXCEL활용 현대통계학
37
모분산의 신뢰구간
EXCEL활용
현대통계학
2 의 값
f  2 
면적  
 df2 ,
EXCEL활용 현대통계학
2
38
모분산의 신뢰구간
EXCEL활용
현대통계학
EXCEL활용 현대통계학
모분산의 신뢰구간
39
모분산의 신뢰구간
EXCEL활용
현대통계학
EXCEL활용 현대통계학
모분산의 신뢰구간
40
모분산의 신뢰구간
EXCEL활용
현대통계학
EXCEL활용 현대통계학
모분산의 신뢰구간
41
모분산의 신뢰구간
EXCEL활용
현대통계학
EXCEL활용 현대통계학
모분산의 신뢰구간
42
모분산의 신뢰구간
EXCEL활용
현대통계학
EXCEL활용 현대통계학
모분산의 신뢰구간
43
모분산의 신뢰구간
EXCEL활용
현대통계학
모분산의 신뢰구간
모분산에 대한 100(1   )% 신뢰구간


2 
 (n  1) s 2
(n  1) s
2
p 2
  2
 1

 
  n1,
n 1,1

2
2 
EXCEL활용 현대통계학
44
모분산의 신뢰구간
EXCEL활용
현대통계학
EXCEL활용 현대통계학
모분산의 신뢰구간
45
모분산의 신뢰구간
EXCEL활용
현대통계학
EXCEL활용 현대통계학
모분산의 신뢰구간
46
Excel 활용
EXCEL활용
현대통계학
■ Excel 활용
[1] [예 8-1]
EXCEL활용 현대통계학
47
Excel 활용
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ Excel 활용
48
Excel 활용
EXCEL활용
현대통계학
EXCEL활용 현대통계학
■ Excel 활용
49