Transcript Document
목차 EXCEL활용 현대통계학 제 7 장 표본분포 ■ ■ ■ ■ ■ ■ ■ ■ EXCEL활용 현대통계학 표본조사 표본추출방법 표본분포 표본평균의 표본분포(복원추출) 표본평균의 표본분포(비복원추출) 중심극한정리 비율의 표본분포 Excel 활용 1 표본조사 EXCEL활용 현대통계학 ■ 표본조사 표본 조사 모집단의 모수에 대해 어떤 결론을 내리기 위해서는 자료를 수집할 때 전수조사(census)를 하거나 또는 표본조사(sampling)를 하는 방법이 있다. 표본추출방법을 사용하는 이유 시간절약, 비용절약, 파괴검사의 경우, 모집단에 접근할 수 없는 경우 EXCEL활용 현대통계학 2 표본추출방법 EXCEL활용 현대통계학 표본 추출방법 표본추출(sampling) 표본(sample) 통계량(stiatistic) 모집단 (population) 모수 (parameter) 모수추정 : 추정량(estimator) 통계량(stiatistic) 모수추정 : 추정치(estimate) 가설검정 : 가설검정 : 검정통계량(test statistic) 검정통계치(test statistic) 사전적 의미 - 확률변수 사후적 의미 - 실현치 추론 (inference) EXCEL활용 현대통계학 3 표본추출방법 EXCEL활용 현대통계학 표본조사 표본오차와 비표본오차 표본추출을 할 때는 모집단의 특성을 대표할 수 있는 요소들 로 표본을 구성해야 한다. 그러나 모집단을 구성하는 모든 요소들을 조사하여 얻은 결 과가 그의 일부를 조사하여 얻은 결과와 똑같을 수는 없기 때 문에 오차가 발생한다. 오차의 종류 표본오차 (sampling error)는 모집단 전체를 조사하지 않고 다만 그의 일부분인 표본을 추출하기 때문에 발생하는 오 차를 말한다. 비표본오차(nonsampling error)는 자료측정이나 표본선정 에 잘못이 있기 때문에 발생하는 오차이다. EXCEL활용 현대통계학 4 표본추출방법 EXCEL활용 현대통계학 잘못된 표본 추출의 예 1936년 미국 대통령 선거결과의 예측 루즈벨트의 득표율(%) EXCEL활용 현대통계학 실제선거결과 62 다이제스트사의 예측 43 다이제스트사의 예측치에 대한 갤럽의 예측 44 선거결과에 대한 갤럽의 예측 56 루즈벨트 승리 랜던 승리 루즈벨트 승리 5 표본추출방법 EXCEL활용 현대통계학 잘못된 표본 추출의 예 표본조사에서의 편의와 그 종류 편의 : 표본이 모집단과 어떤 체계적인 차이를 드러 내는 것 • 표본추출편의 : 표본이 모집단을 대표하려면 표본추출에 있 어 체계적인 왜곡이 없어야 함 • 무응답편의 : 응답하지 않는 사람들은 응답하는 사람들과 체 계적으로 다를 수 있음 • 응답편의 • 표본으로 뽑힐 확률은 가구원수가 많은 가구의 구성원이 적 은 가구의 구성원보다 낮음 EXCEL활용 현대통계학 6 표본추출방법 EXCEL활용 현대통계학 잘못된 표본 추출의 예 표본추출 편의 : 전화번호부나 클럽회원 명단에서 파악한 주소를 이용하여 여론조사 -당시 전화나 클럽은 부의 상징 -가난한 사람들은 표본에서 배제 -가난한 사람에게 인기있는 루즈벨트에게 불리한 예측치 나옴 무응답편의 : 설문지를 받은 천만 명 중 240만 명만이 응답 -저소득층이나 고소득층이 응답을 거부하는 경향이 커서 중산층의 의견이 과도하게 반영됨 -루즈벨트의 지지자들이 주로 응답하지 않음 EXCEL활용 현대통계학 응답 편의 - 사람들은 조사표의 양식, 디자인 또는 조사원의 태도에도 영향을 받음 - 후보자의 이름 순서도 영향을 줌 - 모든 응답자들이 가급적 같거나 비슷한 조사원과 정해진 규칙대로 면담해야 함 가구 편의 -표본으로 뽑힐 확률은 가구원수가 많은 가구의 구성원이 적은 가구의 구성원보다 낮음 -해결책은 다단계 군집추출방식 7 표본추출방법 EXCEL활용 현대통계학 표본 추출방법 표본을 추출하는 방법은 크게 확률추출방법(probability sampling)과 비확률추출방법(nonprobability sampling) 이 있다. 확률추출방법에는 단순무작위 추출, 층별 추출, 체계적 추출, 군집 추출 등이 있다. 확률추출방법은 객관적이므 로 표본오차의 측정이 가능하다. 비확률추출방법은 조사자의 주관에 의하여 표본을 임의 로 추출하는 방법으로서 표본오차를 객관적으로 측정할 수 없다는 결점을 갖는다. 여기에는 판단추출과 편의추 출이 속한다. EXCEL활용 현대통계학 8 표본추출방법 EXCEL활용 현대통계학 단순무작위추출 여러 가지 방법 중에서 단순무작위 추출방법(simple random sampling)이 중요한데 그 이유는 많은 통계적 기법이 이에 기초하기 때문이다. N개의 요소로 구성된 모집으로부터 표본크기 n개의 요소를 선정한다고 할 때 단순무작위방법은 n개의 가능한 각 표본이 똑같이 1/N의 확률로 선정될 수 있도록 설계된 방법이다. 모집단의 크기가 표본크기보다 훨씬 크다면 비복원추출일지 라도 크게 문제될 것은 없다. 예) 복권추첨, 아파트추첨 EXCEL활용 현대통계학 9 표본추출방법 EXCEL활용 현대통계학 층별추출 층별추출(stratified sampling)은 모집단을 부, 지역, 연령, 성별, 교육 같은 일정한 기준에 의하여 동질적인 그룹(층)으 로 분류한 다음 각 그룹으로부터 표본을 단순무작위로 추출 하는 방법이다. 각 그룹에서 추출하는 표본의 수가 모집단의 구성비율을 따 를 때 비례적 층별추출이라고 한다. 층별추출은 모집단의 특성을 더욱 정확하게 반영한다는 장 점을 갖는다. 층별추출이 효과적인 때는 특성에 있어 층간에 는 차이가 크지만 층 내에서는 차이가 별로 없는 경우이다. EXCEL활용 현대통계학 10 표본추출방법 EXCEL활용 현대통계학 체계적 추출 모집단이 큰 경우 단순무작위 추출방식을 사용하면 시간과 비용상 비경제적이므로 체계적 방법(systematic sampling) 을 사용할 수 있다. 모집단의 크기가 100이고 표본크기가 5이면 표본간격을 20=100/5으로 정하고 모집단을 순서대로 번호를 부여한 후 첫 20명 중에서 1명을 무작위 추출한 후 20의 간격으로 5개 의 표본을 추출하는 방법이다. 예) 9, 29, 49, 69, 89 EXCEL활용 현대통계학 11 표본추출방법 EXCEL활용 현대통계학 군집추출 군집추출(cluster sampling)이란 모집단을 군집(그룹)으로 구분하고 이 중에서 단순무작위방식으로 조사대상인 군집을 선정하는 방식이다. 선정된 군집에 대해서 전수조사를 하거나 일부의 표본을 추 출하게 된다. 군집추출이 효과적인 경우는 층별추출과 반대의 경우로 군 간에는 동질적이고 군 내에서는 이질적인 특성을 갖는 경우 이다. EXCEL활용 현대통계학 12 표본추출방법 EXCEL활용 현대통계학 다단계 군집추출 갤럽의 표본 추출방식 EXCEL활용 현대통계학 • 거주지를 바탕으로 해 서 표본수를 할당한다. • 각 단계마다 확률적 방 법을 통해 표본을 추출 한다. 13 표본추출방법 EXCEL활용 현대통계학 전화조사 • 갤럽 : 전화번호를 컴퓨터 작업을 통해 단순 무 작위 추출로 뽑는다. 분석목적에 따라 전화번호 를 지역별로 추출할 수도 있고 전국을 대상으로 추출할 수도 있다. • 전화가 없는 사람이 있는 사람과 선호가 다르면 전화조사에 있어 편의를 가져온다. • 요즘은 집 전화와 휴대 전화를 어떻게 구분하여 처리할 것인가의 문제도 고려해야 한다. • 전화에 응답하지 않는 것도 편의를 일으킬 수 있 다. → 갤럽: 응답률을 높이기 위해 저녁, 주말 에 전화조사, 전화를 받지 않을 경우 반복전화 EXCEL활용 현대통계학 14 표본추출방법 EXCEL활용 현대통계학 편의추출 비확률 추출기법의 하나인 편의추출방법은 표본이 조사자의 편의에 의해서만 선정되는 방법이다. 비교적 쉽게 표본을 선정하고 자료를 수집하는 장점이 있으 나 모집단을 제대로 대표할 수 없다는 단점을 갖는다. 판단추출 판단추출방법은 모집단의 특성을 잘 아는 전문가가 모집단 을 가장 잘 대표하리라고 믿는 요소들을 표본으로 추출하는 방법이다. EXCEL활용 현대통계학 15 표본분포 EXCEL활용 현대통계학 ■ 표본분포 표본분포 표본분포(sampling distribution)란 주어진 모집단으로부터 크기 n의 확률표본을 수없이 반복하여 추출한 결과로 얻은 표본통계량의 확률분포를 말한다. EXCEL활용 현대통계학 16 복원추출 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(복원추출) 표본평균 x 는 확률변수로 이들 표본평균들은 확률분포를 갖 는데 이를 표본평균의 표본분포(sampling distribution of the sample means)라고 한다. 평균의 표본분포 평균의 표본분포란 표본평균 x의 모든 가능한 값들의 확률 분포를 말한다. EXCEL활용 현대통계학 17 표본분포 EXCEL활용 현대통계학 ■ 평균의 법칙 x EXCEL활용 현대통계학 18 표본분포 EXCEL활용 현대통계학 ■ 평균의 법칙 앞면이 많이 나왔다 고 해서 이후의 시도 에서 앞면이 나올 확 률이 감소하는 것이 아니다. x 던지는 횟수가 증 가한다고 해서 앞 면이 나오는 횟수 와 기대횟수의 차 이가 줄어드는 것 은 아니다. EXCEL활용 현대통계학 19 표본분포 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 평균의 법칙 20 표본분포 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 평균의 법칙 21 복원추출 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(복원추출) 22 복원추출 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(복원추출) 23 복원추출 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(복원추출) 24 복원추출 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(복원추출) 25 복원추출 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(복원추출) 26 표준오차 EXCEL활용 현대통계학 ■ 기대값과 표준오차 - 기대값 하나의 확률 과정에 의해 결정되는 숫자는 하나의 값 주위로 분포한다. 이 분포의 중심이 되는 값을 기대값(expected value)이라고 한다. - 표준오차 기대값과 차이가 나는 정도를 표준오차(standard error)라고 부른다. EXCEL활용 현대통계학 27 표준오차 EXCEL활용 ■ 기대값과 표준오차 현대통계학 • 상자의 표준편차 : 상자로부터 하나의 값을 추출할 때 이 값이 상자의 평 균(모평균)으로부터 얼마나 떨어져 있는가를 나타내는 지표 • 표본평균의 표준오차(SE) : 추출한 값들의 평균(표본평균)이 모평균과 얼마나 떨어 져 있는가를 나타내는 지표 • 표본의 표준편차(SD) : EXCEL활용 현대통계학 표본 내 하나의 값이 표본평균과 얼마나 떨어져 있는가 를 나타내는 지표. 이는 상자의 표준편차에 대한 추정 치 28 표준오차 EXCEL활용 현대통계학 ■ 기대값과 표준오차 5가 한 장, 1 이 세 장 들어 있는 상자로부터 100회 무작위복원추출을 한다면… EXCEL활용 현대통계학 29 표준오차 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 기대값과 표준오차 30 표준오차 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표준오차 31 표준오차 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표준오차 32 표준오차 EXCEL활용 현대통계학 ■ 표준오차 주사위 하나를 60번 던졌다. (1) 나온 숫자들의 합은 대략 ( )이고, ( ) 정도 차이가 날 수 있다. ☞ 상자의 평균 : 3.5, 상자의 표준편차 : 1.71 기대값은 210, 표준오차는 1.71 60 13.25 이다. (2) 6이 나올 횟수는 대략 ( )이고, ( ) 정도 차이가 날 수 있다. ☞ (1/6)60 = 10 새로운 상자 모형 대략 10번 정도 나온다. 3 정도의 오차가 존재한다 EXCEL활용 현대통계학 33 복원추출 EXCEL활용 현대통계학 평균의 표본분포의 기대값과 분산 기대값과 분산 E ( x) x xP ( x) Var ( x) x2 ( x x ) 2 P ( x) x ( x x )2 P( x) 모집단의 분포와 평균의 표본분포와의 관계 E ( x) x Var( x) 2 x x EXCEL활용 현대통계학 2 n n 34 복원추출 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(복원추출) 평균의 표본분포의 기대값과 분산 EXCEL활용 현대통계학 35 복원추출 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(복원추출) 평균의 표본분포의 기대값과 분산 EXCEL활용 현대통계학 36 복원추출 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(복원추출) 평균의 표본분포의 기대값과 분산 EXCEL활용 현대통계학 37 비복원추출 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(비복원추출) 2 x 2 n 을 사용하는 경우 1. 무한모집단이거나 2. 유한모집단이지만 복원추출하거나 3. 유한모집단이지만 n이 N의 5%이하인 경우 2 x 2 n N n N 1 을 사용하는 경우 1. 유한모집단에서 비복원추출하거나 2. 유한모집단이지만 n이 N의 5%보다 큰 경우 EXCEL활용 현대통계학 38 비복원추출 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(비복원추출) 39 비복원추출 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(비복원추출) 40 비복원추출 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(비복원추출) 41 비복원추출 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(비복원추출) 42 비복원추출 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 표본평균의 표본분포(비복원추출) 43 중심극한정리 EXCEL활용 현대통계학 ■ 중심극한정리 모집단이 정규분포를 따를때 평균 , 분산 2인 정규모집단으로부터 표본크기 n을 무작위 로 수없이 추출할 때 표본평균 x 의 표본분포는 평균 x, 분산 2 x 인 정규분포를 따른다. 이를 정규표본분포라고 하며, n 2 X ~ N ( x , x ) 으로 표현한다. 2 EXCEL활용 현대통계학 44 중심극한정리 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 중심극한정리 45 중심극한정리 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 중심극한정리 46 중심극한정리 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 중심극한정리 47 중심극한정리 EXCEL활용 현대통계학 ■ 중심극한정리 모집단이 정규분포를 따르지 않을 때 중심극한정리(central limit theorem)란 확률변수 X의 모집단 분포가 정규분포가 아니더라도 표본크기 n 30 이면 평균의 2 표본분포는 평균 x , 분산 x 로 정규분포를 따른다는 n 정리이다. 2 EXCEL활용 현대통계학 48 중심극한정리 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 중심극한정리 49 중심극한정리 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 중심극한정리 50 비율의 표본분포 EXCEL활용 현대통계학 ■ 비율의 표본분포 경영/경제문제에서는 성공비율을 분석해야 하는 경우가 있다. 예를 들면 시장점유률, 제품의 불량률, 정당 또는 후보의 지지율 등이 있는데 이를 모비율이라고 한다. 모비율과 표본비율 x 모집단에서 발생하는 성공횟수 N 모집단을 구성하는 모든 요소 x 표본에서의 성공횟수 ˆ p 표본비율 : n 표본크기 모비율 : p P(성공) 비율의 표본분포 비율의 표본분포란 모집단으로부터 동일한 표본크기 n을 무작위로 수없이 추출하여 그들의 비율을 구했을 때 나타 나는 표본비율들의 확률분포를 말한다. EXCEL활용 현대통계학 51 비율의 표본분포 EXCEL활용 현대통계학 비율의 표본분포의 기대값과 표준오차 기대값 : E( pˆ ) p p(1 p) n 2 분산 : pˆ 표준오차 : pˆ pˆ EXCEL활용 현대통계학 p (1 p ) n (무한모집단) p (1 p ) N n n N 1 (유한모집단) 52 비율의 표본분포 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 비율의 표본분포 53 비율의 표본분포 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 비율의 표본분포 54 비율의 표본분포 EXCEL활용 현대통계학 표본비율과 정규분포 np 5, nq 5 np Z Z EXCEL활용 현대통계학 np(1 p) pˆ p pˆ ( pˆ 1 ) p 2n pˆ 55 비율의 표본분포 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ 비율의 표본분포 56 Excel 활용 EXCEL활용 현대통계학 ■ Excel 활용 [1] [예 7-1] EXCEL활용 현대통계학 57 Excel 활용 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ Excel 활용 58 Excel 활용 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ Excel 활용 59 Excel 활용 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ Excel 활용 60 Excel 활용 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ Excel 활용 61 Excel 활용 EXCEL활용 현대통계학 EXCEL활용 현대통계학 ■ Excel 활용 62