Transcript Document

표본분포
1. 백화점 사례
겸임교수 홍승표
백화점 사례
가나 백화점의 박정준 사장은 오늘 최근 두 달간의 매출보고서를 보고 깜짝 놀랐다. 보고서에는 최근
매출이 두 달간 연속적으로 감소하고 있음을 나타내고 있었기 때문이었다. 박 사장은 최근 매출이 증
가하지 않았지만 현상유지 하고 있다고 생각하였다. 박 사장은 대책을 논의하기 위하여 긴급 간부회
의를 소집하였다. 간부들은 왜 긴급회의가 소집되었는지를 알고 있었으므로 무거운 분위기에서 회의
가 진행되었다. 박 사장의 매서운 질책이 있자 간부들은 모두 자기 부서의 잘못이 아니라 타 부서의
잘못이 크다고 변명하기 시작하였다.
▣ 이 문제를 어떻게 해결할 것인가? :
– 최근 두 달간의 매출 감소 현상을 가지고 심각하게 고려해야 할 매출 감소추세를 나타내는지. 아니
면 단지 일시적인
매출감소 현상에 불과 한지를 어떻게 판정할 것인가?
ㅡ 부분 정보를 가지고 전체를 파악하려는 문제: 통계학에서는 표본조사와 추론(통계적 추정과 가
설검정)이라는 제목
으로 다루어지고 있음.
2. 서론
겸임교수 홍승표
▣ 서론 :
위 백화점 사례는 기업이 최적 의사결정을 내리기 위해 행하는 전형적인 하나의 과정을 예시
– 최적의 의사결정이 되기 위한 조건
1. 정확한 의사결정이 되어야 함(정확성)
2. 정확한 의사 결정이 신속하게 적시에 의사결정자에게 제공(신속성)
3. 의사결정시 많은 비용이 소요되어서는 안 됨(경제성)
▣ 표본조사의 목적 :
– 전수조사를 하게 되면 정확성은 보장되는 대신에 신속성과 경제성을 희생.
– 정확성과 신속성/경제성의 균형이 필요. 이러한 삼자간의 균형점을 찾고자 하는 것이 표본조사에
서 공부하는 주 목적
2.1 표본조사·신뢰수준·유의수준
겸임교수 홍승표
▣ 표본조사 :
– 표본조사는 말 그대로 전체를 조사치 않고 대상의 일부만을 조사하는 것.
▣ 신뢰수준 :
– 표본 조사가 95%의 정확성을 갖고 있을 때 우리는 이를 95% 신뢰수준(confidence level)이라고 표
현.
ㅡ신뢰수준은 100(1-α)%으로 표시
▣ 유의수준 :
– 전부를 조사하지 않는 표본 조사이기 때문에 부득이하게 발생하는 부정확성을 유의수준
(significance level)
ㅡ유의수준을 표시 할 때 α(알파)로 표시, 예를 들어 α=0.05면 유의수준은 0.05이고 신뢰수준은
95%
▣ 모집단(population)과 모수(parameter) :
– 모집단이란 간단히 말해 모든 조사 대상이 구성하고 있는 전체 집단
ㅡ 모집단의 성질을 측정 가능한 수치화 시킨 것을 모수라 함
2.1 표본조사·신뢰수준·유의수준
겸임교수 홍승표
▣ 표본(sample)과 표본통계량(sample statistics) :
– 표본(sample)이란 모집단의 일부인 부분 집합
– 이 표본의 어떤 수치화 된 성질을 표본 통계량 (sample statistics) 이라 함
ㅡ
2
ㅡ대표적인 것이 표본 평균 (X)와 표본 분산(S )
▣ 모수와 표보통계량과의 관계 :
– 실제로 우리가 현실적으로 구할 수 있는 것은 표본통계량.
ㅡ우리가 구한 표본 통계량을 가지고 모수를 알아 맞히는 과정을 통계학에서는 추론(inference)
ㅡ추론에는 추정(estimation)과 가설검정(hypothesis test)이라는 두 가지 형태
▣ 추정(estimation)과 가설검정(hypothesis test) :
– 추정이란 구한 표본 통계량의 값을 가지고 모수의 값을 구하는 과정
ㅡ가설검정이란 모수의 진위(즉 옳고 그름)를 표본 통계량을 구해 가지고 판단하는 과정
▣ 유의수준과 신뢰수준 :
– 표본조사 결과에는 반드시 신뢰수준이나 유의수준의 값을 미리 선언함으로써, 표본조사 결과의
정확도를 표시
ㅡ 유의수준α가 많아야 0.05 이하가 되어야 그 표본조사의 정확도를 인정(95%의 신뢰수준이 보장)
3.1 표본통계량과 그 분포(표본분포)의 배경
겸임교수 홍승표
▣ 배경 :
– 평균과 분산이 모집단의 성질을 나타내는 대표적인 모수
– 우리가 모수에 대해 알고자 할 때, 표본조사를 통해 대신 얻는 표본 통계량에 대한 이해가
필요, 특히 관심의 대상이 되는 것이 표본통계량의 확률분포(표본분포)와 그 평균, 분산인
것
3.2 표본분포의 필요성
겸임교수 홍승표
▣ 필요성 :
– 우리가 하는 것은 표본통계량(조사된 표본의 성질)을 가지고 모수(알고자 하는 모집단의 성질)를
추론하고자
하는 것
ㅡ추론에는 표본통계량과 모수, 양자간의 관계를 안다면 가능하여 질 것
예를 들어 X값을 가지고 Y값을 알고자 할 때 양자의 관계 즉, Y=2X라는 관계를 안다면 Y값을 아
는 것이 얼마든지
가능
ㅡ이와 같이 표본 통계량과 모수간의 관계식의 역할을 해 주는 것이 표본분포임.
ㅡ표본통계량을 가지고 모수를 추론할 때 양자간의 관계인 표본 분포에 대한 이해가 반드시 필요
3.3 표본분포의 간단한 예
겸임교수 홍승표
▣ 5명이 모집단인 대학원생들의 통계학 점수를 알고자 함 :
– 2명을 표본으로 선택하여 표본조사를 실시하여 추론하고 함.
ㅡ 모집단의 크기는 5이고 모수는 5인 통계학 평균 성적이며 표본 집단의 크기는 2이고 표본 통계
량은 2인의 통계학
평균 성적임.
▣ 모든 가능한 표본의 평균과 분산 :
▣ 표본평균의 평균과 표본평균의 분산 :
3.3 표본분포의 간단한 예
ㅡ
▣ 표본평균 X 분포의 특성 :
겸임교수 홍승표
ㅡ
4.1 표본평균(X)의 이론적 확률분포
겸임교수 홍승표
▣ Z 분포 :
– 정규분포의 성질
– 관심을 갖고 있는 대상이 정규분포를 하는 경우에 문제를 풀어 구체적인 확률의 값을 구할 때는
이를 표준정규분포
로 바꾸어 이용. 이때 이 표준 분포를 Z분포하고 함.
ㅡ
4.1 표본평균(X)의 이론적 확률분포
겸임교수 홍승표
▣ 중심극한이론 :
– 만약, 모집단으로부터 추출하는 표본의 수가 충분히 크다면, 모집단의 분포에 관계없이 는 근사
적으로 정규분포를
따른다는 것으로 알려져 있음. 이것이 바로 중심극한이론(CLT: Central Limit Theorem) 임.
– 중심극한의 이론을 요약하면, 평균이 µ이고 표준편차가 σ인 임의의 모집단으로부터 크기 n의 확
률표본을 추출했
을 때 그 평균 는 n이 충분히 크면(보통 30이상을 말함) 근사적으로 다음을 따름
– 중심극한 이론 덕분에 우리가 표본 집단을 30개 이상으로만 한다면 모집단의 확률분포와 모분산
을 몰라도 표본평
균의 분포는 Z분포를 그대로 적용할 수 있음. 종국적으로 바람직하게 표본평균과 모평균 간의 관
ㅡ
4.1 표본평균(X)의 이론적 확률분포
겸임교수 홍승표
▣ t분포 :
– 모평균의 추론에 사용되는 분포는 앞서 다룬 바 있는 표본평균의 분포로서 정규분포가 있음.그런
데, 표본의 크기가
작은 경우에는 정규분포의 사용이 곤란하며, 그 때 사용되는 분포가 t분포.
– t분포이 확률변수는
(여기서 n-1은 자유도)
▣ 자유도 :
– 자유도란 자유로운 값을 가질 수 있는 변수의 수. 만약에 변수가 값을 자유로이 가질 수 없는 상
호아이 된다면
그 변수는 이미 변수라 할 수 없는 것임. 따라서 자유도란 어떤 상황에서 변수의 역할을 하는 변
▣
Z분포와
t분포 요약 :
수만의
수
4.2 표본분산의 표본분포
▣
겸임교수 홍승표
분포 :
– 확률변수 Zi가 각각 표준정규분포 N(0,1)을 따르고 서로 독립일 때, 다음의 새로운 확률변수
의 분포를 자유도(degrees of freedom : df) k의 카이 제곱분포(X-square distribution)라 함.기호로
나타내면
ㅡ카이제곱분포의 특성은 자유도에 의해 결정되며, 자유도가 변함에 따라 분포의 형태가 어떻게 달
라지는지를 다음의
그림에서 보이고 있는데, 이 분포는 정규분포와는 달리 좌우대칭형태가 아님을 볼 수 있음
4.2 표본분산의 표본분포
겸임교수 홍승표
▣ F 분포 :
– 두 정규모집단의 분산의 크기를 비교하는데 사용하는 분포로서 F본포가 있음,
ㅡ V1과 V2를 각각 자유도 n1, n2인 카이제곱분포를 따르는 서로 독립인 확률변수라 할 때, 새로
운 확률변수 F를
이라 하면, F는 자유도 (n1, n2)인 F-분포를 따른다고 하며, 기호로 F~F(n1, n2) 나타냄.
F분포의 형태는 두 개의 자유도에 따라 다르지만 대체로 다음의 형태를 지니고 있음. 아래 그림에
서 보는 바와 같이
F~F(n1, n2)일 때 P{F ≥f}=α가 성립하는 f의 값을 자유도 (n1, n2)인 F분포의 100(1- α)% 백분위수
라하
며, F(n1, n2, α)또는 Fa(n1, n2)로 표기.
4.3 표본비율의 분포
겸임교수 홍승표
▣ 표본비율 분포 :
– 특정 제품에 대한 시장 선호도 조사, 각종 선거에서의 지지율 조사와 같은 것들은 모두 모집단의
특성인
모비율을 추정하기 위한 것
ㅡ 모집단에서 특정한 속성을 갖는 개체의 비율 p에 대한 점추정은 크기 n인 확률분포에서 특정한
속성을 갖는 개체
의 수를 X라 할 때,
모집단 비율의
p의 추정치로
▣ 표본비율
의 분포의
특성 사용
:
4.4 표본집단을 추출하는 방법(선택적)
겸임교수 홍승표
▣ 합리적인 표본 추출방법 :
– 통계분석 대상이 되는 모집단이 명확하게 정의되면, 이모집단으로 부터 몇 개의 데이터를 어떤
방법에 의헤 표본으
로 선정할 것인지를 결정
▣ 확률적 표본 추출 : 무작위 표본추출, 계층화 표본추출, 군집 표본 추출, 체계적 표본
추출
▣ 단순 무작위 표본추출법(simple random sampling) :
– 모집단 내의 모든 구성요소들이 표본에 포함도리 확률을 동일하게 하는 방법
4.4 표본집단을 추출하는 방법(선택적)
겸임교수 홍승표
▣ 군집 표본추출법(cluster sampling) :
– 군집 표본추출법은 우선 모집단을 군집(cluster)으로 나눈 다음 각 군집으로부터 모집단을 대표할
수 있도록 군집
에서 단순무작위 추출방법을 의미
▣ 층화 표본추출법(stratified sampling) :
– 층화 표본 추출은 우선 모집단을 층(strata)이라고 불리는 하위 그룹으로 분류한 다음 각 층으로
부터 무작위 추출을
시행하여 개체를 선택하는 방법
4.4 표본집단을 추출하는 방법(선택적)
겸임교수 홍승표
▣ 계통 표본추출법(systematic sampling) :
– 무작위 추출이 가질 수 있는 단점인 시간이 많이 소요되고 표본이 어느 한쪽으로 편중될 수 있는
단점을 보완하기
위하여 시간적으로 또는 공간적으로 일정한 간격을 두고 표본을 추출하는 방법
▣ 비확률적 표본 추출 : 판단 표본추출, 편의 표본추출, 퀴터 표본 추출
▣ 판단 표본추출법(judgment sampling) :
– 판단 표본추출은 모집단을 가장 잘 대표할 수 있는 표본을 의사결정자의 판단에 의거하여 선택하
게 하는 방법
▣ 편의 표본추출법(convenience sampling) :
– 편의 표본추출은 표본을 구성할 수 있는 가장 편리한 개체를 선택하는 방법
▣ 퀴터 표본추출법(quota sampling) :
– 퀴터 표본추출은 의사결정자의 재량에 의해 그룹별로 미리 할당을 한 후 각 하위그룹별로 가장
편리한 개체를
선택하는 방법