모집단과 표본

Download Report

Transcript 모집단과 표본

기초통계
통계
 통계학(statistics)  국가산술(state arithmetic)
 불확실성이 내포된 자료의 수집, 분석, 추정, 검정을 통하여 의사결정에 필요한
정보의 획득과 처리방법을 연구하는 학문 (decision-making science)
 어느 대상이나 집단에 속한 수량적 자료를 체계적으로 모은 것
 수량적 자료의 수집, 도표화, 분석, 해석, 보고 등을 다루는 과학
표본설계 : 실험을 통하여
표본의 Data를 얻으려는
표본설계(실험설계)
조치와 행동
모집단
의사결정
표본의 선택
검토
정보의 획득
표본의 Data
통계적 분석
-2-
관찰 / 수집
통계적 사고
통계적 사고 (statistical thinking)은 다음 네가지 근본 원칙에 근거하여 배우고 생각하며,
실천하는 하나의 철학임.
 모든 작업은 상호연관된 프로세스의 시스템
예) 열처리 작업 공정
원료 투입 공정
가열 공정
냉각 공정
 모든 프로세스에는 산포가 존재
동일 원료
동일 생산공정
산포발생
가피원인
불가피원인
동일 작업자
동일 방법
-3-
통계적 사고
산포 파악과 산포 감소 활동
프로세스 산포
감소 활동
제품 품질
산포 감소
고객 만족
비용 절감
잘못 판단하는 과오를 고려
표본 자료의 결과로 부터의 판단의 오류를 주의
프로세스
자료
산포
통계적 기법
통계적 방법
통계적 사고
통계적 사고란 단순한 숫자의 조합이나 계산이 아니라 품질 혁신을 위해 생각하는
방법이며, 사고의 과정임.
-4-
통계의 역할
수준의 파악 및 비교
품질 (Quality)
척
통계 (Statistics)의 역할
데이터 수집 ; sampling
표본
모집단
확률이론
확률
확률변수
확률분포
기초
제공
가능성의 정량화, 표준화
f ( x;  )
Θ =μ,σ,‥
X1
x1
X2
x2


Xn
xn
p, ‥
   0 ? ˆ  1 ( x1 , x2 ,, xn )
p  p0 ? pˆ   2 ( x1 , x2 ,, xn )
:
:
통계적 추론
모수 추정, 가설검정
데이터 처리
척도 계산, 분포 유추
추측 통계학
기술 통계학
-5-
도
불량률 p
평균 μ
산포 σ
etc.
통계의 역할
예
특정 화학 접착제의 공정 불량률 p는?
불량 기준 : LSL = 69kg
시료 추출
접착제 모집단
강도의
분포
f ( x;  )
p  0.0005 ?
접착제 강도 X
X1
x1
X2
x2


Xn
xn
0, if X  LSL
Y 
1, if X  LSL
pˆ   y1   yn  n
데이터 처리
불량률에 대한 추정,
가설검정
확률 이론 적용의 예
이론적
~ 이항 분포
확률분포
Y : 계수치 데이터
이론적
~ 정규 분포
확률분포
p̂ : 계량치 데이터
-6-
검정 통계량 : T 
 pˆ  0.0005
pˆ (1  pˆ ) n
통계의 역할
 기타
통계적 모델링 (Modelling) 기법 : 회귀분석 (Regression)
예) CTQ와 Indicator (input, process)간의 관계 (relationship)
성능변수 (Y)와 원인변수 (X)간의 관계
2 pounds45
48
50
통계적 최적화 (Optimization) 기법
: 실험계획 (DOE), 반응표면분석 (RSM),
다구치 방법 (Taguchi method), 모의실험 (Simulation)
45
Catalyst
1 pound40
42
46
예) 수율 (Yield)을 최대화 시키는 공정조건 설정
15% Reactant 25%
-7-
모집단과 표본
모집단(Population)
 조사나 분석의 대상이 되는 어떤 특성을 가진 것들의 전체 집단
 모집단을 설명하는 수치(평균, 표준편차)를 모수(Parameter)라 한다.
유권자 :
각 후보에게 몇 %의
지지를 보낼까?
연구집단
=
모집단
TV : 불량비율은
얼마나 될까?
유권자 집단
TV
-8-
핫도그 : 평균길이는
얼마나 될까?
핫도그
모집단과 표본
내가 궁금한건
핫도그
그자체가
아니라 길이니까….
좀 더 정확하게..
 모집단 (population)이란?
연구 대상이 되는 집단에 대한 모든 가능한 관측값이나 측정값의 집합
연구집단
=
모집단
특정 유권자 의 투표결과
특정 TV의 양&불량 여부
(양, 불량)
(김대중, 김영삼,‥)
-9-
특정 핫도그의 길이
(4cm, 4.5cm,‥)
모집단과 표본
표본(Sample)

모집단의 특성을 파악하기 위하여 모집단으로부터 일부분을 추출한 것.

통계적 처리를 위해 모집단에서 실제로 추출한 관측값 또는 측정값의 집합

표본(Sample; 시료)을 관측하여 얻어진 데이터로부터 계산된 값을 통계량
(Statistic)이라 한다.
연구집단
=
모집단
표본
특정 유권자 의 투표결과
특정 TV의 양&불량 여부
(김대중, 김영삼,‥)
(양, 불량)
특정 핫도그의 길이
(4cm, 4.5cm,‥)
유권자1 유권자2 유권자3
TV1
TV2
TV3
핫도그1
핫도그2
김대중
양
불량
양
3.2cm
5.1cm
김대중
김영삼
표본 추출 단위 (sampling unit) !!
-10-
모집단과 표본
표본 추출 단위 (sampling unit) !!
유권자 개개인
개개의 TV
-11-
개개의 핫도그
모집단과 표본
모집단과 표본의 관계
모집단
 , 2
추정
Data
記述統計學
통계자료를 적절하게 그림, 도
표 또는 수치로 요약하고 그
특성을 기술하는 方法論
표본
-12-
x, s
2
推理統計學
모집단에서 뽑은 표본을 통
하여 모집단의 특성을 예측
또는 추측하는 方法論
모집단과 표본
우리나라
총 유권자는
과연 몇이나
될까?
모집단의 분류 : 표본 추출 단위에 따라...
- 유한 모집단 (finite population)
- 무한 모집단 (infinite population)
: 모집단이 유한 개의 추출단위를
: 모집단이 무한 개의 추출단위를
갖는 경우
갖는 경우
-13-
모집단과 표본
 예 : 특정 공정에서 생산되는 MLB 박판의 두께를 측정하는 경우
추출단위 :
표본 :
하나 하나의 MLB 박판
두께를 측정하기 위해
0.12mm, 0.61mm, ‥
두께
추출된 일부 MLB 박판의 두께
갯수
공정에서 생산되는 모든
0.1mm 미만
모집단 :
MLB박판의 두께 (무한 모집단)
0.1mm ~ 0.2mm
0.2mm ~ 0.3mm
:
:
⇒ 공정에서 생산되는 박판의 두께는 어떤 시점에서 볼 때에는 한계가 있는 것이 틀림없으나
박판을 장래에도 계속해서 무한히 생산해 낸다는 입장에서 볼 때,
보통 무한 모집단으로 취급.
-14-
데이터
현장의 관리, 개선을 추진하기 위해서는 관리 및 개선하고자 하는 것에 대한 상황을 알
리는 것이 필요하며 이와 같은 알림이 없으면 대책을 취할 방법이 없게 된다.
이러한 “어떤 사물에 대한 알림”을 정보라고 하며, 특히 숫자로 나타낸 정보를 데이터라
고 한다.
데이터의 종류
계량치 데이터(Variable Data)

길이, 무게, 온도, 시간 등과 같이 연속적으로 변화하는 값
계수치 데이터(Attribute Data)

불량개수, 재해발생건수 등 세어서 얻을 수 있는 불연속적으로 변화하는 값
데이터의 정리
그래프화 : 도수분포, 히스토그램, 원그래프, 산점도, 피쉬본, dot plot, box plot
숫자화
-15-
모집단의 모습은?
중심위치(Location)
: 관찰된 자료들이 어느 위치에 집중되어 있는가를 나타내준다.
산포(Spread)
형태(Shape)
-16-
중심위치
산술평균(Mean :x )

Xi/n
중위수(Median : )

데이터를 대소의 순으로 배열하여 중앙에 위치한 값
최빈수(Mode : Mo)

돗수표에 있어서 돗수가 최대인 값
~
x
대표값의 비교

분포모양과 대표값의 위치
(a) 대칭분포: 평균 = 중위수 = 최빈수
(b) 왼쪽꼬리 분포: 최빈수 > 중위수 > 평균
(c) 오른쪽꼬리 분포: 평균 > 중위수 > 최빈수

평균은 한쪽꼬리에 있는 별개의 극단적인 값에 의하여 가장 큰 영향을 받는다. 중위수도 영향 을
받으나 그렇게 심하지 않다. 그러나 최빈수는 극단적인 값에 전혀 영향을 받지 않는다.

산술평균은 자료의 극단적인 값에 의하여 영향을 받지만, 중심부위을 측정하는 데 가장 공통적
으로 사용된다. 산술평균은 수학적 연산이 가능하며 加重平均에 의하여 전체집단의 평균을 구할
수 있다. 그러나 중위수나 최빈수는 산술평균이 가지는 수학적 특성을 가지고 있지 못하다. 한편,
중위수는 극단적인 관찰치에 영향을 심하게 받지 않으므로 극단적인 비대칭분포에서는 다른 대
표값보다 적절하게 이용될 수 있다. 최빈수는 대칭분포가 아닌 다른 분포에서는 그리 신뢰할 만
한 대표값이 되지 못한다. 그러나 신발이나 옷 같은 제품을 만들 때에는 최빈수가 산술평균이나
중위수보다 더 유용한 대표값이 될 수 있다.
-17-
산포
변동(Sum of Square : SS)
S   ( Xi  X ) 2   Xi 2 
범위(Range: R)
R  X max X min
2
(
X
i

X
)

불편분산(Mean Square: V)
V 
표준편차(Standard Deviation: s)
s V
-18-
(n  1)
( Xi ) 2
n
분포의 모양
비대칭도(Skewness;왜도) : 치우침. 0보다 크면 왼쪽
( Xi  X ) 3
]
[
S
n
첨도(Kurtosis): 뾰족.
[
( Xi  X ) 4
]
S
n
-19-
통계량 계산
<문> 어떤 식료품검사자가 참치통조림깡통에 들어 있는 불순물의 비율(%)을 알아보기 위해서 7개의 깡통
을 검사해 보았다. 그 결과 다음과 같은 자료를 얻었다.
1.8, 2.1, 1.7, 1.6, 0.9, 2.7, 1.8
중심위치와 산포의 측도들의 값을 구하라.
1) 평균
2) 중위수
3) 변동(제곱합)
4) 불편분산
5) 표준편차
6) 범위
<풀이>
1) 평균 : x 
x
i
n

1.8  2.1    2.7  1.8
 1.8
7
2) 데이터를 크기순으로 나열하면,
0.9, 1.6, 1.7, 1.8, 1.8, 2.1, 2.7 이고,
가운데 있는 데이터가 중위수가 된다. 여기서는 1.8
(데이터의 수가 짝수일 때는 가운데 있는 두수를 더하여 2로 나눈다.)
( xi ) 2
(12.6) 2
2
2
3) 변동(제곱합) : S   ( xi  x )   xi 
 24.44 
 1.76
n
7
4) 불편분산 : V 
S
1.76

 0.2933
n 1 7 1
5) 표준편차 : s 
V 
0.2933  0.5416
6) 범위 : R  xmax  xmin  2.7  0.9  1.8
-20-
통계량 계산
미니탭을 이용한 기초통계량의 계산
Stat ▶ Basic Statistics ▶ Display Descriptive Statistics
2. 데이터 열 입력
1. 데이터 입력
3. OK 누름
-21-
통계량 계산
미니탭 기초통계량 계산결과 설명
Descriptive Statistics
Variable
C3
N
7
Mean Median TrMean StDev SE Mean
1.800 1.800 1.800
0.542 0.205
Variable
C3
Minimum Maximum Q1
2.700
1.600
2.100
0.900
N
: 시료수
Mean
: 시료평균
Median
: 중위수
TrMean
: 상, 하의 각 5%를 제외한 데이터의 평균
StDev
: 표준편차
SE Mean
: 표준편차/√n
Minimum : 최소값
Maximum : 최대값
Q1
Q3
: 1/4분위수
Q3
: 3/4분위수
-22-