제 6 장 상관과 회귀분석

Download Report

Transcript 제 6 장 상관과 회귀분석

제6장
1.
2.
3.
4.
5.
6.
상관과 회귀분석이란 무엇인가
개선 및 분석을 위한 로드맵
KPOV와 KPIV의 이해
KPIV ( RED X’S ) 의 선정
회귀분석의 개념
미니탭을 이용한 회귀분석
개요
두 개의 확률변수들간의 상호관련성에 관심을 갖게 되는 경우가 흔히 있다.
이러한 경우 두 변수 사이의 관계가 있는가를 분석하는 것이 상관분석이다.
회귀분석은 더 나아가서 선형모형을 설정하고, 자료로부터 이 모형을 추정
하여 예측 또는 통계적 추론을 하는 통계적 분석방법이다.
이 장에서는 상관 및 회귀분석에 대한 기본개념과 분석절차를 다루며, 현장
에서 발생되는 각종 분석을 위한 데이터의 상관성을 분석 및 평가 함으로써
문제를 해결하기 위한 목적이다.
학습 목표
1. 상관분석과 회귀분석에 대한 개념 및 기초적인 수학적 이론을 알 수 있도록 한다.
2. 상관분석방법과 회귀분석방법을 알 수 있도록 한다.
3. 관리하고자 하는 품질특성 및 조건에 대하여 상관분석과 회귀분석을 이용하여
Data를 분석하고 관리할 수 있는 방법을 습득한다.
주요 용어
 상관분석 : 두 변수 사이의 관계가 있는가를 분석하는 것이 상관분석이다.
 회귀분석 : 변수들간의 관련성을 규명하기 위한 통계적인 분석방법이다.
 KPOV : Key Process Output Variable의 약어 이며, 핵심 출력특성을 의미한다.
 KPIV : Key Process Input Variable의 약어이며, 핵심 입력특성을 의미한다.
제6장 상관과 회귀분석
1. 상관분석
상관분석이란 ?
두 변수간의 관련성을 연구하는 통계적 분석을 상관분석(Crrelation
Analysis)이라 한다.
이 때 취급되는 n개의 data (xi, yi ),
Distribution)를 따른다고 가정한다.
i
= 1,2, ……, n는 서로 독립적이고 또한 동일한 어떤 이변량 분포(Bivariate
Xi
확률변수
외과의사와 간호사와의 상관관계는 ?
yi
확률변수
제6장 상관과 회귀분석
1. 상관분석
상관분석의 실행 절차는 ?
1) 산점도 Plotting
2) 표본상관계수(r) 산출
3) 상관표에 의한 상관계수의 계산
4) 상관에 관한 검정
제6장 상관과 회귀분석
1. 상관분석
1) 산점도 Plotting
두 변수 사이의 관계를 알아볼 때
가장 먼저 할 일은 서로 대응하는
자료를 좌표평면 위에 점들로 나타
내는 산점도(scatter diagram)를
그려보는 것이다.
①Data를 의미하는 점들이 Positive(+)의 상관인가 Negative(-)의 상관인가 ?
②두 변량 x, y가 직선관계인가 곡선관계인가를 살펴본다.
③이상한 Data가 없나를 살펴보고, 이상점(outlier)발견되면 원인을 규명하여 수정한다.
④점들이 뚜렷하게 두개 또는 그 이상으로 층별되는 경우가 있는가 검토한다.
제6장 상관과 회귀분석
1. 상관분석
1) 산점도 Plotting
이상점을
어떻게 해야
할까?
검정-기각-채택 !
상관관계 의미
가 없으니까,
상관계수값이
필요 없겠지요!
제6장 상관과 회귀분석
1. 상관분석
섬유제품의 신축성 산점도
Positive(+)
102.0
101.0
100.0
수세 이후(mm)
99.0
98.0
97.0
96.0
95.0
94.0
93.0
92.0
96.0
97.0
98.0
99.0
100.0
수세 이전(mm)
101.0
102.0
103.0
제6장 상관과 회귀분석
1. 상관분석
2) 표본상관계수(r) 산출
모집단 상관계수(Population correlation coefficient)
Cov(x,y)는 x와 y간의 공 분산
(Covariance)
을 의미한다.
σ
x
σ
y
와 동일
제6장 상관과 회귀분석
1. 상관분석
2) 표본상관계수(r) 산출
표본상관계수(Sample correlation coefficient)
제6장 상관과 회귀분석
1. 상관분석
2) 표본상관계수(r) 산출
①
②
범위: -1 ~ 1 사이(0인 경우는 상관관계가 없음을 의미)
-1 또는 1에 가까울수록 강한 상관관계를 가지고 있음
(양의 상관관계: 독립변수가 증가할수록 응답도 증가)
(음의 상관관계: 독립변수가 증가할수록 응답은 감소)
피어슨 상관계수(Pearson Correlation Coefficient)
r
 (X i  X )(Y i Y )
 (X i  X ) (Y i Y )
2
2
제6장 상관과 회귀분석
1. 상관분석
대도시의 12지역에 대한 자동차의 배기가스와 대기오염과의 상관관계를 분석
하기 위해, 공기중의 일산화탄소 농도와 발암성 물질인 벤조피렌의 농도를
측정한 결과를 기준으로 상관 분석을 실시함.
일산화탄소와 벤조피렌의 농도측정 결과
시료 번호
일산화탄소( x )
벤조피렌( y )
1
2
3
4
5
6
7
8
9
10
11
12
5.5
5.5
5.5
5.6
5.6
6.8
9.6
10.5
11
12
13
13.3
1
1.3
2.2
1.1
1.5
1.9
3.9
5.5
7.3
5.7
8.1
7.8
 excel 분석 예
표본상관계수 ; r
일산화탄소
일산화탄소
벤조피렌
벤조피렌
1
0.96908172
1
제6장 상관과 회귀분석
1. 상관분석
시료 번호
1
2
3
4
5
6
7
8
9
10
11
12
합계
3) 상관표에 의한 상관계수의 계산
일산화탄소(xi)
5.5
5.5
5.5
5.6
5.6
6.8
9.6
10.5
11
12
13
13.3
벤조피렌(yi)
1
1.3
2.2
1.1
1.5
1.9
3.9
5.5
7.3
5.7
8.1
7.8
103.9
S(x x )=Σx i² - [(Σx i)²/n]
S(y y )=Σy i² - [(Σy i)²/n]
S(x y )=Σx iy i - [((Σx i)(Σy i))/n]
r=(S(x y ))/[(√S(x x ))(√S(y y ))]
47.3
S(x x )
S(y y )
S(x y )
r
Xi²
yi²
30.25
30.25
30.25
31.36
31.36
46.24
92.16
110.25
121.00
144.00
169.00
176.89
1013.01
1.00
1.69
4.84
1.21
2.25
3.61
15.21
30.25
53.29
32.49
65.61
60.84
272.29
113.4
85.85
95.62
0.9691
xi yi
5.50
7.15
12.10
6.16
8.40
12.92
37.44
57.75
80.30
68.40
105.30
103.74
505.16
양(+)의 상관
관계가 있다
제6장 상관과 회귀분석
 Mini TAB 분석 예
상관계수 r값
Data입력은 x, y로 구분입력
제6장 상관과 회귀분석
1. 상관분석
4) 상관에 관한 검정
대립가설 H1:ρ≠0
제6장 상관과 회귀분석
1. 상관분석
4) 상관에 관한 검정
모집단의 상관계수 ρ가 어떤 값을 가질 수 있는가에 대한 가설검정
H0: ρ = ρ0
두변수가 이변량정규분포를 따르고, ρ=0 가 사실이면
통계량 t0수식에 의해 자유도가 n-2 인 t 분포를 한다는
것이 정설임.
H1: ρ ≠ 0
이 가설검정에 대한 결정은 유의수준 α에서 만약
│t0│ > t (n-2 ; α/2)
t0 =
r
1-r2
n-2
이면, H0를 기각하고, 아니면 채택한다.
S(x x )=Σx i² - [(Σx i)²/n]
S(y y )=Σy i² - [(Σy i)²/n]
S(x y )=Σx iy i - [((Σx i)(Σy i))/n]
r=(S(x y ))/[(√S(x x ))(√S(y y ))]
t0 =[r/(√(1-r²)/(n-2))]
S(x x )
S(y y )
S(x y )
r
t0
113.4
85.85
95.62
0.9691
12.43
제6장 상관과 회귀분석
1. 상관분석
4) 상관에 관한 검정
두변수가 이변량정규분포를 따르고, ρ=0 가 사실이면
통계량 t0수식에 의해 자유도가 n-2 인 t 분포를 한다는
것이 정설임.
이 가설검정에 대한 결정은 유의수준 α에서 만약
t 분포표를
근거로 한다.
│t0│ > t (n-2 ; α/2)
이면, H0를 기각하고, 아니면 채택한다.
│t0│ > t (n-2 ; α/2) = 12.40 >[t
(10, 0.025)
= 2.228 ]
결론 : 귀무가설 을 유의수준에서 기각한다. 즉 공기중의 일산화탄소의 농도와
벤조피렌의 농도는 뚜렷한 상관관계가 있다.
제6장 상관과 회귀분석
2. 회귀분석
회귀분석
영국의 우생학자Francis Galton(1822-1911 )
커짐
아
들
의
키
작아짐
작아짐
아버지의 키
. (Regress : 퇴화하다)
Galton 의 결론 : 모든 것은 회귀한다
커짐
제6장 상관과 회귀분석
2. 회귀분석
변수들간의 관련성을 규명하기 위해 어떤 수학적 모형을 가정하고, 이 모형을 측정
된 변수들의 데이터로부터 추정하는 통계적 분석방법
독립변수의 값을 지정하였을 때에 종속변수가 갖는 값의 정확한 추정이 목적
(1) 단순회귀 분석(simple regression analysis)
: 독립변수 1개, 종속변수 1개로 이들 사이의 관계가 직선관계가 가정되는 경우
(2) 중회귀 분석(multiple regression analysis)
: 독립변수 2개 이상, 종속변수 1개의 일차함수를 가정
(3) 곡선회귀 분석 (curvilinear regression analysis)
: 독립변수 1개, 종속변수 1개의 2차 이상의 고차함수를 가정하는 경우
제6장 상관과 회귀분석
2. 회귀분석
절편(상수)
(xi, yi)
설명 안되는 편차

yˆ  ˆ0  ˆ1 x
yi  yˆi
총편차 yi  y
설명되는 편차
yˆi  y
y
xi
x
기울기
SST =
SSR
(총변동) (회귀변동)
+
SSE
(잔차변동)
회귀직선이 유의한가 하는 가설검정은
SSR이 상대적으로 SSE 보다 얼마나
큰가를 분산분석표를 작성하여 F-검정을
통해 알 수 있다.
추정된 회귀직선이 x 와 y 간의 관계를 설명하는데 유의하다.
제6장 상관과 회귀분석
2. 회귀분석
 회귀분석 (최소자승법: Method of Least Square)
Y
Y
( xi, yi )
yi
y = ax + b
y = ax + b
yi - (axi + b)
(axi + b)
xi
x
n
오차(e) 
e
 2  x i { y i  (ax i  b )}  0
a
e
 2  { y i  (ax i  b )}  0
b
x
( x1, y1 ), ( x2, y2 ), ( x3, y3 ), ..., ( xn, yn )
{ y i  (ax i  b )}

i
2
1
 y i  a  xi   b  a  xi  b n
 x iy i  a  x i  b  x i
2
제6장 상관과 회귀분석
2. 회귀분석
 회귀분석 (Realistic Manufacturing Tolerance)
Real input variable control(실 입력 변수관리)
30 Random Time Sequence
or Sample(Experiment)
y
Customer
Requirement
Fitting Line
95% Confience Level
x
Realistic Tolerance
제6장 상관과 회귀분석
2. 회귀분석
 회귀직선의 기여율 ( 결정계수 : R-square )
SSR
,0  R 2  1
SST
SSR / 1
MSR
2
R
(
adjusted
)



SST /(n  1) SST /(n  1)
2
 R 
총변동 중에서 회귀선에 의하여 설명되는 변동이 차지하는 비율
R2 값은 회귀직선을 설명할 수 있는 변수들을 넣으면 넣을수록 좋아진다.
R2 – adj 값은 R2 를 자유도로 나눈 값으로써 변수를 추가할 경우 자유도도 늘어나기
때문에 변수를 무조건 추가한다고 해서 좋아지지 않는다. 실제로 변수들이 모델을
설명할 수 있는 정도를 표시한다.
R2 값과 R2 – adj 값의 차이가 많이 나지 않는 정도에서 설명변수의 개수를 유지
하는 것이 좋다.
제6장 상관과 회귀분석
2. 회귀분석
 잔차분석( Residual analysis )
- 직선관계, 정규성, 독립성, 등분산성 등의 가정이 옳은가를 검토
yˆ
0
정규성
residual
residual
등분산성
제6장 상관과 회귀분석
2. 회귀분석
(Case Study)
대도시의 12지역에 대한 자동차의 배기가스와 대기오염과의 상관관계를 분석
하기 위해, 공기중의 일산화탄소 농도와 발암성 물질인 벤조피렌의 농도를
측정한 결과를 기준으로 상관 분석을 실시함.
일산화탄소와 벤조피렌의 농도측정 결과
시료 번호
일산화탄소( x )
벤조피렌( y )
1
2
3
4
5
6
7
8
9
10
11
12
5.5
5.5
5.5
5.6
5.6
6.8
9.6
10.5
11
12
13
13.3
1
1.3
2.2
1.1
1.5
1.9
3.9
5.5
7.3
5.7
8.1
7.8
 excel 분석 예
제6장 상관과 회귀분석
2. 회귀분석
(Case Study)
제6장 상관과 회귀분석
2. 회귀분석
 데이터 입력
반응치로 쓰일 압력에 로그를
취하고 100을 곱함으로써
반응치의 구간이 늘어나게
되었다.
Pressure일 경우 최저와
최고의 차이가 10정도인
반면 100*log(pressure)는
최저와 최고의 차이가
16 이다.
제6장 상관과 회귀분석
2. 회귀분석
 모형의 구성
반응치
100*Log(Pressure)를
선택한다.
예측할 수 있는 변수에는
끓는 점을 선택한다.
제6장 상관과 회귀분석
2. 회귀분석
 Graphs의 선택사항(1)
잔차들의 히스토그램
잔차들의 정규성 검사
잔차 Vs 회귀모델 추정치
잔차 Vs 관측순서
제6장 상관과 회귀분석
2. 회귀분석
 Graphs의 선택사항(2)
모델의 적합도를 검사하기 위한 잔차 분석
Normal plot of residuals : 잔차들이 정규하게 분포한다면 일반적으로 직선의 형태
로 나타남. 만약 직선을 벗어나 있다면 이 모델은 정규성의 가정을 따르지 않음
Histogram of residuals : 정규분포(종 모양)를 따라야 함
Residuals vs fits : 0값의 양쪽에 랜덤하게 점들이 찍혀야 함. 만약 점들이 상승
하거나 하강하고, +값을 가지거나 -값을 가지는 잔차들이 월등히 많은 경우는
랜덤하지 않은 에러를 나타내는 것임
Residuals vs order : 데이터들의 순서에 따라 모든 잔차들을 플로팅한 것임
랜덤하지 않은 에러나 시간에 관련된 에러를 찾을 때 사용됨
Residuals vs other variables : 다른 변수에 대해서 잔차를 표시함
제6장 상관과 회귀분석
2. 회귀분석
 Options의 선택사항
표시하지 않으면 절편을
나타내지 않음
적당한 회귀모형을 사용
했는지 알아볼 때 check
잔차들의 자기상관을
검출하고자 할 때 check
Predictor들 끼리 상관이 있다면 추정 회귀 보조계수(estimated regression
coefficient) 분산이 얼마나 변하는 지 알고 싶을 때 check
제6장 상관과 회귀분석
2. 회귀분석
 회귀식 분석
제6장 상관과 회귀분석
2. 회귀분석
 Normality Test
Histogram of the Residuals
(response is 100*Log()
Frequency
10
5
0
-0.4
-0.2
0.0
0.2
0.4
0.6
Residual
0.8
1.0
1.2
1.4
제6장 상관과 회귀분석
2. 회귀분석
 잔차분석( Residual analysis ) 결과
Outlier : 측정을 잘못해서 생긴 이상 관측 치
 관측 순서에 대한 잔차
 회귀직선의 Fitted Value 대 잔차
제6장 상관과 회귀분석
2. 회귀분석
[Minitab을 이용한 회귀분석]
Regression Analysis: Brightness versus Temp
회귀방정식
The regression equation is
Brightness = 0.783 + 0.0323 Temp
Predictor
Constant
Temp
Coef
0.7832
0.032302
s=0.3027
SE Coef
T
0.2331
0.004347
3.36
7.43
R-Sq = 88.7%
회귀방정식의 상수 및 인자에 대한
t-검정 내용
P
0.012
0.000
회귀방정식의 결정계수
일반적으로 65%이상이면 방정식이
유의하다고 판단함
R-Sq(adj) = 87.1%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
7
8
SS
5.0607
0.6415
5.7022
MS
5.0607
0.0916
F
55.22
P
0.000
인자의 분산분석
이 경우 F값이 55.22로 매우 크며, p=0.000으로 회귀방정식이 매우 유의함을 알 수 있음
R-sq=88.7%로 전체변동 중에서 회귀식에 의해 설명되는 변동이 88.7%로 매우 높은 편임
제6장 상관과 회귀분석
2. 회귀분석
 Minitab을 이용한 다중 회귀분석
다중회귀분석은 원인인자의 수가 2개 이상인 경우를 말함.
결과치에 대해 각 변수가 선형인 관계에 사용함.
다중회귀방정식의 모형
error
yi = β0 + β1x1i+ β2x2i+············+ βkxki+εi
제6장 상관과 회귀분석
2. 회귀분석
 Minitab을 이용한 다중 회귀분석 ; 예제풀이
[예제] 어떤 공장에서 물의 소비량을 조사하기 위하여 매달의 물소비량(Y),
평균기온(X1), 작업일수(X2)와 작업량(X3)에 관한 데이터를 얻었다.
다중회귀분석을 실시하여라.
제6장 상관과 회귀분석
2. 회귀분석
 excel 분석 예
제6장 상관과 회귀분석
2. 회귀분석
 Minitab을 이용한 다중 회귀분석
Minitab에 Data를 입력한 후, (Stat → Regression → Regression)
제6장 상관과 회귀분석
2. 회귀분석
 Minitab을 이용한 다중 회귀분석
Response에 결과값(Y)의
칼럼을 입력
Predictors에 변수들의 칼럼을
입력(평균기온, 작업일수, 작업량)
Graphs Button의 선택
(잔차의 분포를 파악)
제6장 상관과 회귀분석
2. 회귀분석
 Minitab을 이용한 다중 회귀분석
[Graphs…] Button에서
잔차의 Type은 Regular
잔차 Plot의 종류
-히스토그램
-잔차와 Fix값 비교
제6장 상관과 회귀분석
2. 회귀분석
 Minitab을 이용한 다중 회귀분석
Regression Analysis : Consumption versus Temp. Day. Work
The regression equation is
Consumption = 2.41 + 0.0697 Temp – 0.0248 Day + 0.00588 Work
회귀방정식
Predictor
Constant
Temp
Day
Work
회귀방정식의 계수들에 대한 t-검정임
T값이 높을수록 Y에 공헌을 많이 하는
인자임. 여기서는 P값으로 볼 때.
평균기온이 가장 유의한 인자로 나타남
S = 0.1718
Coef
2.410
0.06968
-0.02477
0.005876
SE Coef
1.123
0.01266
0.04468
0.005030
R-Sq = 92.0%
T
2.15
5.51
-0.55
1.17
P
0.076
0.002
0.599
0.287
R-Sq(adj) = 88.1%
Analysis of Variance
Source
Regression
Residual Error
Total
Source
Temp
Day
DF
1
1
DF
3
6
9
Seq SS
2.00432
0.00227
SS
2.04688
0.17712
2.22400
MS
0.68229
0.02952
F
23.11
- 결정계수(R-Sq)의 값이 92%로 방정식이
아주 유의함
- R-Sq(adj)는 회귀식에 변수가 추가될때마다
R-Sq가 증가하는데 이것을 조정한 값임.
인자가 2개 이상일 경우 이 값이 의미가 있음
전체 변동량에 각 인자들이 미치는 영향을 표시함
제6장 상관과 회귀분석
2. 회귀분석
 Minitab을 이용한 다중 회귀분석
잔차 Plot이 무엇을 의미하는가?
잔차가 무작위로 분포하고, 정규분포를 하고 있는가?
[잔차의 히스토그램]
[잔차의 Fitting값의 산점도]
Histogram of the Residuals
(response is 풀사용량)
Residuals Versus the Fitted Values
(response is 풀사용량)
0.2
3
Residual
Frequency
4
2
0.1
0.0
0.1
1
0.2
0
-0.2
-0.1
0.0
Residual
0.1
0.2
3.0
3.5
Fitted Value
4.0
내용 요약
1. 상관과 회귀분석이란 무엇인가
상관과 회귀분석의 개념을 이해하고, 현업에서 상관분석과 회귀분석을 통하여 문제를 분석
할 수 있도록 학습함.
2. 개선 및 분석을 위한 로드맵
상관과 회귀분석의 학습을 통하여 현장 개선과 분석을 어떻게 전개하는 것이 올바른 것인가를
이해를 할 수 있도록 학습함.
3. 미니탭을 이용한 회귀분석
미니탭 소프트 웨어를 이용하여 SQC를 이해하는 폭을 넓히고, 난해한 수학적인 모델을 이해
함으로서 통계적인 어려움을 소프트웨어를 통하여 쉽게 접근하는 방법을 학습함.