PowerPoint 프레젠테이션

Download Report

Transcript PowerPoint 프레젠테이션

Regression Analysis
(회귀 분석)
0
Regression 이란
종속변수의 변화를 독립 변수들의 선형조합으로 설명하는 분석 기법
종속변수와 독립변수를 사이에 존재하는 통계적 관계를 추정하는 기법
변수간의 상호관계를 분석하며, 특정변수의 변화로부터 다른 변수의 변화를 예측
 Simple Regression vs. Multiple Regression
Simple Regression : 독립변수가 1개인 경우
y = a + bx + e
ex) 매출액에 대한 광고비의 영향력
Multiple Regression : 독립변수가 2개 이상인 경우
y = a + b₁x₁ + b₂x₂+ bnxn + e
 모델의 예측력 개선 (설명되지 않은 오차 감소)
 e (error term/residual) : 독립변수 이외의 변수들이 종속변수에 미치는 효과
1
Regression의 목적
ⅰ) 종속변수의 값을 독립변수의 값들로 추정
ⅱ) 종속변수와 독립변수 사이에 존재하는 관계 검토
cf) Multi-collinearity (다중 공선성) – 독립 변수 값의 관계
ⅲ) 회귀분석 적용의 적합성 검토
ⅳ) 회귀분석을 이용한 예측의 통계적 유의성을 검증
2
Regression의 기본원리
y = a + bx + e (회귀식)
y^= a^+ b^x (추정식)  a^과 b^ 추정
e = y - y^
(관찰치와 예측치의 차이)
 Least Square Method (Ordinary Least Square : OLS)
: 오차의 제곱의 합을 최소화하는 최소 제곱법
y₁
y
e₁= y - y^
= TSS
y^= a^+b^x
e₁
 Rss
ESS = y^- y
y
Rss
Ess
Tss=e₂ e₃
e4
x
3
Minimize ∑ei = ∑[yⅰ- (a^+b^x)]2
e = y - y^= (y - y) + (y - y^)
∑(y - y^)2 = ∑(y - y)2 + ∑(y - y^)2
Tss = Rss + Ess  Explained sum of square
Residual Sum of Square
Total sum of square
 Error의 정의
TSS (Total Sum of Square) : ∑(y - y^)2

실제치(y) 와 추정치(y^)의 차이의 제곱의 합
RSS (Residual Sum of Square) : ∑(y - y)2
실제치(y)와 y의 평균( y )와의 차이의 제곱의 합
Unexplained Error (회귀선으로 설명이 안 되는 분산)
ESS (Explained Sum of Square) : ∑(y - y^)2
y의 평균( y )와 추정치(y^)의 차이의 제곱의 합
4
Regression의 접근방법
① Simultaneous (or direct) method : “Enter”
- 독립변수의 전체집합으로부터 회귀 모델 도출
② Stepwise Method : “Stepwise”
- 각 독립변수의 설명력을 근거로 하여 독립변수를 하나씩 순차적으로
회귀모델에 포함시키는 방법
Regression을 위한 유효 Sample size
: 총 변수 ×10 = 유효 Sample
5
Analysis
가) Goodness of Fit (설명력)
R2
ESS
RSS
= ---- = 1 - ----TSS
TSS
∑(y - y^)2
∑(y - y^)2
= ----------- = 1 - ----------∑(y - y^)2
∑(y^- y^)2
(회귀선으로 설명되는 분산이 많을수록, 이 회귀선의 설명력이 높다)
 Adjust R2
: 독립변수의 증가로 인한 자유도의 감소를 고려한 R2
R2
∑(y-y)2/(n-k)
= 1 - ---------------- Where
∑(y-y^)2/(k-1)
n = 표본의 수
k = 추정치의 수
(전체 변수의 수)
 Multiple R : 종속변수와 독립변수의 상관관계
6
나) 유의성 평가/검증
 F 검증
Ho : 회귀모델을 사용함으로써 얻어진 오차의 감소가 유의적이지 않다
ESS / n-k
MSR
F = ---------- = ----- ~ F (K-1, n-k)
RSS / (K-1)
MSE
F 값이 크면 회귀선이 설명할 수 있는 설명력이 크다
7
 t - 검증
: 각 독립변수의 Coefficient가 0인지 아닌지 검증하는 방법
실제로 모집단의 분산(σ2)를 모르기 때문에 t-분포
Ho : b^ = 0 (H₁: b≠0)
b^- b
t = ------------ - tα(n - k+1)
√‾Var(b^)
S2
Where Var (b^) = --------∑(x-x)2
신뢰구간 : P[b± t
0.95
SD > b^] = 95x
8
Output의 이해
[Analysis of Variance]
DF
Sum of Squares
Mean Square
Regression
K-1
ESS
MSR = ESS / K-1
Residual
n-k
RSS
MSE = RSS / n-k
F = F - Statistics
Signif F = F의 Significance level
[Variables in the Equation]
B : Coefficient (회귀계수)
SE B : Coefficient의 Standard Error
Beta : 종속변수에 대한 각 독립변수의 상대적 중요성
(연관성의 크기 B를 표준화 한 수치)
즉, 독립변수의 한 표준편차 (One standard deviation)만큼의 변화가
종속변수에 발생시키는 변화의 크기
9
T : t - Statistics
B
= ------ (t 값이 커질수록 유의성 증가)
SE B
In case, n > 30, if T > 2, B = 0 는 rejected
Sig T : B의 유의수준 (B = 0를 reject하는 유의수준)
회귀식 : y = 0.48169 + 0.63224X₁+ 0.21585X₂
(1.461)
(0.252)
(0.108)
*괄호 안은 유의 수준
10
Regression의 접근방법
(a)
Multiple R
R Square
Adjusted R Square
Standard Error
(b)
Analysis of Variance
Regression
Residual
F
.92810
.86138
.80593
.78099
DF
Sum of Squares
Mean Squares
2
5
15.53440
18.95027
3.04973
Sigrif F = .0072
9.47514
.60995
(c)
Variables in the Equation
Variable
X₂
X₁
(Constant)
B
.21585
.63224
.48169
SE B
.10801
.25231
1.46141
Beta
.44971
.56388
T
1.998
2.506
.330
Sig T
.1021
.0541
.7551
11
Regression 적용의 예
(Example 1) 만족도 평가에서 만족도에 영향을 주는 실제적인 요인 도출 및
영향력 정도 평가
전반적 만족도 = f (요인평가)
* 설문방법 : 요인만족도 척도 평가
요인1 (
)
요인2 (
)
.
.
.
전반적 만족도 (
)
* 영향을 주는 요인 산출
 각 요인의 유의성 검증 (t-test)
* 전반적 만족도에 영향력 정도 평가
 β값 비교
12
(Example 2) 구매의향에 영향을 주는 요인 도출
구매의향도 = f (요인평가)
Ex) Brand A (Shampoo) 구매
Shampoo A의 구매의향
향기가 좋다
(
)
색깔이 좋다
(
)
.
.
.
용기가 마음에 든다 (
)
13
(Example 3) 기업별 선호 이미지 요인 산출
Ex) 기업이미지 요인 평가(Ⅰ)
기업 A의 선호도 = f (기업이미지 요인)
삼성
1) 진취성
(
)
(
2) 연구개발노력
(
)
(
3) 전통성
(
)
(
4) .
(
)
(
.
다음 기업들을 좋아하는 정도?
LG
)
)
)
)
대우
(
(
(
(
)
)
)
)
1) 삼성
2) L G
3) 대우
(
(
(
)
)
)
Ex 2) 기업이미지 요인 평가 (Ⅱ)
삼성 최선호 여부 = f (기업이미지 요인)
Logistic Analysis
(삼성 최선호 = 1, otherwise = o)
14
Regression을 통한 Prediction이 유효할 조건
ⅰ) 표본이 추출된 시점에서의 여건과 측정된 관계가 예측된 시점에서의 여건이
유사하여야 한다.
ⅱ) 표본자료가 포괄하는 독립변수의 범위 내에서만 종속변수를 추정해야 함.
 표본자료의 평균에 가까운 자료일수록 예측력이 높다
15
회귀분석의 기본가정
(가정 1) No Heteroscedasticity 종속변수의 Error tern의 분산의 X값에 따라
변화해서는 안 된다 (Homoscedasticity)
즉, X값의 변화에 따라 Y가 가질 수 있는 값의 평균은 달라도 평균을 중심으로
한 분산을 동일하야야 함.
Var(y₁) = Var(y₂) = 2
y₂
y₁
X₁
X₂
16
(가정 2) No autocorrelation
Error Term간에 상관관계가 없어야 한다
만약, 있다면 종속변수의 값들이 체계적인 연관성을 가지고 있음을 시사
(방안) 상관관계가 높은 변수들을 하나로 묶거나, 한 개의 변수를 drop
할 수 있음.
* 변수간의 상관관계 검증 : Durbin - Watson Test
O ≤D ≤4
┌ D = 2 : No correlation
├ D > 2 : + 상관관계
└ D > 2 : - 상관관계
∑(Et - Et)
D = ---------- = 2(1-r)
∑ Et2
D=0
D=0
D = 2 (r=1)
D=4
D=2 (r=1)
ρ= +1
ρ= 0
D=4
ρ= -1
17
(가정 3) E ~ N (0, 62)
(가정 4) No multi-collinearity
: 독립 변수간의 상관관계가 높지 않아야 한다.
- 독립 변수간의 상관관계가 높으며 회귀식은 유의성이 있어도
특정 독립변수의 유의성이 낮아짐.
 독립변수와 종속 변수간의 진정한 관계를 밝히기 어려움
(8) Dummy Variable의 도입
Dummy Variable : 명목 척도로 측정된 변수
EX) 성별, Social class, 날씨, 계절 등
계절성(Seasonality) 검증의 경우
Sales of Beer Brand A = f (광고지출액, 브랜드 인지율…, 계절성)
y = a + d₁D₁+ d₂D₂+ d₃D₃+ b₁X₁+ … + e
D가 가질수 있는 최대 범주 -1
18
변수의 변환 (Linear Transformation)
① 2차 다항식
y = ao + b₁xo + b₂x₂
x  x₁
x2
 x₂
 y = ao + b₁xo + b₂x₂
② 지수모델
x₁ x₂ x₃
xn
ⅰ) y = ao b₁ b₂ b₃ ……… bn
양변에 log를 취함
log y = log ao + x₁log b₁+ x₂log b₂+ …… + xn long bn
put Ao = log ao , B₁ = log b₁, ……
b₁
b₂
b₃
bn
ii) y = ao X₁ X₂ X₃……… Xn
양변에 log를 취함
log y = log ao + b₁log x₁+ b₂log x₂+ …… + bn long xn
put log ao = Ao, log x₁= X₁, log x₂= X₂, ……
log y
* ------- = X₁에 대한 y의 Elasticity
log X₁
19
③ Curviliar model
ⅰ) y = ao + 3b₁/ x
3
put --- = X  y = ao + b₁X
x
b₁
ⅱ) y = aox
양변에 log를 취함
log y = log ao + b₁log x
put log y = Y, log x = X
then, Y = log ao + b₁X
b₁
x₁
ⅲ) y = -------b₂
x₂
양변에 log를 취함
log y = log ao + b₁log x₁+ b₂log x₂
put log y = Y, log X₁, logx₂= X₂
then, Y = log ao + b₁x₁ + b₂x₂
20
④ Nonlinear model
y = ao + b₁x₁+ (b₁+ b₂)x₂
put b₁+ b₂ = b₃
then, y = ao + b₁x₁+ b₃x₂ ……… ⓐ
Estimate ⓐ
Calculate b₂( = b₃- b₁)
Use ao, b₁, b₂ as initial values
21
Binary Dependent Variable
ⅰ) dep, Variable이 metric  multiple Regression
ⅱ) dep, Variable이 non-metric
 (Logistic Regression) Linear probability model 적용
(non-metric dep. Variables)
Logistic Regression (Logit analysis)
: when dep. Var이 binary(dichotomous)일 때의 regression
binary variable : ⅰ) 구입여부
ⅱ) 성공/실태 (응답확률이 각각 50%인 경우)
ⅲ) Yes/No
Ex) y = a + b₁x₁+ b₂x₂+ b₃x₃+ b₄x₄+ e
y : 구입의향
x₂: 디자인 평가
x₁: 성능평가
x₄: 메이커 선호
prob [Yes]
----------- = ao + b₁x₁+ b₂x₂+ …… + bn xn
prob [No]
22