상관분석과 단순회귀분석

Download Report

Transcript 상관분석과 단순회귀분석

단순(선형)회귀분석
n개의 관찰 값 : 두 변수 X와 Y
( X1 ,Y1 ), ( X 2 ,Y2 ), , ( X n ,Yn )
예 : 서강대 학생 50명의 키와 몸무게 측정
키 : X,
몸무게 : Y
학생
X
1
2
175
167
100
183
Y
70
53
85
( X1 , Y1 )
( X 2 , Y2 )
( X n , Yn )
단순선형 회귀분석
두 개 또는 그 이상의 변수 간의 함수관계를
추정하는 방법
모수들(parameters) 간에 선형관계
설명변수가 1개인 경우
예
Y    X
 1
Y    
X
Y    X 2
Y  Ae X  l nY  l n A   X  l nY     X
Y  AX   l nY  l n A   l n X  l nY     l n X
독립변수 :1개
모수들이 선형관계
( ,  )
Y
Yi    X i
Yi
ui
일반적으로 모든 점들이
직선상에 있지 않다.
(즉 일반적으로 ui  0 )
0
Xi
X
ui : 교란항(disturbance term)
일반적으로 ui  0 , 왜 ?
(1) 생략된 변수들 때문
(2) Model misspecification
(3) 인간행위의 무작위성
(4) Yi 의 측정오차
Yi    X i  ui
E[Yi ]    X i for all i
(1) E[ui ]  0 for all i
(2) Var[ui ]   2 for all i
i 와 상관없이 모두 같은 분산을 갖는다.
(3) Cov[ui , u j ]  0 for all i and j  i
표본에서 교란항의 공분산은 모두 영이다.
(4) X i : fixedfor all i
Var[Yi ]   2 for all i
Y
X  X1 일 때 Y값은 여기 어디에 나타남
그러나 기대값으로는 E[Y1 ]    X1
E[Yi ]    X i
  X i
Var[ui ]   2 for all i
  X 2
; 분포의 분산이 모두 동일
   X1
X
0
X1
X2
Xi
예 : 다음과 같은 조건이 주어져 있다고 하자.
Yi  11  0.4 X i  ui
Xi
E[Yi ]
Var[Yi ]
25
and
20
 2  Var[ui ]  0.5
15
10
5
0
<표본 회귀선>
Yi    X i  ui
; 모집단 회귀선
Yi  a  bXi  ei
; 표본 회귀선
a , b ; 회귀계수
e i ; 잔차(residual)
표본을 이용하는 경우의 회귀선과 모집단 전체의 회귀선 간에는
차이가 발생할 수 있다.
궁극적으로는 모수인  와  를 알고자 하나 표본을 추출하여
a 와 b 를 이용하여 모수인  와  를 추측하게 된다.
(1) a 와 b를 구하는 공식을 어떻게 도출해야 하는가 ?
(2) 도출된 공식(estimator)은 ?
(3) 이 공식은 어떠한 성격을 가지고 있는가 ?
이 공식은 확률변수
분산공식의 도출
(4) 설명력 ?
(5) 실제 자료를 이용하여 구하는 점 추정치
(6) 가설검정
(7) 여러 가지 현실 예
1. 최소 이승법 [(Ordinary) Least Squared Method]
“OLS 추정법”이라고도 불리운다.
a 와 b 를 구하는 공식을 어떻게 도출해야 하는가 ?
Y
Yˆi  a  bXi
Yi
ei
Yˆi  a  bXi
0
Xi
X
(1) 가능한 e i 들이 작도록 a 와 b 를 구하여야 하는가 ?
e
즉 Min
(2)
e
i
e
i
?
i
0 ?
No !
No !
 0 의 의미 ?
Yi  a  bX i  ei   Yi   a  b X i   ei
Y


X

ab
0
( X , Y ) 을 지난다.
i
n
e
i
n
i
 Y  a  bX
Y
B
( X , Y ) 을 지나는 모든
직선은  ei  0 의 조건을
만족시킨다.
Y
즉 AB의 직선이 된다는
보장이 없다.
A
0
X
X
따라서
e
i
 0 이 하나의 조건이 되지만 또 다른 조건이 필요 !
미지수 2개 : a , b
식이 2개 필요한데 1개의 식만 주어진 것임
(3)
Min
a, b
2
e
i
; 최소 이승법
여기서 ei  Yi  a  bXi
2. 공식의 도출
W  Min
a, b
W
0
a
2
e
i
and
where
W
0
b
ei  Yi  a  bXi
; 미지수 2개, 식 2개
W
0
a
 2Y  a  bX (1)  0  (Y  a  bX )  0
i
e
i
i
or
Y
i
(1)
i
i
0
(1)
 na  b X i
(1’)
Y  a  bX
(1’’)
W
0
b
 2Y  a  bX  X   0  (Y  a  bX ) X
i
i
e X
i
i
i
0
i
i
i
(2)
or
2
X
Y

a
X

b
X
 ii  i  i
(2’)
0
Y  na  b X
 X Y  a X  b X
i
(1’)
i
i i
i
(2’)
2
i
a 를 소거하기 위해 (2' )  n  (1' )   X i
n X iYi  na X i  nb X i2

 X i  Yi  na  X i  b  X i

n X iYi   X i Yi  b n X i2 

2
 X  
2
i
양변을 n으로 나누면
 X Y  n X Y  b  X
i i
X Y  n XY

b
 X  nX
i
i
2
i
2
or
2
2
i  nX 


X  X Y  Y 

b
 X  X 
i
i
2
i
or
b
S XY
S X2
From (1’’)
Y  a  bX
a  Y  bX
따라서 추정량들(estimators)
S XY
b 2
SX
a  Y  bX
or

X  X Y  Y 

b
 X  X 
i
i
2
i
3. 도출된 공식의 특성은 ?

X  X Y  Y 

b
와 a  Y  bX
 X  X 
i
i
2
의 특성 ?
i
(1) Linear estimator(선형 추정량) : 확률변수 Yi 혹은 ui 와 선형관계
1

a     X wi 
n

Xi  X
where w i 
 X i  X 2 : fixed
b   wiYi



X  X Y  Y   X  X Y  Y  X

b

 X  X 
 X  X 
i
i
i
i
2
i
2
i
i
X
0

Y
1


a  Y  bX 
  w Y  X     w X Y
n
n

i
i
따라서
a 와 b 는 Yi
i
i
i
들과 선형관계에 있다.
(2) Unbiased estimator(불편 추정량)
E[b]  
E[a]  
Yi    X i  ui : population
Yi  a  bXi  ei
: sample
b   wiYi   wi   X i  ui     wi    wi X i   wi ui
 X X
i
 wi   
 Xi  X




2


 X  X 
 X  X 
i
2
i
0
 ( X  X )X 
i 

 wi X i    i
2

 Xi  X 


 X
 X
i
i

 X
X
2
2
1
b   wiYi   wi    X i  ui     wi    w i X i   wi ui
    wi ui
 E [b ]  

   
 E    X  u X E[b]
E [a ]  E Y  b X  E Y  E b X
  X  X 
 E [a ]  
(3) Best estimator (최량 추정량)
선형 불편 추정량 중에서 가장 분산이 작은 추정량이다.
(도출은 생략)
Linear estimator
Unbiased estimator
Best estimator
BLUE(Best Linear Unbiased Estimator)
Var[b]  Var  w1u1  w 2 u2    w n un 
 w12 2  w 22 2    w n2 2
  2  w i2
Note:
 Var[b] 
2
 X
i
X

2
1

a     wi X Yi
n

2
1

Var[a]     wi X  Var[Yi ]
n

 2  Yi    X i  ui 
0 2
1
1
2




  2    wi X   2   2  X  wi  X  wi2 
n
n

n

2
1
 Var [a ]   2  
n




2
X i  X 
X
2

 Var[b] 
2
 X
i
X

2
1
Var [a ]   2  
n




2
X i  X 
X
2

 2 : unknown
Se2
 S b2 
e


2
i
를
n2
S
 X
i
2
e
X

 2 대신에 이용(증명은 생략)
2
1
S a2  S e2  
n




2
X i  X 
X
2

4. 설명력 ?
관찰치의 Y 값들의 차이 ( Yi  Y )
= 설명변수인 X 에 의해 설명되어지는 부분( = A)
+ 설명변수 X 에 의해 설명되지 않는 부분(= B)
상대적으로 A의 부분 > B부분
설명력이 높다
상대적으로 A의 부분 < B부분
설명력이 낮다
Y
0
Y
(a)
X
(b)
0
어느 직선의 방정식이 점들을 보다
더 설명을 잘 할 수 있다고 보는가 ?
X
Y  Y   Yˆ  Y  e
i
i
i
Yi
ei
Yˆi
설명변수에 의해 설명되지 않는 부분
Yˆ  Y 
설명변수에 의해 설명되는 부분
i
Y
0
X Xi
X
설명력을 나타낼 수 있는 기준으로 삼을 수 있는 공식은 ?
Y  Y   Yˆ  Y  e
i
i
i
만약 단순히 합하면
 Y  Y    Yˆ  Y   e
i
(항상)
i
0
0
i
i
Y
   Yˆ  Y  e 
2


i
0
2
i



  Yˆi  Y 2   ei2  2 Yˆi  Y ei
 Y  Y 
i
2

 b  X i ei  X  ei
따라서 제곱을 하여 합한다.
 Y

 b X i  X ei
0

  Yˆi  Y
  e
2
2
i
0

 Y  Y 
i
2

 Yˆ  Y 
i
2

2
e
i
잔차변동
(Error Sum of Squares;ESS)
회귀변동
(Regression Sum of Squares; RSS)
전변동
(Total Sum of Squares; TSS)
TSS = RSS + ESS
1 
RSS
ESS

TSS
TSS
R 2 ; 결정계수 설명력을 측정하는
공식
R2

Yˆ  Y 


 Y  Y 
2
i
i
2
or
R2  1 
2
e
 i
 Y
i
Y

2
두 변수 X, Y (n = 31)
∑X = 1,860, ∑Y = 465, ∑X Y = 23,400
∑X = 201,600, ∑Y = 7,975
i
i
2
i
i i
2
i
(1) a, b = ?
1,860
X=
= 60 ,
31
465
Y=
= 15
31
X Y - nXY
∑
b=
∑X - nX
i i
2
i
2
a = Y - b X = 18
= - 0.05
(2)
e
∑
=
Se2
2
i
n- 2
=?

2
(
)
(
)
∑e = TSS - RSS = ∑Yi - Y - ∑Yi - Y
2
2
i
∑(Y - Y ) = ∑Y - nY = 1,000
∑(Yˆ - Y ) = ∑(a + bX - a - b X )
2
i
2
2
i
2
i
2
i
1 ,000 - 225
∴S =
≈26 .72
29
2
e
=b
2
∑(X
- X ) = 225
2
i
(3)
Sb2 = ? Sa2 = ?
2
b
S =
Se2
∑(X
i
- X)

2
2 1
Sa  Se  
n

2

26 .72
=
= 0.00072
90 ,000

 = 1.9307
2
X i  X 
X
2

5. 실제 자료의 적용?
Excel을 이용한 자료의 예
6. 신뢰구간 및 가설검정
t
a 
~ t n 1
Sa
S a2 
Se2 
S e2  X i2

n X i  X
2
e
i
n2
도출과정은 생략
b
t
~ t n 1
Sb

2
S b2 
S e2
 X
i
X

2
<신뢰구간>
a 
t
~ t n 1
Sa
b
t
~ t n 1
Sb


a 
P  t 0 
 t 0   1   0
n 2,
Sa
2 
 n 2, 2


b
P  t 0 
 t 0   1   0
n 2,
Sb
2 
 n 2, 2
<가설검정>
예:
Yi    X i  ui
n  30
Yˆi  120.1  2.1X i
H0 :   0
H1 :   0
(1)
Sb  0.7
의미 : 설명변수 X가 들어가야 하는 변수인가 ?
If H0 :   0 이 맞다면
b   2.1
t

 3.0
Sb
0.7
(2) 5%의 유의수준에서 기각역의 임계값 =  2.0452
(3) Reject H0 :   0 즉 설명변수 X가 Y를 설명하는데 필요
7. 여러 가지 현실 예
식품 지출비와 소득간의 관계 : 예
EX i    M i
햄버거 가격과 소비량간의 관계 : 예
Qi    Pi
lnQi     ln Pi
Capital Asset Pricing Model(CAPM) : 예
ri  r f   (rm  r f )
ri  r f     (rm  r f ) 을 추정하고  에 대한 가설 검정
소득과 세금간의 관계: 예
평균세율과 한계세율
광고가 기업수비에 미치는 영향 : 예
TRi    Pi  ADi