선형통계모형 Linear Statistical Model

Download Report

Transcript 선형통계모형 Linear Statistical Model

선형통계모형
Linear Statistical Model
아주대학교
대학원 산업공학과
2009년 1학기
Weighted Least Squares Method


Unequal variance case
Weighted least squares method
n
Min wi i2  (Y  Xβ) T W (Y Xβ)
i 1
W  diag{w1 , w2 ,, wn }

Normal equation

Weighted LSE
(XT WX)βw  XT WY
bw  (XT WX)1 XT WY
에러의 분산이 다를 경우 사용
Weighted LSE
1.
Error 분산을 알고 있는 경우
Var( i )   i2
2.
Error 분산을 모르는 경우
1) 추정
2) 적절한 pattern 을 이용
wi  k (1/  i2 )
Bias를 0으로 하고 분산을 최소화
Ridge Regression



Multicollinearity 의 경우
Biased estimator 를 사용하여 MSE 를 줄임
Correlation transform 에서
rXX b  rXY
(rXX  cI)b R  rXY
상수 c 는 ridge trace 에서 결정
Robust Regression



Robustness : 가정의 변화에 민감하지 않음
Highly influential case 가 발생하였을 경우
1) measuring or recording error 인가 검토
2) model 의 적합성 검토
3) 다른 변수가 생략되었는가 검토
Robust Regression
1) LAR (least absolute residual) or LAD(deviation)
n
MinL1   | Yi  ( 0  1 X 1    p 1 X p 1 ) |
i 1
2) IRLS (iteratively reweighted least squares)
3) LMS (least median of squares)
세 개의 점의 중간을 선택한 것들로 선을 만듦
Nonparametric Regression



Regression function 에 특정한 형태를 가정하지 않음
Lowess method – Simple regression case
Cleveland and Devlin – multiple regression case
1) 기준점 ( X h1 , X h 2 ) 에 대하여 다른 점(case)와의 거리를 구한다.
d i  ( X i1  X h1 ) 2  ( X i 2  X h 2 ) 2
2) n 개의 데이터 중 일정비율 (q) 의 case 들에 대하여 가중치를 구
한다. dq 는 가장 길이가 긴 것 d 데이터가 20개라면 선택 점에서 가까운 8개를 찾아서
q
[1  (d i / d q )3 ]3 , d i  d q
wi  
0, o / w

3) 가중평균을 구한다.
Regression Tree
Predictor variable 이 하나인 경우
- 독립변수를 몇 개의 구간으로 나누어 종속변수 설명
 Predictor variable 이 여러 개인 경우
- 독립변수들을 몇 개의 cylinder 로 나누어 종속변수 설명

Regression Tree


Growing a regression tree
- number of regions r
- split points
r=2
X 의 범위를 2개로 나눈다. R21 과 R22
MinSSE SSE( R21 )  SSE( R22 )
SSE( Rrj )   (Yi  YR jk ) 2

r = 3 인 경우
1) R21 과 R22 중 하나를 택하여 나눈다. – sequential approach
2) 처음부터 3개의 region 으로 나눈다.
Regression Tree

Number of regions r
- 계속하면 n 개의 region 이 됨
- MSE 와 MSPR (mean squared prediction error) 를 고려함
MSPR 
2
ˆ
(
Y

Y
)
 i i
n
*
validation data set
Bootstrap Sampling

현재의 sample 을 모집단으로 간주하고, random number 를
generate 하는 방법
Autocorrelation in Time Series Data

Time Series : a time ordered sequence of observations of a
variable. The variable is observed at discrete time points, usually
equally spaced.
Autocorrelation in Time Series Data

Autocorrelated : correlated over time, i.e. correlated with past data
Autocorrelation of lag k :
k 
Cov( xt , xt  k )

 k
V ( xt )V ( xt  k )  0
회귀분석에서는 error 가 autocorrelated 될 수 있는 것으로 가정

Autocorrelation 있을 경우의 문제점
1. 추정된 회귀계수는 편의(bias)가 있고, 최소분산을 갖지 않는다.
2. MSE가 분산을 seriously underestimate 하게 된다.
3. 회귀계수 추정치의 분산도 underestimate(굉장히 작은 값) 된다.
4. 표준회귀분석에서의 신뢰구간이나 검정법을 적용하기 어렵다.

Indexed data는 반드시 Autocorrelation 체크
First Order Autoregressive Error Model

Model
Yt  0  1 X t   t
 t  t 1  ut
ut
white noise process
k 
Cov( t ,  t  k )
 k
V ( t )V ( t  k )
|  | 1
Durbin-Watson Test

가정 : 1st order AR(Autoregressive) error
H0 :   0
검정통계량 :
H1 :   n0
D
2
(
e

e
)
 t t 1
t 2
n
e
t 1
2
t
et ordinary LSE(Least Squares Error) 수행 후 잔차
D > dU : H0 채택
D < dL : H0 기각
o/w(dU~dL 사이에 있을 경우) 결론을 내릴 수 없음
Remedial Measure
1.
2.
Addition of Predictor Variable
Use of Transformed Variable
Yt '  Yt  Yt 1
3.
4.
Cochrane-Orcutt Procedure
Hildreth-Lu Procedure