8.5 진동수 영역II. Spectral analysis

Download Report

Transcript 8.5 진동수 영역II. Spectral analysis

8. 시계열 분석

8.1 배경 8.2 시간영역: 이산 자료의 경우 8.3 시간영역: 연속자료의 경우 8.4 진동수 영역 I(Frequency domain): Harmonic analysis 8.5 진동수 영역 II(Frequency domain): Spectral analysis

시계열 자료: 자료가 관측된 시간순서에 따라 배열되어 있고 인접된 값들은 일반적으로 독립이 아니고 상관성을 가짐 예)

8.1 배경

시계열 분석: 자료들의 시간에 따른 변화를 특성화시키고 분석하는 방법을 다룸 자료의 순서가 중요할 때 시계열 방법이 적합함 8.1.1 정상성 (Stationarity) 시계열 자료들의 통계적 특성이 시간에 따라 변화하지 않고 유사함

자료의 평균과 자기 상관 함수 (Autocorrelation function)가 시간에 따 라 변화하지 않음 (Weak stationarity)

비정상적(non stationary)인 시계열을 다루는 방법 비정상시계열의 자료를 정상시계열로 변환시킨 후 다룸.

일변화나 연변화, 시간에 따른 증가 또는 감소의 경향을 보이는 경우:

시간에 대한 비정상성을 보이는 평균값을 자료로부터 제거함으로써 시 간에 대한 비정상성을 제거하고 또한 평균값이 증가하는 경우 편차 또 한 증가하므로 표준편차로 편차를 정규화시킴으로써 비정상시계열을 정상시계열 자료로 변환시킴.

자료를 stationarity를 만족하는 여러 세부그룹으로 나눔.

예) 1년 자료의 경우 각각 월별 자료를 개별적으로 분석함.

8.1.2 시간영역과 진동수영역의 접근법   1) 시간영역 접근법 (Time domain approach): 자기 상관 함수 (autocorrelation function) 자료가 관측된 공간과 같은 공간에서 작용 2) 진동수영역 접근법 (Frequency domain approach)  자료를 특징적인 진동수의 기여도로서 표현하는 방법  즉 시계열이 여러 주기의 서로 다른 상대적인 크기를 갖는 sine 과 cosine의 함수의 합으로써 표현되어 짐  대기 시계열 자료에 대해서 일반적으로 적용되는 방법

8.2 시간영역 (Time domain): 이산 자료의 경우

8.2.1 Markov Chain  이산변수의 시계열을 나타내는데 사용되는 모델임  여러 상태와 상태들간의 이동을 결정하는 transition probability로 표 현됨.  First order Markov Chain의 특성 미래 상태의 확률은 현재상태에만 의존하고 어떤 경로에 의해 현재에 도달했는지에 의존하지 않음. Pr{

X t

 1 |

X t

,

X t

 1 ,  ,

X

1 }  Pr{

X t

 1 |

X t

}

8.2.2 Two –state, First-order Markov chains 예) 강수 발생의 유무

, ,

p

00

p

01

p p

10 11  Pr{

X t

 1  Pr{

X t

 1  Pr{

X t

 1  Pr{

X t

 1    0 1 0  1 | | | |

X X X X t t t t

   0 1 0  1 } } } }

p

00

p

10  

p

01

p

11   1 1 Markov chain을 특징짓는 두 확률 parameters

p

01 

n

01

n

0 .

p

11 

n

11

n

1 .

n

0 .

n

00 

n

01

n

1 .

n

10 즉 오늘 비가 왔을 때 내일 비가 올 확률은 p 11 오늘 비가 안 왔을 때 내일 비가 올 확률은 p 01 으로 표현됨.

n

11

강수의 기후학적 확률  1  1 

p p

01  01

p

11 lag 1 autocorrelation of the time series

r

1 

p

11 

p

01 autocorrelation function

r k

 (

r

1 )

k

8.2.3 Test for independence versus first-order serial dependence 시계열 자료가 serial correlation이 있는 지 없는 지를 검증하는 방법 절차 ① 검정통계량을 설정한다.

② 귀무가설을 정의한다.

③ 대립가설을 정의한다.

④ 검정통계량의 표본분포를 구한다.

⑤관측된 검정통계량과 표본분포를 비교한다.

① 검정통계량의 설정 자료값 시계열자료가 서로 독립일때 만일 두 사건이 독립이라면 𝑃𝑟 𝐴 ∩ 𝐵 = 𝑃𝑟(𝐵)𝑃𝑟 𝐴

② 귀무가설을 정의한다 시계열 자료의 인접된 값들은 서로 독립이다. ③ 대립가설을 정의한다.

시계열 자료는 serial correlation을 갖는다.

④ 귀무가설 하에 검정통계량의 표본분포를 구한다.

𝜒 2 는 자유도의 수가 1인 𝜒 2 분포를 가짐 단측 검정

𝑛 0.

, 𝑛 1., 𝑛 .0

, 𝑛 .1

이 고정되어 있을 때 자유도는 1 왜냐하면 한 값 되므로 𝑒 00 이 결정되면 나머지 세 개의 값 ( 𝑒 01 , 𝑒 10 , 𝑒 11 )이 결정

⑤관측된 검정통계량과 표본분포를 비교한다. 자유도가 k를 갖는 카이제곱분포는 𝛼 = 𝑘/2 이고 𝛽 = 2 인 감마분포임

예)

n

01  5 ,

n

00  11 ,

n

10  4 ,

n

11  10 ,

p

01  5 /( 5  11 )  5 / 16  0 .

312

p

11 = 10 /( 10 + 4 ) = 10 / 14 = 0 .

714 lag 1 autocorrelation

r

1 

p

11 

p

01  0 .

714  0 .

312  0 .

402

• • 𝑒 00 = 𝑒 10 = 16 15 30 14 15 30 = 8 , 𝑒 01 = = 7 , 𝑒 11 = 16 15 30 14 15 30 = 8 = 7 , • 𝜒 2 = 11−8 2 + 8 5−8 2 + 8 4−7 2 + 7 10−7 2 = 4.82

7 • 𝛼 = 0.5, 𝛽 = 2 감마분포 • 𝛽 = 1 인 분포와 비교를 위해 𝜉 = 𝜒 2 2 = 2.41

1.913

2.41

3.274

감마분포 5% 유의 수준에서 기각 1% 유의 수준에서 채택

𝑗=3 𝑗=1 𝑝 𝑖𝑗 = 1 Three state, first-order Markov chain

8.3 시간영역 : 연속자료의 경우

8.3.1 First –order Autoregression (1차 자기회귀모형) Box-Jenkins models

x t

 1     (

x t

  )  

t

 1  는 시계열 자료의 평균값,  자기회귀 매개변수 (autoregressive parameter),  t+1 random quantity.  t+1 : 평균 0, 분산 𝜎 𝜀 2 인 random 변수 종종 Gaussian 분포를 따른다고 가정됨

1차 자기회귀 모형은 Markov process로 불리어짐. 다음의 성질을 만족함.

Pr{

X t

 1 

x t

 1 |

X t

x t

,

X t

 1 

x t

 1 ,  ,

X

1 

x

1 }  Pr{

X t

 1 

x t

 1 |

X t

x t

}

x t

 1     (

x t

  )  

t

 1 1차 자기 회귀모형: red noise process : 단기 변동을 smooth시키고 장기변동은 덜 강하게 영향을 줌.

AR(1) model의 매개변수 추정방법 1) 2) 𝜇 : 시계열 자료가 정상성을 만족하면 표본자료의 평균값으로 추정 1 : lag-1 자기상관계수 −1 ≤ 𝜙 ≤ 1 대부분 대기 자료에서는 𝜙 는 양수 : 지속성을 반영 자기 상관 함수 (autocorrelation function) 𝑟 𝑘 = 𝜙 𝑘 𝑟 0 = 1 , 𝑟 ∞ = 0 종종 정규분포 가정이 많이 사용된다.

X t

 1  

E

(

X t

)    (

X t E

(

X t

 1 )    )   

t

 1

Var

(

X t E

( 

t

 1 ) )   0 

x

2

Var

( 

t

 1 )  

e

2

E

[(

X t

μ )(

X t

+ 1 μ )] =

E

[ φ (

X t

μ ) 2 ] +

E

[(

X t

μ ) ε

t

+ 1 ]

E

( ε

t

+

h

ε

t

) = σ ε 2

h

= 0 0

h

≠ 0

E

[(

X t E

[(

X t

μ ) ε

t

+ 1 ] = μ )(

X t

+ 1 0 μ )] = cov(

X t

,

X t

+ 1 )

E

[ φ (

X t

μ ) 2 ] = φ

Var

(

X t

) cov(

X t

,

X t

+ 1 ) =

r

1 = φ

Var

(

X t

)

X t

+ 1 μ

X t

+ 2 μ = φ (

X t

μ ) + ε

t

+ 1 = φ (

X t

+ 1 μ ) + ε

t

+ 2 = φ 2 (

X t

μ )

r

2 = φ 2

r k

=

r

1

k

3) 𝜎 𝜀 의 추정

E

[(

X t

+ 1 μ ) 2 ] =

E

[ φ (

X t

+ 1 μ )(

X t

μ )] +

E

[(

X t

+ 1 μ ) ε

t

+ 1 ]

Var

(

X t

+ 1 ) = φ cov(

X t

+ 1 ,

X t

) + σ ε 2 σ

x r

1 2 = σ

x

2 φ

r

1 + σ ε 2 = φ σ ε 2 = σ

x

2 ( 1 φ 2 )

E

( ε

t

+

h

ε

t

) = σ ε 2 0

E

[(

X t

μ ) ε

t

+ 1 ] = 0

E

[(

X t

+ 1 μ ) ε

t

+ 1 ] = σ ε 2

h

= 0

h

≠ 0 𝜎 𝜀 2 ≤ 𝜎 𝑥 2

표본 자료를 이용하여 계산하는 경우 𝑠 𝜀 2 = 𝑛 1 − 2 𝑛 − 2 (𝑥 𝑡 𝑖=1 − 𝑥) 2 = 𝑛 − 1 𝑛 − 2 𝜙 2 )𝑠 𝑥 2 𝑠 𝜀

8.3.2 Higher-order Autoregression

X t

 1   

k n

  1 

k

(

X t

k

 1   )  

t

 1 Yule-Walker equation Autocorrelation function 𝜌 𝑚 = 𝐾 𝑘=1 𝜙 𝑘 𝜌 𝑚−𝑘 𝑚 ≥ 𝑘 , 𝜌 0 = 1

AR(2) model

X t

 1     1 (

X t

  )   2 (

X t

 1   )  

t

 1 매개변수 추정방법 1) 𝜙 1 과 𝜙 2 를 추정 (

X t

  )(

X t

 1   )   1 (

X t

  ) 2   2 (

X t

 1   )(

X t

  )  (

X t

  ) 

t

 1

기대값을 취하면

E

[(

X t

  )(

X t

 1   )]  cov(

X t

,

X t

 1 )

E

[(

X E

[(

X E

[(

X

cov(

X

  ) 2 ] 

t t t

 1    )(

X

 ) 

t

 1 ]

t Var

(

X

  0  )]

t

,

X t

 1 ) 

t

 )  1

Var

(

X t

cov( ) 

X

 2

t

 1 ,

X

cov(

t X

)

t

 1 ,

X t

)  0 cov(

X t

,

X t

 1 )

Var

(

X t

)   1   2 cov(

X t

 1 ,

X t

)

Var

(

X t

)

r

1 = φ 1 + φ 2

r

1 ①

(

X t

 1   )(

X t

 1 cov(

X t

 1 ,   )

X t

 1 )    1  1 (

X t

 1 cov(

X

 

t

 1 , )(

X X t t

)    )   2  2

Var

( (

X X t

 1

t

 1 )   ) 2  (

X t

 1   ) 

t

 1 cov(

X t

 1 ,

X t

 1 )

Var

(

X t

 1 )   1 cov(

X t

 1 ,

X t

)

Var

(

X t

 1 )   2

r

2 =

r

1 φ 1 + φ 2 ① × 𝑟 1 ③ - ② ②

r

1 2 =

r

1 φ 1 + φ 2

r

1 2 -

r

2 = φ 2 (

r

1 2 1 ) ③ φ 2 =

r

1 2

r

1 2 -

r

1 2 ④

④-① φ 1 =

r

1 φ 2

r

1 =

r

1 (

r

1 2

r

1 2 -

r

2 1 )

r

1 = =

r

1 3 r 1 -

r

1 2

r

1 3 +

r

1

r

2 1

r

1

r

2

r

1 2 1

r

1 =

r

1 (

r

2

r

1 2 1 1 )

2) 백색 잡음 추정 방법 𝑠 𝜀 2 𝑚 = [1 − 𝑚 2 𝑚 ]𝑠 𝜀 2 𝑚 − 1 m=2인 경우 𝑠 𝜀 2 2 = 1 − 2 2 2 𝑠 𝜀 2 1 = 1 − 2 2 2 𝑛 − 1 𝑛 − 2 (1 − 𝑟 1 2 )𝑠 𝑥 2

• AR(2) 과정이 정상상태이려면 두 매개 변수는 다음의 조건을 만족해 야 함 𝜙 1 𝜙 2 + 𝜙 − 𝜙 2 1 < 1 < 1 −1 < 𝜙 2 < 1

8.3.3 차수 선택 기준 • 적절한 차수를 선택하는 방법으로 사용하는 통계값 𝐵𝐼𝐶 𝑚 = 𝑛𝑙𝑛 𝑛 𝑛−𝑚−1 𝑠 𝜀 2 𝑚 + 𝑚 + 1 ln(𝑛) : Schwarz, 1978 𝐴𝐼𝐶 𝑚 = 𝑛𝑙𝑛 𝑛 𝑛−𝑚−1 𝑠 𝜀 2 𝑚 + 2 𝑚 + 1 : Akaike, 1974 log-likelihood penalty AIC나 BIC가 작을수록 더 적절한 차수가 됨

예제 m=1이 가장 좋은 선택임

8.3.4 시간 영역에서 모의(Simulation)와 예측(Forecasting)

X t

 1 

t

 1     1 (

X t

 0   ) 100% 지속성을 고려한 예측의 경우 기후값을 이용한 예측의 경우

X X t

 1

t

 1 

X t

    0 One time step이상 projection이 가능하지만 uncertainty가 증가한다.

𝑋 𝑡+1 의 예측값에 대해서는 𝜀 가 정규분포를 따른다고 하면 95%신뢰구간 내에서 예측가능

X t

 1  2   긴 시간 예측을 하는 경우 백색잡음에 의해 계산됨

X t

         (

X t

t

    )  

t

 

8.4 진동수 영역 : Harmonic analysis

• • 시계열을 서로 다른 주기를 갖는 sine과 cosine 함수의 일차 결합으 로 표현 시계열의 주기성을 파악 8.4.1 사인과 코사인 함수들의 특성 1) 주기성을 가짐 2) 최대값은 1이고 최소값은 -1이고 평균은 0임 3) 사인과 코사인은 90의 위상차이를 가짐

8.4.2 단순 시계열을 주기함수로 표현 • 삼각함수의 매개변수는 각이고 시계열 자료는 시간의 함수임 -> 전 시계열의 길이를 기본 주기 (fundamental period)로 고려 • 삼각함수는 1과 -1 사이에서 변화하는 반면 시계열자료의 변동은 다 양함 -> 진폭 (amplitude) 고려 • 코사인함수는 0과 2  에서 최대값을 갖는 반면 사인함수는 평균값을 가짐 -> 위상차 고려

1) 기본 진동수 (Fundamental frequency)  1  2 

n

,n개의 자료로 구성된 시계열의 경우 2) 진폭(amplitude)

y t

y

C

1 cos( 2 

t n

) 3) 위상차이가 있는 경우

y t

y

C

1 cos( 2 

t n

  1 )

예제

8.4.2 주기함수의 진폭와 위상차의 추정 cos(

C

1

C

1  cos( cos(   1 2 

t

2

n

t n

)      cos  1 1 1 ) )   cos(

C

1

A

1  cos( cos( )  1  2 

t n

) sin( cos(  1 ) 2 

t n

sin(  ) ) 

C

1 ) 

B

1 sin( 2 

t n

) sin(  1 ) sin(

C

1  [

A

1 2 

B

1 2 ] 1 / 2 2 

t

)

n

 1           tan tan  2  1  1

B

1

A

1

B

1

A

1  

A

1  0

A

1  0

A

1  0

• 시계열 자료를 이용하여 A1과 B1을 구하는 방법

A

1 

n

2

t n

  1

y t

cos( 2 

t n

),

B

1  2

n t n

  1

y t

sin( 2 

t

)

n

고차 주기함수

예제

회귀식의 독립변수인 삼각함수들은 서로 상관관계가 없음

시계열 자료에서 한 주기의 함수에 의해서 설명되어지는 자료의 변동 성은 다른 주기 함수의 사용 유무에 따라 변화하지 않음.

K번째 주기함수에 의해 설명 되어 지는 결정 계수 주기함수를 독립변수로 갖는 회귀식에 의해 설명되는 결정계수

8.5 진동수 영역II. Spectral analysis

8.5.1 The periodogram of Fourier line spectrum Discrete Fourier transform

y

(

t

) 

y

n k

/   2 1 {

A k

cos [ 2 

kt

]

n

B k

sin[ 2 

kt

]}

n

스펙트럼: 주기함수의 진폭의 제곱을 진동수의 함수로 나타낸 그래프

• Nyquist frequency: 주어진 시계열 자료에서 분해할 수 있는 가장 큰 진 동수 𝜔 𝑛/2 = 𝜋 두 time step을 하나의 주기로 갖는 파동임 예) 100개의 자료로 구성되어 있고 시간 간격이 10초인 시계열의 경우 Nyquist frequency:  (10s) -1 : angular frequency (radian /time)

8.5.2 Aliasing • 이산형 자료(discrete data)의 spectral analysis에서 나타나는 문제점 임 • 관측된 시계열 자료는 표본간격을 갖고 있음 • 표본간격의 길이에 의해 주어지는 제약 때문에 발생 • 표본자료를 이용하여 스펙트럼 분석을 수행할 때 적당하지 않은 표 본간격을 통하여 Nyquist 진동수보다 큰 진동수가 갖는 에너지가 Nyquist 진동수보다 더 작은 다른 진동수의 에너지로 더해지는 현상.

𝜔 𝐴 𝑓 𝐴 = 𝑗 ± 𝑓, = 2𝜋𝑗 ± 𝜔, 𝑗 = 𝑎𝑛𝑦 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑖𝑛𝑡𝑒𝑔𝑒𝑟 𝑗 = 𝑎𝑛𝑦 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑖𝑛𝑡𝑒𝑔𝑒𝑟

과제