基因演算於財務時間應用 - 東吳大學資訊管理學系

Download Report

Transcript 基因演算於財務時間應用 - 東吳大學資訊管理學系

黃日鉦
東吳大學資訊管理學系
1975年由密西根大學教授John Holland所
提出
 藉由生物物種的基本運算子,在每代間進
行演化,終而尋得適當問題的最佳解。
 物競天擇,適者生存




遺傳演算法的運算,主要在參數經過編碼的位元字串上,
而非參數本身,所以在搜尋分析上不受參數連續性的限
制。
遺傳演算法採用隨機多點同時搜尋的方式(複製
(reproduction)、交配(crossover)、突變(mutation)) ,
而非傳統的單點依序搜尋方式,因此可以避免侷限在區
域的最佳解上,而得到問題的最佳解上。
遺傳演算法則運算時只需訂定問題要求的目標函數
(Objective function) ,並不需其他的的輔助資訊(如函
數的微分性、連續性) ,所以適合各類問題的目標函數。
開始
初始族群,以亂數
產生第k=0代的個體
評估個體的
適存值
產生新的第k+1代
的族群
突變
交配
是否合於
終止條件
是
結束
否
重新選擇
複製
procedure
GAs
begin
t0
initialize P ( t )
evaluate P ( t )
w hile not satisfy stopping
rule do
bigin
t  t 1
select
alter
P (t )
from
P (t )
evaluate P ( t )
end
end
P ( t  1)

依編碼資料型態的不同,可以分為:整數
編碼、實數編碼、二進位編碼、文字編碼
以及符號編碼等
︷ ︷︷ ︷ ︷︷
1
(a)二進位編碼
(b)實數編碼
(c)符號編碼
0
1
2
1
0
0
3
1
0
1
1
2
3
73.5
17.3
110.9
1
2
3
F
A
Q
4
1
1
0
4
5
1
1
1
6
0
0
1
5
6
83.5
71.4
4
5
6
B
E
C
1.2
1

先必須隨機的產生q個染色體(chromosomes),
這q個染色體稱為初始族群

族群中的每個染色體亦稱之為一個個體
(Individual)






運算子運算的對象是染色體
染色體的型態是由一串數字串接而成的字串
每一個染色體都對應到目標問題的一個解
將每個參數之編碼字串串接起來就組成染色體
染色體的長度及個體都會影響到目標問題的精
確度及難度
染色體長度越長則目標問題的分割就越精密
評估適者生存,不適者淘汰的指標。
 適合度函數值越高表示個體的適合度越好、
競爭力越強,相對的也就越可能將基因遺
傳到下一代身上。
 可以藉由設計不同的適合度函數來達到控
制演化,進而產生不同的結果。


輪盤式選擇(roulette wheel selection)


在每一代的演化過程中,依每個物種的適應函
數值的大小來表被挑選到交配池中的機率,然
後隨機選入到交配池中。
競爭式選擇(tournament selection)

在每一代的演化過程中,隨機選取兩個或更多
的物種,具最大適應函數值的物種即被選中送
至交配池中。
交配池中的兩個母代個體,彼此交換位元
資訊進而產生兩個新的個體
 藉由累積前代較為優良的位元資訊,以期
待能夠產生出更優秀的個體
 事先設定的交配機率(probability of crossover)
來決定是否要進行交配的運算
 依據交配方式的不同,又可分為單點、兩
點以及均勻三種

母代
子代
11101001000
11101010101
00001010101
00001001000
11101001000
11001011000
00001010101
00101000101
00000000
01010101
11111111
10101010
(1)單點交配
(2)兩點交配
(3)均勻交配
純粹靠著複製與交配這兩個運算的話,無
法創造出具有新特性的個體。
 希望透過突變的方式使得新的個體可以跳
脫單純交配的區域解中,進而產生全域最
佳解。
 突變方式為隨機改變染色體之位元。


當演化流程達到指定的世代數目時;

當演化流程達到要求的目標時;

當演化流程停滯或者是已經達到某種飽和
現象時。
ARMA (p,q) Family
 GARCH (p,q) Family

ARCH
 GARCH
 IGARCH
 EGARCH
 FIGARCH
 FIAPARCH

Model Identification
Model Estimation
Is satisfied
model
checking?
Yes
Model Forecasting
No

Traditional model identification


GARCH (1,1), GARCH (1,2), GARCH (2,1),
GARCH (2,2),…
Local optimization vs. Global optimization?

GARCH (2,2)
ht   0   1

2
t 1
  2
2
t2
  2 ht  2
2
t2
GARCH((2),(2))
ht   0   2 
  1 ht  1   2 ht  2
Computational cost
 Required time
 For a GARCH(p,q) model

2

( pq)
1
Effectiveness of GAs

String representation


Population initialization


If the chromosome is represented by (010;001), the
GARCH model should be ARCH((2),(3))
Selected at random
Fitness computation
AIC
 BIC
 HQC
 …


Crossover = two-point

Mutation= random

Pc = 0.9

Pm = 0.01

Iteration = 100
Return rates of AT&T
 From Jan 1961 to Dec 1967

.12
.08
.04
.00
-.04
-.08
-.12
10
20
30
40
50
ATT
60
70
80

GARCH
ARCH
GARCH
GA
Criteria

(1)
(2)
(3)
(1,1)
(1,2)
(1,3)
(2,1)
(2,2)
(2,3)
(3,1)
(3,2)
(3,3)
((2),2)
AIC
-300.8
-304.6
-304.6
-300.1
-296.8
-300.8
-304.6
-300.8
-297.2
-302.6
-296.8
-294.8
-305.3
SBC
-293.5
-297.3
-297.3
-290.4
-284.7
-293.5
-297.3
-293.5
-282.6
-292.8
-284.6
-280.2
-298.0
IGARCH
ARCH
GARCH
GA
Criteria
(1)
(2)
(3)
(1,1)
(1,2)
(1,3)
(2,1)
(2,2)
(2,3)
(3,1)
(3,2)
(3,3)
((2),1)
AIC
-287.3
-299.0
-299.0
-304.7
-302.7
-300.7
-300.8
-300.1
-300.1
-300.8
-300.1
-300.1
-304.8
SBC
-282.4
-291.7
-291.7
-302.3
-297.9
-293.5
-293.5
-290.4
-287.9
-293.5
-290.4
-287.9
-302.4

EGARCH
ARCH
GARCH
GA
Criteria
(1)
(2)
(3)
(1,1)
(1,2)
(1,3)
(2,1)
(2,2)
(2,3)
(3,1)
(3,2)
(3,3)
((3),(2))
AIC
-300.8
-302.5
-303.8
-300.1
-298.8
-301.3
-302.4
-307.2
-305.3
-302.0
-305.4
-311.8
-306.3
SBC
-291.1
-290.4
-289.2
-287.9
-284.3
-284.3
-287.8
-290.2
-285.9
-285.0
-286.0
-290.0
-294.2
Variable
Coefficient
Std. Error
t-value
Prob.
Intercept
0.003087
0.004304
0.72
0.4732
ARCH3
1.0537E-8
1.28E-11
823.84
<.0000
GARDH2
1.000000
1.28E-11
7.81E10
<.0000
Order
Q
P-value
LM
P-value
1
0.0979
0.7543
0.0334
0.8549
2
3.2911
0.1929
2.8256
0.2435
3
3.6472
0.3022
3.5610
0.3129
4
4.2083
0.3785
3.6575
0.4543
5
4.2396
0.5155
3.7784
0.5817
6
5.3163
0.5039
4.1734
0.6532
7
7.2005
0.4083
5.3838
0.6132
8
7.5628
0.4773
5.3874
0.7155
9
7.5685
0.5782
5.6867
0.7708
10
8.2318
0.6062
6.3177
0.7879
11
8.2619
0.6897
6.4197
0.8439
12
8.2987
0.7614
6.8341
0.8684
Shanghai A Shares
 From 2002/01/04 to 2008/12/31

ret urn rat e
5
4
3
2
1
0
-1
-2
-3
-4
-5

FIGARCH
FIGARCH (1, 0.47098, 4), AIC=3545.434, SBC=3555.257
Coefficient
Std. Error
t-value
Prob.
Intercept
0.01081
0.01663
0.6502
0.5157
ARCH 1
-0.94513
0.02283
-41.4000
0.0000
GARCH 1
-0.52623
0.08249
-6.3790
0.0000
GARCH 2
0.49127
0.09784
5.0210
0.0000
GARCH 3
0.09356
0.06797
1.3770
0.1688
GARCH 4
-0.04082
0.04315
-0.9460
0.3443

FIAPARCH
FIAPARCH (3, 0.41212, 1), AIC=3536.688, SBC=3547.739
Coefficient
Std. Error
t-value
Intercept
0.00496
0.01630
0.3047
ARCH 1
0.25737
0.31417
0.8192
GARCH 1
0.62380
0.30850
2.0220
GARCH 2
-0.02063
0.12184
-0.1694
GARCH 3
-0.03648
0.05274
-0.6917
Gamma 1
0.14542
0.07583
1.9180
Delta
2.04210
0.19048
10.7200
Prob.
0.7607
0.4128
0.0433
0.8655
0.4892
0.0553
0.0000
FIGARCH
Criteria
FIAPARCH
(1,0.5480,1)
(2,0.5270,1)
(1,0.4926,2)
(2,0.4590,2)
(1,d,1)
(2,d,1)
(1,d,2)
(2,d,2)
AIC
3555.758
3557.116
3556.592
3558.36
NA
NA
NA
NA
SBC
3561.897
3564.483
3563.959
3566.955
NA
NA
NA
NA
Note: NA denotes no convergence with respect to any d.
基因演算法提供一個更穩健、彈性及方便
的模式設定方式。
 適合使用在複雜的時間序列模型。
 Objective function的重要性。
 其他相關議題的使用

變數選擇
 參數估計
 …
