Transcript INT – DIS

Paroxysmal Atrial Fibrillation Prediction
Based on Evolutionary Feature Space
Transformation
遺伝的属性空間変換を用いた
発作性心房細動予測
廣田研究室(現在:日本ナショナルインスツルメンツ(株)
ガルシア・ルイス・エルネスト
01M35642
2003年2月17日
修士論文最終発表
1/22
背景:
は?
発作性心房細動と
• Paroxysmal Atrial Fibrillation ( PAF )
• 約220万人(米国、1%)、65歳以上(米国、6%)
• PAF→脳塞栓
ペースーカー
• 電気生理学的な原因が不明
• 侵襲的研究の不可能、心電図
• 安定、防止の電気治療、
PAF予測アルゴリズム
2003年2月17日
修士論文最終発表
2/22
PAF予測問題
目的
Predictor
PAF無しの心電図
PAF発症リスク有り
PAF発症リスク無し
従来法
問題
時間領域
個別属性の分類
統計
[ Dilaveris, et al. 1998 ]
[ Ishimoto, et al. 2000 ]
[ Hnatkova, et al. 1998 ]
[ Kolb, et al. 2001 ]
Predictor
[ de Chazal, et al. 2001 ]
[ Lynn, et al. 2001 ]
周波数領域
仮定モデル確証
ウェーブレット
2003年2月17日
属性集合の分類
[ Yang, Yin 2001 ]
[ Krstacic, et al. 2001 ]
修士論文最終発表
3/22
提案法: 心電図属性空間変換
feature extraction
automatic classifier design
selection: GA
original
feature set
large and
arbitrary
fitness
candidates
classifier: k - NN
high prediction
accuracy oriented
2003年2月17日
Prediction
classifier
construction: GP
search for relationships
best
feature set
training ECG set
visualize importance
修士論文最終発表
testing ECG set
feature extraction
4/22
属性抽出モジュール
ccla
lassifie
ssifierr ddeesig
signn
Fe
Feaatu
ture
re eextra
xtracctio
tionn
sseele
lecctio
tionn:: G
GAA
original
feature set

ecgdb  (ecg 1, c 1 ),...,(ecg n , c n )

Fitn
Fitneessss
C
Caannddid
idaate
tess
classifier
ccoonnsstru
trucctio
tionn:: G
GPP
PPre
reddic
ictio
tionn
best
feature set
tra
train
inin
ingg EC
ECGG se
sett
ccla
lassssifie
ifier:
r: K
KN
NN
N
te
testin
stingg EC
ECGG se
sett
Fe
Feaatu
ture
re eextra
xtracctio
tionn
ecg i   ecg i ( j)  [0,1] | j  1,...,m 
c i  {P A F _ ris k,N O _ ris k }
R-R
R-R
QRS波検出
[ Pan, Tompkins 1985 ]
[ Malik, et al. 1991 ]
mean N-N, mean R-R
longest, shortest R-R
R-R dispersion
N-N median, mode
N-N first, third quartile, interquartile range
SDNN, SDRR, SDANN, SDNN index, RMSSD
[ Langley, et al. 2001 ]
NN50, pNN50
atrial
atrial, ventricular ectopic beats
2003年2月17日
修士論文最終発表
5/22
ccla
lassifie
ssifierr ddeesig
signn
Fe
Feaatu
ture
re eextra
xtracctio
tionn
sseele
lecctio
tionn:: G
GAA
best
feature set
ccoonnsstru
trucctio
tionn:: G
GPP
original
feature set
Fitn
Fitneessss
C
Caannddid
idaate
tess
classifier
属性選択の流れ
PPre
reddic
ictio
tionn
tra
train
inin
ingg EC
ECGG se
sett
ccla
lassssifie
ifier:
r: K
KN
NN
N
te
testin
stingg EC
ECGG se
sett
Fe
Feaatu
ture
re eextra
xtracctio
tionn
initialization
weight creation

i ndividuall   w ( l,1) , w ( l,2 ) ,..., w ( l,m 1) , w ( l,m ) 
k - NN
accuracy
w ( l, j )  w ( l, j )  e c g
fitness
calculation
genetic algorithm weight search


i ndividual fittest  arg m ax fitness( w k , ecgdb )
wk
selected
near-optimal weights features
2003年2月17日
j
修士論文最終発表

w e ig h ts b e st
6/22

C
Caannddid
idaate
tess
classifier
Fitn
Fitneessss
ccla
lassssifie
ifier:
r: K
KN
NN
N
te
testin
stingg EC
ECGG se
sett
ecg
,…,, ecgm1m, cc1
ecg11, ecg122,…
ecg21, ecg22,…, ecg2m, c2
事例 ( i )
PPre
reddic
ictio
tionn
ccoonnsstru
trucctio
tionn:: G
GPP
original
feature set
訓練心電図の属性ベクトル
試験 ( t )
sseele
lecctio
tionn:: G
GAA
tra
train
inin
ingg EC
ECGG se
sett
best
feature set
分類器設計モジュール
ccla
lassifie
ssifierr ddeesig
signn
Fe
Feaatu
ture
re eextra
xtracctio
tionn
Fe
Feaatu
ture
re eextra
xtracctio
tionn
k -NN[ Cover, Hart 1967 ]
ecg31, ecg32,…, ecg3m, c3
leave-one-out crossvalidation
ユークリッド距離


m
eucl(ecg i , ecg t ) 

w j (ecg i  ecg t )
j
j
2
j 1
city-block 距離


cb(e cg i , e cg t ) 
m
w
j1
2003年2月17日
染色体
e cg i  e cg t
j
j
j
W1
修士論文最終発表
…
Wm
7/22
分類器設計モジュール: 属性選択
GA+k -NN[ Kelly 1991 ]
acc 
真 risk+ 真 norisk
真 risk+ 偽 risk+ 真 norisk+ 偽 norisk
ccla
lassifie
ssifierr ddeesig
signn
Fe
Feaatu
ture
re eextra
xtracctio
tionn
sseele
lecctio
tionn:: G
GAA
真 norisk + 偽 risk
fitness1 = acc
fitness2 = acc x sens x spec
ルーレット選択
2003年2月17日
一点交叉
修士論文最終発表
ccoonnsstru
trucctio
tionn:: G
GPP
Fitn
Fitneessss
C
Caannddid
idaate
tess
classifier
真 risk + 偽 norisk
spec 
真 norisk
original
feature set
sens 
真 risk
PPre
reddic
ictio
tionn
best
feature set
tra
train
inin
ingg EC
ECGG se
sett
ccla
lassssifie
ifier:
r: K
KN
NN
N
te
testin
stingg EC
ECGG se
sett
Fe
Feaatu
ture
re eextra
xtracctio
tionn
ランダム突然変異
8/22
ccla
lassifie
ssifierr ddeesig
signn
Fe
Feaatu
ture
re eextra
xtracctio
tionn
sseele
lecctio
tionn:: G
GAA
original
feature set
Fitn
Fitneessss
C
Caannddid
idaate
tess
属性構成の流れ
Set 1
classifier
ccoonnsstru
trucctio
tionn:: G
GPP
best
feature set
tra
train
inin
ingg EC
ECGG se
sett
PPre
reddic
ictio
tionn
+, -, *
/, SQRT, >
ABS
ccla
lassssifie
ifier:
r: K
KN
NN
N
te
testin
stingg EC
ECGG se
sett
Fe
Feaatu
ture
re eextra
xtracctio
tionn
initialization
tree creation
Set 2
Set 3
+, -, *,/,
+, -, *,/,
SQRT , >, ABS , SQRT, > , ABS ,
OR, AND, NOT MAX, MIN, NEG
i n d iv id u a ll  tre e
o1
o1
k - NN
accuracy
f1
fitness
calculation
genetic programming tree search
near-optimal tree
2003年2月17日
constructed
feature
修士論文最終発表
o3
f2
o3
f4
o2
c
f3
v a lu e tre e l  e v a ltre e(in d iv id u a l l )
i ndividual fittest  arg m ax  fitness( tree k , ecgdb )
tree k
tre e b e st
9/22
sseele
lecctio
tionn:: G
GAA
ccoonnsstru
trucctio
tionn:: G
GPP
original
feature set
訓練心電図の属性ベクトル
試験 ( t )
事例 ( i )
Fitn
Fitneessss
C
Caannddid
idaate
tess
PPre
reddic
ictio
tionn
best
feature set
tra
train
inin
ingg EC
ECGG se
sett
classifier
分類器設計モジュール
ccla
lassifie
ssifierr ddeesig
signn
Fe
Feaatu
ture
re eextra
xtracctio
tionn
ccla
lassssifie
ifier:
r: K
KN
NN
N
te
testin
stingg EC
ECGG se
sett
ecg
,…,, ecgm1m, cc1
ecg11, ecg122,…
ecg21, ecg22,…, ecg2m, c2
Fe
Feaatu
ture
re eextra
xtracctio
tionn
k -NN[ Cover, Hart 1967 ]
ecg31, ecg32,…, ecg3m, c3
leave-one-out crossvalidation
o1
遺伝子型
o1
f1
表現型
o3
f2
o3
f4
o2
c
f3

in s ta n ce  e v a ltre e( tre e j , e cg i ),

e xa m p le  e v a ltre e( tre e j , e cg t )
2003年2月17日
距離関数


d(e cg i , e cg t )  in sta n ce  e xa m p le
修士論文最終発表
10/22
分類器設計モジュール: 属性構成
acc 
GP+ k -NN[ Raymer, et al.
1996]
真 risk+ 真 norisk
真 risk+ 偽 risk+ 真 norisk+ 偽 norisk
ccla
lassifie
ssifierr ddeesig
signn
Fe
Feaatu
ture
re eextra
xtracctio
tionn
sseele
lecctio
tionn:: G
GAA
真 norisk + 偽 risk
fitness1 = acc
fitness2 = acc x sens x spec
ルーレット選択
2003年2月17日
一点交叉
修士論文最終発表
ccoonnsstru
trucctio
tionn:: G
GPP
Fitn
Fitneessss
C
Caannddid
idaate
tess
classifier
真 risk + 偽 norisk
spec 
真 norisk
original
feature set
sens 
真 risk
PPre
reddic
ictio
tionn
best
feature set
tra
train
inin
ingg EC
ECGG se
sett
ccla
lassssifie
ifier:
r: K
KN
NN
N
te
testin
stingg EC
ECGG se
sett
Fe
Feaatu
ture
re eextra
xtracctio
tionn
ランダム突然変異
11/22
sseele
lecctio
tionn:: G
GAA
tra
train
inin
ingg EECCGG se
sett
original
feature set
Fitn
Fitneess
ss
CCaannddid
idaate
tess
classifier
ccoonnsstru
trucctio
tionn:: G
GPP
PPre
reddic
ictio
tionn
best
feature set
PAF予測モジュール
ccla
lasssifie
sifierr ddeessig
ignn
Fe
Feaatu
turree eexxtra
tracctio
tionn
ccla
lassssifie
ifier:
r: K
KN
NN
N
te
tesstin
tingg EECCGG se
sett
Fe
Feaatu
turree eexxtra
tracctio
tionn
best feature set

w e ig h ts b e st
W1 W1 … Wm Wm-1
o1
k - NN
tre e b e st
o1
f1
classifier
ecg11, ecg12,…, ecg1m c
ecg21, ecg22,…, ecg2m
o3
f2
o3
f4
o2
c
2003年2月17日
f3
修士論文最終発表
12/22
実験設定
• 分類精度、感度、特異度の向上
• 原属性の相互重要度
• 原属性間の関係の抽出可能性
実験1
属性選択 ( 128回 )
実験2
属性構成 ( 192 回)
k={8,9,67,69}, euclidean, city-block
normal , distance-weighted
P=30, G=2000, 交叉率=0.6,
突然変異=0.0333, 適合度関数: 2,
種: 4
k={8,9,67,69},
normal , distance-weighted
P=30, G=2000, 交叉率=0.6,
突然変異=0.0333, 適合度関数: 2,
種: 4, 関数集合: 3
原属性の分類 ( 400回 )
原属性の個別分類 ( 304回 )
k={1, …, 100}
euclidean, city-block
normal , distance-weighted voting
k={8,9,67,69}
euclidean, city-block
normal , distance-weighted voting
2003年2月17日
修士論文最終発表
13/22
実験設定: データベース
PAF Challenge Database
Physionet www.physionet.org
National Center for Research Resources
2001年に公開
[ Moody, 2001 ]
データベース:
200例の心電図
訓練セット:
100例の心電図
ECG p07.dat
試験セット:
100例の心電図
(各30分間分)
2003年2月17日
修士論文最終発表
14/22
実験結果:属性 選択 評価
0.8
0.75
67-NN (best simple)
0.7
k-NN (avg. simple)
69-NN+GA (best
training)
k-NN+GA (avg.
training)
69-NN+GA (best
testing)
k-NN+GA (avg.
testing)
0.65
0.6
0.55
0.5
accuracy
2003年2月17日
sensitivity
specificity
修士論文最終発表
15/22
実験結果:属性の相互重要度
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
best weight set
2003年2月17日
修士論文最終発表
mean NN
mean RR
longest
shortest
dispersion
median
1st. quart.
3rd. quart.
range
mode
SDNN
SDRR
SDANN
SDNN ind.
RMSSD
NN50
pNN50
APC
VPC
16/22
実験結果:属性の相互重要度
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
feature weight average
2003年2月17日
修士論文最終発表
mean NN
mean RR
longest
shortest
dispersion
median
1st. quart.
3rd. quart.
range
mode
SDNN
SDRR
SDANN
SDNN ind.
RMSSD
NN50
pNN50
APC
VPC
17/22
実験結果:属性の相互重要度
1
0.9
0.8
0.7
0.6
Third quartile
Interquartile range
Atrial ectopic beats
0.5
0.4
0.3
0.2
0.1
0
best weight set
2003年2月17日
weight average
修士論文最終発表
18/22
実験結果:属性 構成 評価
0.9
0.8
67-NN (best individual)
k-NN (avg. individual)
0.7
67-NN+GP (best
training)
k-NN+GP (avg.
training)
67-NN+GP (best
testing)
k-NN+GP (avg.
testing)
0.6
0.5
0.4
0.3
accuracy
2003年2月17日
sensitivity
specificity
修士論文最終発表
19/22
実験結果:属性の相互依存関係
テストデータ上の分類精度
NOT ( NOT ( VPC ) ) + VPC – INT
0.70
VPC – ( INT – DIS )
DIS )
0.66
( INT – DIS ) > ( DIS ・ ( DIS – SDA ) )
DIS )
0.65
中央値
( INT – DIS ) > (NN5 ・ ( INT – SDA ) )
DIS )
0.65
下位四分位点
( INT – DIS ) > ( RMS ・(( INT – DIS ) ・
DIS )・( INT + 1 )
DIS )
0.64
2003年2月17日
修士論文最終発表
最長RR
最長NN
上位四分位点
最短RR
最短NN
DIS
INT
20/22
実験結果:従来法との比較
テストデータ上の分類精度
属性選択
0.70
属性構成
0.70
Lynn, Chiang ( 2001 )
0.68
Yang, Yin ( 2001 )
0.66
de Chazal, Heneghan ( 2001 ) 0.64
Krstacic, et al. ( 2001 )
2003年2月17日
修士論文最終発表
0.60
21/22
まとめ
•
自動分類器設計法で
k - NN より9~16% PAF予測精度の向上
•
自動分類器設計法で
従来法より2~10% PAF予測精度の向上
•
PAF予測に有効な属性の
簡易な同時相互評価法の提案
• PAF予測のモデル化に有効な属性関係
の簡易な抽出法の提案
2003年2月17日
修士論文最終発表
22/22