隠れマルコフモデルによる 時系列気象画像からの知識発見

Download Report

Transcript 隠れマルコフモデルによる 時系列気象画像からの知識発見

隠れマルコフモデルによる
時系列気象画像からの知識発見
高知大学理学部数理情報科学科
本田研究室 B003G013N
勝吉進一
背景
近年、時間で変動するような画像が大
量にデータベースへ蓄積されるように
なってきた
1週間の時系列気象画像
時間空間変動パターン知識の抽出
春、秋
現象の理解,予測
夏
冬
目的
 時系列画像データベースから時間空間変動パ
ターンを抽出する手法を確立


自己組織化マップ(SOM)による画像系列を記号系列に
変換
隠れマルコフモデルによるモデル化
気象画像に対して適用し、その有用性を調べる
HMM:隠れマルコフモデル
 確率的な状態遷移と確率的な記号出力を備えた
計算機の数学的モデル:オートマトンの一種
Time flies like an arrow.
「光陰矢の如し」
名詞,動詞,前置詞,冠詞,名詞
「時蝿は矢を好む」
名詞,名詞,動詞,冠詞,名詞
品詞:状態,単語:出力記号
品詞という状態が隠れている・・・【隠れ】
隠れマルコフモデル(推定問
題)
(1)Q={q1,・・・,qN}:状態の有限集合
(2)∑={o1,・・・,oM}:出力記号の有限集合
(3) A ={aij } :状態遷移確率分布
(4)B={bi(ot)} :記号出力確率分布
(5)π={πi} :初期状態確率分布
 5項組M=(Q,∑,A,B,π)
推定問題
出力記号系列Oから、P(O|M)を最大
にするようなモデルMを求める問題
[バウム・ウェルチアルゴリズム,EMアルゴリズム]
画像系列→記号
季節など→状態
実験条件
使用する画像データ
・1997年~2000年の1月1日~12月31日の画像
・気象衛星ひまわりによる日本上空の赤外画像(雲
画像)
・高知大,菊地研究室でアーカイブ
・計1335枚(欠損あり)
・画像の記号系列の変換
クラスタ化・・・二段階ブロック化自己組織化マップ
(KATAOKA1997)
クラスタリング結果
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
0,1,1,2,4,・・・・
クラスタの時系列展開
一年における気象画像出力
cluster ID
40
35
30
25
20
15
97年
10
5
0
0
100
200
day of year97
300
400
実験
・隠れマルコフモデルによるモデル化
・バウム・ウェルチアルゴリズム,EMアルゴリズムによってパラ
メータ推定
・入力記号系列:クラスタの記号系列を28日ごとにセグメント化
[95個]
・状態数は2~8の変動パラメータとする。
モデルのパラメータの推定(状態遷移確率,記号出力
確率,初期状態確率)
BIC(ベイズの情報量基準)による状態数選択
情報量基順のモデルの妥当性検証(学習データ28日)
17000
情報量基準
16000
15000
14000
BIC
13000
12000
11000
10000
0
2
4
6
状態数
8
BICが小
→もっともらしい
モデル
10
BIC= ‐2(最大対数尤度)+dklogn
(dk:モデルの自由度 n:出力記号数)
実験結果1
真冬
春、秋、梅雨
春、秋
夏、秋
盛夏
状態系列の復元
手法:ビタビ・アルゴリズム
state number
5
4
state5
3
2
1
1
92
183
day of the year(1997)
274
365
まとめ、今後の課題
考察
・ 自己組織化マップによるクラスタリングと、隠れマルコフモ
デルによって時間空間変動パターンに関する知識を抽出
することができた。
・ BIC(ベイスの情報基準)より、状態数が5,6のときがモデ
ルに適していることが分かった。
課題
・本研究のシステムを使い、他のもっと複雑な時系列画像
においても適用して有用性を確認する。
情報量基準
情報量基準の状態の妥当性検証(14日)
17000
情報量基準
16000
15000
14000
BIC
13000
12000
11000
10000
0
2
4
6
状態数
8
10
情報量基準
情報量基準のモデルの妥当性検証(学習データ14日)
17000
情報量基準
16000
15000
14000
AIC
BIC
13000
12000
11000
10000
0
2
4
6
状態数
8
10
実験結果
システム概要
1 2 3 4 5 6
画像
SOM
学習
クラスタリング
AIC,BIC
知識発見
HMM
データ
7 8 9
・・・
.
EMアルゴリズム
バウム・ウェルチ
アルゴリズム
パラメータ推定
・・
・
36
隠れマルコフモデル
時系列気象画像の
クラスタID
0.4
記号系列ABCを出力する状態遷移系列は?
状態数2~8までにお
いての最適なモデル
記号ABCを
出力する確率
状態遷移系列を
S2-S3-S2の3種類。それぞれの確率は、
モデルのパラメータ
求めたい!!
推定には、バウム・
 A : 0.5
C : 0.5


S1-S3-S2, S2-S1-S2,
0.8×0.2×0.5×1.0×0.4×0.5=0.016
ウェルチアルゴリズム、
EMアルゴリズムを
0.2×0.5×0.1×0.8×0.5×0.5=0.002
使用
S2
0.2
0.1
0.5
0.3
0.5
最適な状態遷移系列
0.4
ビタビ・アルゴリズム
0.5
よって隠れマルコフモデルがABCを出力する確率は三つの
S1
S3
合計0.028となる
0.8
0.0
0.2×0.5×0.5×1.0×0.4×0.5=0.01
0.3
 A : 0.2
 B : 0.8


 A : 0.0
 B : 1.0 


画像データの説明
ヒストグラムを用いた二段階SOM
Step1:時系列気象画像をm×nに
分割する
Step2:分割された画像を自己組織化
マップによって学習させる
Step3:学習データのクラスタIDの
ヒストグラムをつくる
Step4:ヒストグラムを再び自己組織化
マップにかけ学習する
Step5:学習データが集合し、クラスタ
に分けられる
時系列気象画像
SOM
SOM
1
6
2
3
4
7 ・・・・・・・・・・・・・
5
実験
・隠れマルコフモデルによるモデル化
EMアルゴリズムによってモデルのパラメータ推定
☆学習データとなる記号系列が必要である。
今回本研究では、時系列気象画像のクラスタIDを97年から00年まで
1月1日~12月31日の順に並べ、記号系列とし、それぞれの年度は独
立させる学習データとし、さらに2週間(14日)と4週間(28
日)
に分け、2週間に対しては後半の一週間を次の系列の初めの一週間
と
な
る
よ
う
に
す
る
。
(
例
:
“13243433453213”→“34532133245671”)
同じように4週間に対しては後半の二週間を次の系列の初めの二週
間となるように反復させ、それぞれの14日、28日を独立させた
記号系列を学習データとした。この学習データにより、モデルのパ
ラメータを推定した
AIC,BIC
 AIC(赤池の情報量基準) BIC(ベイスの情報量基準)
:情報量基準によるモデルの妥当性検証
状態遷移確率の
フリ―パラメータ
AIC=‐2(最大対数尤度)+2dk*
BIC= ‐2(最大対数尤度)+dk* log n
記号出力確
率のフリー
パラメータ
初期状態確率
のフリーパラ
メータ
*dk:フリーパラメータ=O(O‐1)+O(N-1)+O-1
O:状態数 N:記号数 n:モデルにかかわる出力記号の数
状態遷移系列の復元
(ビタビ・アルゴリズム)
ビタビ・アルゴリズム
・隠れマルコフモデルにおいての 初期状態
最適な状態遷移系列を求め
るアルゴリズム
A
S1→S2=0.5
S1→S3=0.5
S2→S1=0.1
S2→S2=0.4
S2→S3=0.5
B
C
S1
S1
0.8
最大の確率が得られた地点から
太い矢印を逆向きにたどると
S1
0.2
0.2
[0.16]
0.8
[0.008]
S2→S3→S1
従って最適な状態遷移系列は
S2
S2
S2
0.5
[0.1]
0.0
[0.0]
0.5
[0.016]
S3
S3
S3
0.0
[0.0]
1.0
[0.08]
S1→S3→S2となる
0.0
0.0
実験結果1(学習データが28日の状態5のモデ
ル)
0.85
0.94
0.9
状態6[0.17]
状態5[0.14]
状態1[0.2](春,秋)
0.25
0.09
0.0
0.02
状態4[0.24]
0.01
0.02
状態3[0.19]
0.01
0.95
状態2[0.7](盛夏)
0.03
0.91
0.87
謝辞
本卒業研究に際して,
数理情報科学科菊地時夫助教授には時系
列気象画像データの提供を頂きました。
ここで心からの感謝を申し上げたいと思
います。ありがとうございました。