x 2 - 井手剛の研究紹介

Download Report

Transcript x 2 - 井手剛の研究紹介

Tokyo Research Laboratory
近傍保存原理による異常検知
Anomaly Detection with Neighborhood Preservation Principle
井手剛
IBM東京基礎研究所
| 2007/11/07 | IBIS 2007 |
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
発表の内容
 問題設定
 近傍保存原理
 確率的近傍グラフに基づく異常度の定義
 実験結果
 まとめ
Page 2
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
問題設定
Page 3
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
問題設定 (1/2):
「変化分析」という問題を設定する。「変化検出」の一般化に当たる。
data set B
問題 1 (変化検出):
x2
AとBが違うかどうかを言う
…
x1
問題 2 (変化解析 ):
xN
Page 4
…
data set A
AとBが与えられた時,どの変数
が両者の相違に効いているのか
を言う
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
問題設定 (2/2):
かなり動的で相関の強い時系列データを想定する。
典型的応用例
x1
…
x2
data set B
センサー検査(異常センサーを見
つける)
実データでよくある特徴
…
data set A
• 高度に動的
xN
• 時系列間の強い相関
• 異種混合的
• 教師情報は与えられない
Page 5
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
使える既存手法は乏しい
時系列アラインメント (DTWなど)
[Berndt 94, Keogh 00, …]
• 高度に動的なデータだと
重ね合わせても無意味
?
2標本検定
• 変化検出には有効
• 変化分析は困難(属性の同定は簡単でない)
…
…
[Friedman 79, Henze 88, Gretton 07, …]
PCAなどで潜在構造を求めるもの
[Papadimitriou 05, Idé 05, …]
• ある程度データがおとなしくないと安定した潜在
構造を抽出できない
 実験参照
Page 6
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
Key question:
そもそも2つのデータの間の何が共通なのか。
data set A
data set B
…
…
 こんなにも違うデータを比較する手段な
どあるのだろうか?
「近傍を信じよ」
 (近傍しか信じない)
Page 7
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
近傍保存原理
Page 8
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
やりたいこと: 各時系列の「異常度」を計算すること
data set A
data set B
異常度
reference data
test data
variable
t = (time index)
Page 9
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
t = (time index)
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
相関異常を見つけたい。問題をグラフ比較の問題とみなす。
data set A
data set B
異常度
reference data
test data
dissimilarity graph
variable
Problem
二つのグラフの相違に,どの頂点
が一番効いているだろうか?
x1
x2
..
x1
0
0.2
..
x2
0.2
0
..
..
..
..
..
Page 10
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
相違度が満たすべき条件



similarity or correlation
Page 11
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
以下では、相関係数の大きさを類似度にとり、それから相違度を定義
 もっとも単純な選択

時系列 i と j の間の相関係数


物理的なセンサーの場合,通常の相関係数を考えることは合理的
本定式化は相違度の詳細には特に依存しない
Page 12
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
Key observation:
大局的には何の共通性がなくても,局所的に見ると保存されるものはある
data set A

グラフの大局的構造は不安定

data set B
時系列が高度に動的なため
reference data
test data

dissimilarity graph
強く相関している対の結合は比較的安定

高度な動的なデータでも成り立つ
 近傍保存原理

Page 13
系が普通に動作していれば、強く
相関している変数対の「結合の固
さ」はほとんど変わらない
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
Our approach (1/2):
相違度グラフを近傍グラフの和に分解し、個々の近傍グラフの「固さ」を評価
k-近傍グラフ
test
dissimilarity
graph
graph
decomposition
Evaluation
Comparison to give
anomaly score
reference
Page 14
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
Our approach (2/2):
異常度 = 近傍グラフの「固さ」の変化
 近傍グラフの「固さ」を評価する
 「固さ」の変化が異常を示唆する
Evaluation
Page 15
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
Comparison to give
anomaly score
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
(参考) 近傍グラフを構成する手順例(自明)
 k を決める

たとえば1
 相違度行列の各列に対し,


相違度最小のものから小さい順にk個えらぶ
相手の番号と相違度を記録する
Page 16
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
x1
x2
x3
x4
x1
0
0.2
2
8
x2
0.2
0
4.2
1.3
X3
2
4.2
0
0.6
X4
8
1.3
0.6
0
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
確率的近傍グラフによる異常度の定義
Page 17
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
近傍グラフの「固さ」は、ノード間の結合確率
の和として定義できる
 「固さ」の定義は無数にありえるが、恣意的なものだと値
の解釈が難しい。

何かの確率として得られればうれしい。
 グラフの辺が、確率的な結合を表していると想像してみる。


: 近傍 j に対する、頂点 i の結合確率
が与えられたとすると、頂点 i まわりの結合の固
さは次のように自然に定義できる

Page 18
neighborhood to i
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
対応する近傍グラフの固さの差を異常度として定義する。
異常度スコアの定義
Evaluation
of tightness
Comparison to give
anomaly score
* (詳細) データセットが2つあるから,各変数の近傍の定義
も2通りある。別のデータを使ったとすると異常度は
最終的なスコアは、二つのスコアの最大値として定義される
Page 19
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
は確率的近傍の考えを使って定義できる。
次の問題を解くことで
 c.f. Hinton-Roweis 03
を定める
「与えられた近傍ノード数に対し、平均相違度を最小化せよ」
平均相違度
を最小化
パープレキシティーを定
数に(Hi: エントロピー)
規格化条件
 近傍ノード数を定数ということ
この問題の解:
ただし
近傍グラフの辺を「ソフト化」したことに対応
Page 20
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
Eスコアの諸性質:
p値の差として定義されているので解釈が容易
 自己結合項
を含めて結合確率を定義することにより、周りとあまり関係なくふらつ
いているような変数の寄与を自動的に割り引くことができる

その場合
近傍グラフの固さとしてはほとんどゼロ
 したがって(正常なら)固さの差もまたほとんどゼロ

が主要な入力パラメター

原理的には k は局所的なクラスターの最小サイズ
 p値の差としてスコアが定義されているので解釈がしやすい

上下限が存在するので、たとえば 「0.5」という値がどういう意味を持つのかすぐ分かる
Page 21
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
実験結果
Page 22
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
実験結果 (1/3):
弱く動的なデータと強く動的なデータを比較する
 UCRアーカイブで入手可能
Motor Current (N=20)
(a)
vs
 (a) すべてが “healthy”
 (b) 下の二つが “1 broken bar”、残りは“healthy”
…
…
(b)
“Machine” (N=61)
(a)
 相関は強いが、あまり動的でない
 実際の機械のセンサーデータ
(b)
vs

3つのセンサーの信号が入れ替わっている
…
…
 (a) 正常時
 (b) センサー配線ミスを含むデータ
 相関が強く高度に動的
Page 23
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
実験結果 (2/3):
両者のデータを多次元尺度構成法的に可視化してみる
Motor Current
broken bar
 (a) と (b) の間で、大局的な構造は
保たれている
 仕込んだ“1 broken bar”を図から
見つけるのは容易

“Machine”
 大局的には何の共通性もない
 図を見ても異常センサー(*,×,+)
は分からない

Page 24
このようなデータならPCAや他の時
系列予測のような手法でもOK
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
PCA系の異常検知手法は適用困難
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
実験結果 (3/3):
われわれの異常度は、明瞭に異常センサーを浮き彫りにしている
 実際の機械系の実際のセンサーエラーに
対して異常度を計算した

主たるエラーは配線ミス
• 人の目では見つけるのが困難:
• センサー自体は生きているため
 右図: 異常度の計算例

加速度センサーの3軸が入れ替わっている
• もっとも検知が難しかった例だが,非常
に明瞭に異常センサーを特定している

k依存性は、kが小さい限りはあまり重大で
はない
Page 25
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
まとめ
Page 26
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
まとめ
 「変化解析」というタスクを定式化した。
 動的なデータの比較のために、近傍保存原理という見方を提案した。
 近傍保存原理を確率的近傍グラフで実現する方法を提案した。

The author acknowledges Spiros Papadimitriou and Michail Vlachos (IBM T.J. Watson
Research Center) for fruitful discussions.

機械学習研究グループ T-PRIMAL (Tokyo PRobabilistic Inference and MAchine Learning)で
の議論に感謝します。
Page 27
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
Backup
Page 28
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007
IBM Tokyo Research Laboratory
定義: エントロピーと平均相違度
i の近傍
Page 29
| 2007/11/07 | IBIS 2007 | 井手剛 powered by T-PRIMAL
© Copyright IBM Corporation 2007