Transcript Document

データ分析統合環境
PADOC/stat
分析手法の比較
PIONIX
中井眞人
2014 Confidential @ PIONIX
1
分析プラットホームの開発方針

1行分のデータ加工を全行に適用(SAS仕様)
– 但し加工コマンドはC言語ベースで記述。

ビジュアルなデータ分析
– データフロー図による可視化
– グラフィカルモデルの分析
– 結果のグラフ表示


コマンドベースとデータフローモードを併用
分析機能に拠らないI/Fを提供
2014 Confidential @ PIONIX
2
コマンドベース
繰返文で10行の
データを生成
実行
①
②
1行毎に2項確率
を計算
2項確率の分布
表示
③
px  n5 C10 pd n (1  pd)10n
①データの生成(読込) ②1行毎の加工定義 ③グラフ表示
2014 Confidential @ PIONIX
3
データフローモード
データフロー図
データ流れと分析内容を表示
2014 Confidential @ PIONIX
4
グラフィカル・モデル
共分散構造分析(SEM)
2014 Confidential @ PIONIX
5
グラフィカル・モデル
東京地下鉄網 最短経路問題
2014 Confidential @ PIONIX
6
グラフィカル・モデル
ベイジアンネット因果分析
最大流入量問題
2014 Confidential @ PIONIX
7
非教師データによる分類
oldFaithful間欠泉 待時間/継続時間
2014 Confidential @ PIONIX
分析データフロー図
8
生成モデル 隠れたルール発見
識別モデル
生成モデル
ガウス過程
ディレクレ過程
教師データが必要
確率的降下
EM
MCMC
教師データが必須でない
2014 Confidential @ PIONIX
9
非教師データ分類 結果比較
樹系図による分類
樹系図の第4層での分類
2014 Confidential @ PIONIX
K-Means法による分類
10
非教師データ分類 結果比較(2)
EMアルゴリズム
変分ベイズ
2014 Confidential @ PIONIX
不要セグメントは縮退
11
非教師データ分類 結果比較
手法名
手法
区分数
指定なし
局所解
なし
所属
確率
樹系図
距離の近い集団を結合を下層から上層へ繰返す
○
○
×
k-means
分散が最小になる様に各点の所属変更を繰返す
×
○
×
EM法
混合比率を隠れ変数として期待値最大化で解く
×
×
○
変分ベイズ
事後分布を変分近似してEM法で解く
不要な区分は縮退する
○
×
○
ノンパラベイズ
ディレクレ過程で区分数を増減しながら分類をする
パラメータの調整が難しい
○
○
○
2014 Confidential @ PIONIX
12
教師付データ SVMによる分類例
ガウシアン・カーネルは高次元にデータを写像するので閉曲面の分離可能
プラットのSMOアルゴリズムではカーネルの設定が容易
2014 Confidential @ PIONIX
13
今後の課題



ユーザのモデルを組込むI/Fを提供
多数のユーザ使用による品質の向上
64ビットモードへの移行
2014 Confidential @ PIONIX
14
マニュアルと実行例の表示
コマンドバーでの表示
Webでの表示
2014 Confidential @ PIONIX
15
マニュアルと実行例の表示
2014 Confidential @ PIONIX
16
分析モデル一覧
分類
手法
回帰
重回帰 ロジット回帰 ハザード回帰 回帰木 Lasso回帰
教師付クラスタリング
K近傍法 SVM 判別木 ニューロ
非教師クラスタリング
K-Means EM 変分ベイズ 樹系図
経路
最短経路 最大流入 最短巡回 最大連結木
グラフィカルモデル
ベイジアンネット 共分散構造 ガウシアングラフ マルコフ条件場
最適化
線形計画 非線形計画 2次計画 整数計画
因子分析
主成分 因子分析 協調フィルター アソシエーション コンジョイント
状態空間
カルマンフィルター 粒子フィルター 隠れマルコフ
定常時系列
AR MA ARMA フーリエ変換
サンプリング
階層ベイズMCMC SGD
行列
固有値 SVD LU分解 QR分解 非負値分解 LSH
テキストマイニング(mecab版)
ナイーブベイズ LDA
2014 Confidential @ PIONIX
17