Transcript Document
データ分析統合環境 PADOC/stat 分析手法の比較 PIONIX 中井眞人 2014 Confidential @ PIONIX 1 分析プラットホームの開発方針 1行分のデータ加工を全行に適用(SAS仕様) – 但し加工コマンドはC言語ベースで記述。 ビジュアルなデータ分析 – データフロー図による可視化 – グラフィカルモデルの分析 – 結果のグラフ表示 コマンドベースとデータフローモードを併用 分析機能に拠らないI/Fを提供 2014 Confidential @ PIONIX 2 コマンドベース 繰返文で10行の データを生成 実行 ① ② 1行毎に2項確率 を計算 2項確率の分布 表示 ③ px n5 C10 pd n (1 pd)10n ①データの生成(読込) ②1行毎の加工定義 ③グラフ表示 2014 Confidential @ PIONIX 3 データフローモード データフロー図 データ流れと分析内容を表示 2014 Confidential @ PIONIX 4 グラフィカル・モデル 共分散構造分析(SEM) 2014 Confidential @ PIONIX 5 グラフィカル・モデル 東京地下鉄網 最短経路問題 2014 Confidential @ PIONIX 6 グラフィカル・モデル ベイジアンネット因果分析 最大流入量問題 2014 Confidential @ PIONIX 7 非教師データによる分類 oldFaithful間欠泉 待時間/継続時間 2014 Confidential @ PIONIX 分析データフロー図 8 生成モデル 隠れたルール発見 識別モデル 生成モデル ガウス過程 ディレクレ過程 教師データが必要 確率的降下 EM MCMC 教師データが必須でない 2014 Confidential @ PIONIX 9 非教師データ分類 結果比較 樹系図による分類 樹系図の第4層での分類 2014 Confidential @ PIONIX K-Means法による分類 10 非教師データ分類 結果比較(2) EMアルゴリズム 変分ベイズ 2014 Confidential @ PIONIX 不要セグメントは縮退 11 非教師データ分類 結果比較 手法名 手法 区分数 指定なし 局所解 なし 所属 確率 樹系図 距離の近い集団を結合を下層から上層へ繰返す ○ ○ × k-means 分散が最小になる様に各点の所属変更を繰返す × ○ × EM法 混合比率を隠れ変数として期待値最大化で解く × × ○ 変分ベイズ 事後分布を変分近似してEM法で解く 不要な区分は縮退する ○ × ○ ノンパラベイズ ディレクレ過程で区分数を増減しながら分類をする パラメータの調整が難しい ○ ○ ○ 2014 Confidential @ PIONIX 12 教師付データ SVMによる分類例 ガウシアン・カーネルは高次元にデータを写像するので閉曲面の分離可能 プラットのSMOアルゴリズムではカーネルの設定が容易 2014 Confidential @ PIONIX 13 今後の課題 ユーザのモデルを組込むI/Fを提供 多数のユーザ使用による品質の向上 64ビットモードへの移行 2014 Confidential @ PIONIX 14 マニュアルと実行例の表示 コマンドバーでの表示 Webでの表示 2014 Confidential @ PIONIX 15 マニュアルと実行例の表示 2014 Confidential @ PIONIX 16 分析モデル一覧 分類 手法 回帰 重回帰 ロジット回帰 ハザード回帰 回帰木 Lasso回帰 教師付クラスタリング K近傍法 SVM 判別木 ニューロ 非教師クラスタリング K-Means EM 変分ベイズ 樹系図 経路 最短経路 最大流入 最短巡回 最大連結木 グラフィカルモデル ベイジアンネット 共分散構造 ガウシアングラフ マルコフ条件場 最適化 線形計画 非線形計画 2次計画 整数計画 因子分析 主成分 因子分析 協調フィルター アソシエーション コンジョイント 状態空間 カルマンフィルター 粒子フィルター 隠れマルコフ 定常時系列 AR MA ARMA フーリエ変換 サンプリング 階層ベイズMCMC SGD 行列 固有値 SVD LU分解 QR分解 非負値分解 LSH テキストマイニング(mecab版) ナイーブベイズ LDA 2014 Confidential @ PIONIX 17