Transcript shinnou2
Data Clustering: A Review A.K. Jain, M.N. Murty, P.J. Flynn 院生ゼミ ‘04年4月27日(火曜日) 新納浩幸 本日の私の担当 第5章: (前ふりの部分は谷津君) 5.1 Hierarchical Clustering Algorithms ● Agglomerative (凝集的) Single-Link ● Agglomerative Complete-Link ○ Hierarchical Agglomerative Complete-Link 手法の概要 X F G 近いものを 集めてゆく手法 A C B D E Y デンドログラム 階層的クラスタリング の過程と結果はこの デンドログラムに要約 できる 類似度 ある類似度で切ると 複数個のクラスタ結果 が得られる A B C D E F G 手法の位置づけ Clustering Hierarchical Single Link Complete Link Minimum-Variance (省略) Partitional ? こっちはまた後でやる Single-Link 最も近い要素の間の距離で クラスター間の距離を測る Complete-Link 最も遠い要素の間の距離で クラスター間の距離を測る 参考)群平均法 クラスターの重心間の距離で クラスター間の距離を測る Chain 効果 Single-Link の欠点 1 1 1 1 2 1 1 1 1 * * * * * * * 2 2 1 1 11 1 2 2 2 2 2 2 2 2 2 2 Complete-Link はこの問題を受けない, コンパクトなクラスターを作る傾向がある Single-Link の長所 多目的に使える 1 1 1 1 1 1 こんなのでもOK 1 1 1 1 1 1 22 22 2 2 22 222 1 1 1 1 1 1 1 1 1 1 でも通常は Complete-Link の方を つかうのが良い Single-Link アルゴリズム (1) 各パターンをクラスタとみなす. パターン間の距離を測ってソートしておく. (2) Single-Link の定義に従って,各クラスター間の 距離を測り,最も距離が短いクラスタどうしを 併合する.この際,(1)で作ったソート結果を利用). 1つのクラスタにまとまったら終わり. (3)結果はデンドログラムで表現できる Complete-Link アルゴリズム (1) 各パターンをクラスタとみなす. パターン間の距離を測ってソートしておく. (2) Compete-Link の定義に従って,各クラスター間の 距離を測り,最も距離が短いクラスタどうしを 併合する.この際,(1)で作ったソート結果を利用). 1つのクラスタにまとまったら終わり. (3)結果はデンドログラムで表現できる 階層的クラスタリングのアルゴリズム (1) 各パターンをクラスタとみなす. クラスター間の近接行列を作成する. (2) 近接行列に従って,最も距離が短いクラスタどうしを 併合する.結果を近接行列に反映させる. 1つのクラスタにまとまったら終わり. (3)結果はデンドログラムで表現できる 分割的手法との比較 Partitional …. パターンが独立した島になっているときに うまく働く 計算に必要な時間とメモリは少ない. Hierarchical …. 多目的,パターンが独立した島になって いなくてもOK. 計算に必要な時間とメモリは多い.