Transcript shinnou2

Data Clustering: A Review
A.K. Jain, M.N. Murty, P.J. Flynn
院生ゼミ ‘04年4月27日(火曜日)
新納浩幸
本日の私の担当
第5章:
(前ふりの部分は谷津君)
5.1 Hierarchical Clustering Algorithms
● Agglomerative (凝集的) Single-Link
● Agglomerative Complete-Link
○ Hierarchical Agglomerative Complete-Link
手法の概要
X
F
G
近いものを
集めてゆく手法
A
C
B
D
E
Y
デンドログラム
階層的クラスタリング
の過程と結果はこの
デンドログラムに要約
できる
類似度
ある類似度で切ると
複数個のクラスタ結果
が得られる
A
B
C
D
E
F
G
手法の位置づけ
Clustering
Hierarchical
Single Link
Complete Link
Minimum-Variance (省略)
Partitional
?
こっちはまた後でやる
Single-Link
最も近い要素の間の距離で
クラスター間の距離を測る
Complete-Link
最も遠い要素の間の距離で
クラスター間の距離を測る
参考)群平均法
クラスターの重心間の距離で
クラスター間の距離を測る
Chain 効果
Single-Link の欠点
1
1
1
1
2
1 1 1 1 * * * * * * * 2
2
1
1
11
1
2 2
2 2 2
2
2 2
2
2
Complete-Link はこの問題を受けない,
コンパクトなクラスターを作る傾向がある
Single-Link の長所
多目的に使える
1
1
1
1
1 1
こんなのでもOK
1
1
1
1
1
1
22 22
2 2 22
222
1
1
1
1
1
1 1 1
1
1
でも通常は
Complete-Link の方を
つかうのが良い
Single-Link アルゴリズム
(1) 各パターンをクラスタとみなす.
パターン間の距離を測ってソートしておく.
(2) Single-Link の定義に従って,各クラスター間の
距離を測り,最も距離が短いクラスタどうしを
併合する.この際,(1)で作ったソート結果を利用).
1つのクラスタにまとまったら終わり.
(3)結果はデンドログラムで表現できる
Complete-Link アルゴリズム
(1) 各パターンをクラスタとみなす.
パターン間の距離を測ってソートしておく.
(2) Compete-Link の定義に従って,各クラスター間の
距離を測り,最も距離が短いクラスタどうしを
併合する.この際,(1)で作ったソート結果を利用).
1つのクラスタにまとまったら終わり.
(3)結果はデンドログラムで表現できる
階層的クラスタリングのアルゴリズム
(1) 各パターンをクラスタとみなす.
クラスター間の近接行列を作成する.
(2) 近接行列に従って,最も距離が短いクラスタどうしを
併合する.結果を近接行列に反映させる.
1つのクラスタにまとまったら終わり.
(3)結果はデンドログラムで表現できる
分割的手法との比較
Partitional …. パターンが独立した島になっているときに
うまく働く
計算に必要な時間とメモリは少ない.
Hierarchical …. 多目的,パターンが独立した島になって
いなくてもOK.
計算に必要な時間とメモリは多い.