クラスター分析 §2 クラスター分析の種類

Download Report

Transcript クラスター分析 §2 クラスター分析の種類

クラスター分析
§2 クラスター分析の種類
11月20日 (木)
発表者:大城 亜里沙
クラスター分析の種類
(1)
(2)
(3)
(4)
(5)
最短距離法
最長距離法
群平均法
重心法
ウォード法
データとグラフ
y
変数
サンプル
y
x
①
5
3
②
4
4
③
2
4
④
1
1
⑤
1
2
①
5
②
4
3
③
2
1
④
⑤
1
2
3
4
5
x
最短距離法
各組に属する2つの点の中から1つずつ選んで距離をとったとき、
最も近い距離を、その組と組との距離と考える方法。
表1:サンプル間のユークリッド距離
① ② ③ ④ ⑤
①
②
2
・・・ 32  12  10
・・・
2
1
③ 10
4
④ 20
18
⑤
③
17 13
⑤
1
10
5
④
1
2
3
4
22  12  5
従って、最短の 5 が
[ ④, ⑤]と ③ の距離
となる。
最長距離法
一番長い距離を組相互の距離と考える。
表1までは同じ。組相互の距離を計算する。
① ② ③ ④⑤
①② ③ ④⑤
①
②
③
①②
2
10
4
④⑤ 20 18 10
③
10
④⑤ 20
10
群平均法①
○“最短”、“最長”の距離の平均を距離とする。
(ただし、その場合の平均とは、各組に属するサンプル数を考慮した、加重平均)
○距離の計算過程ではユークリッド平方距離(ユークリッド距離を2乗したもの)を用いて計算
し、最後に平方距離の平方根をとり、距離を求める。
<一般式>
― Str :クラスターtと別の任意のクラスターrとの間の距離
― n p :クラスターpの大きさ(クラスターに含まれる組あるいは点の数)
更新後の距離は、
S tr 
n p S pr  nq S qr
n p  nq
群平均法②
と
Ⅰ ④ と ① の距離=20
⑤ ①
の距離=17
20+17
平均=
2
① ② ③ ④ ⑤
① と
②
の距離=13
2
③ 10
と
④ 20
⑤
① ②
4
の距離=5
18
17 13
10
5
1
表2:サンプル間の平方距離
③ ④⑤
④ と ② の距離=18
Ⅱ⑤ ②
①
②
18+13
平均=
2
2
③ 10
④⑤18.5
Ⅰ
=18.5
Ⅲ ④と ③ の距離=10
⑤ 10+5
③
4
平均=
15.5 7.5
Ⅱ
=15.5
Ⅲ
2
=7.5
重心法(1)
クラスター間の距離を、各クラスターの重心の間の距離として定義する。
<公式>
2つのクラスターをまとめた場合の距離の更新
S tr 
np
n p  nq
 S pr 
nq
n p  nq
 S qr 
n p nq
(n p  nq )
2
 S pq
サンプル間の距離がユークリッド距離の場合のみ、妥当性を持つ。
重心法(2)
表2までは同じ。
公式を用い、新しいクラスターと他のクラスターとの距離を計算する。
p=4,q=5 なので、
1
1
1
S tr 
S4r 
S5r 
S 45
2
2
4
( ただし、 S 45  1 )
①
② ③ ④⑤
①
②
2
③
10
1
1
1
 20   17   1  18.25
2
2
4
1
1
1
 18   13   1  15.25
2
2
4
4
④⑤18.25 15.25 7.25
1
1
1
 10   5   1  7.25
2
2
4
ウォード法(1)
実用的で優れた方法としてよく利用されている。
<公式>
S tr 
ただし、
n p  nr
nt  nr
 S pr 
nt  n p  nq
nq  nr
nt  nr
 S qr
nr

 S pq
nt  nr
ウォード法(2)
表2までは同じ。
公式を用い、新しいクラスターと他のクラスターとの距離を計算する。
p=4,q=5
(A)
①
②
③ ④⑤
①
②
2
(C)
②
③
r・・・ ①
S 42 =18
S 43 =10
S 4 r・・・ S 41=20
S 52 =13
S 5 r・・・ S 51=17
S 53 =5
n2 =1
n3 =1
nr・・・ n1 =1
S 45 =1, n4 =1, nt  n4  n5=2,公式より
(A)・・・
③ 10
④⑤ 24.333 20.333 9.667
(A)
(B)
(B)
(C)
n  n1
n4  n1
n1
 S 41  5
 S 51 
 S 45
nt  n1
nt  n1
nt  n1

2
2
1
 20   17   1  24.333
3
3
3