聚类分析(第1部分)

Download Report

Transcript 聚类分析(第1部分)

聚类分析(第1部分)
Cluster Analysis
作者:宇传华
2002.11
统计本科应用多元分析教学
一、 简介
第四军医大学卫生统计学教研室 2002年11月
聚类分析也是一种分类技术。与
多元分析的其他方法相比,该方法
较为粗糙,理论上还不完善,但应
用方面取得了很大成功。与回归分
析、判别分析一起被称为多元分析
的三大方法。
第四军医大学卫生统计学教研室 2002年11月
1. 聚类的目的
根据已知数据,计算各观察个体或变
量之间亲疏关系的统计量(距离或相关系
数)。根据某种准则(最短距离法、最长
距离法、中间距离法、重心法),使同一
类内的差别较小,而类与类之间的差别较
大,最终将观察个体或变量分为若干类。
第四军医大学卫生统计学教研室 2002年11月
2. 聚类分析的应用例子
同一种疾病(如肝炎),根据临床表现
等将病人分成若干类(甲、乙、丙、丁
、戊型肝炎)
根据疾病的若干临床表现,将病人分成
轻、中、重三型
在儿童生长发育研究中,把以形态学为
主的指标归于一类,以机能为主的指标
归于另一类
第四军医大学卫生统计学教研室 2002年11月
3. 聚类的种类
根据分类的原理可将聚类分析分为:
 系统聚类与快速聚类
根据分类的对象可将聚类分析分为:
 系统Q型与R型(即样品聚类
clustering for individuals 与指标聚类
clustering for variables)
第四军医大学卫生统计学教研室 2002年11月
4. 聚类分析数据格式
k
第四军医大学卫生统计学教研室 2002年11月
5. 判别分析数据格式
第四军医大学卫生统计学教研室 2002年11月
6. 聚类分析与判别分析间的联系
先采用聚类分析获得各个个体
的类别(classification );然后采
用判别分析建立判别函数,对新个
体进行类型识别((identification )
第四军医大学卫生统计学教研室 2002年11月
二、图示法聚类分析
第四军医大学卫生统计学教研室 2002年11月
1. 散点图(Scatter diagrams)
第四军医大学卫生统计学教研室 2002年11月
2. 轮廓图(Profile diagram)
第四军医大学卫生统计学教研室 2002年11月
三、距离与相似系数
第四军医大学卫生统计学教研室 2002年11月
(一)距离
假使每个样品有p个变量,则
每个样品都可以看成p维空间中的
一个点,n个样品就是p维空间中
的n个点,则第i样品与第j样品之间
的距离记为dij
第四军医大学卫生统计学教研室 2002年11月
1. 欧式(Euclidian )距离
第四军医大学卫生统计学教研室 2002年11月
1.1 二维空间欧式距离
第四军医大学卫生统计学教研室 2002年11月
1.2 欧式距离的平方
第四军医大学卫生统计学教研室 2002年11月
2. 明氏(Minkowski )距离
SPSS称为
BLOCK
第四军医大学卫生统计学教研室 2002年11月
实例计算
品
第四军医大学卫生统计学教研室 2002年11月
绝对值距离
品
第四军医大学卫生统计学教研室 2002年11月
Euclidian距离的平方
第四军医大学卫生统计学教研室 2002年11月
Euclidian距离
第四军医大学卫生统计学教研室 2002年11月
变量标准化
作
用
:
消
除
量
纲
的
影
响
第四军医大学卫生统计学教研室 2002年11月
3. Mahalanobis 距离
第四军医大学卫生统计学教研室 2002年11月
Mahalanobis 距离
 优点:马氏距离既排除了各指标
间的相关性干扰,又消除了各指
标的量纲
 缺点:样品协方差矩阵不变不合
理。
第四军医大学卫生统计学教研室 2002年11月
Mahalanobis 距离实例
第四军医大学卫生统计学教研室 2002年11月
4. Lance和Williams 距离
第四军医大学卫生统计学教研室 2002年11月
5. 斜交空间距离
1

 p 2  ( X ki  X kj )( X li  X lj )rkl 
 k 1 l 1

p
p
12
可考虑变量间相关性问题
第四军医大学卫生统计学教研室 2002年11月
6. 配合距离
X 1  (V , Q, S , T , K )
X 2  (V , M , S , F , K )
m2
配合数
d12 

m1  m2 不配合数  配合数
2
2
=
=
23 5
适用于分
类变量,
尤其是名
义尺度变
量
第四军医大学卫生统计学教研室 2002年11月
(二)相似系数
研究样品间的关系常用
距离,研究指标间的关系常
用相似系数。
相似系数常用的有:夹角
余弦与相关系数
第四军医大学卫生统计学教研室 2002年11月
1. 夹角余弦(Cosine)
第四军医大学卫生统计学教研室 2002年11月
2. Pearson相关系数
第四军医大学卫生统计学教研室 2002年11月
四、系统聚类法
(hierarchical clustering
method)
第四军医大学卫生统计学教研室 2002年11月
系统聚类法是诸聚类分析方法中使用
最多的一种,按下列步骤进行:
将n个样品各作为一类
计算n个样品两两之间的距离,构
成距离矩阵
合并距离最近的两类为一新类
计算新类与当前各类的距离。再合
并、计算,直至只有一类为止
画聚类图,解释
第四军医大学卫生统计学教研室 2002年11月
类与类之间的距离
1.最短距离法(single linkage)
2.最长距离法(complete linkage)
3.中间距离法(median method)
4.类平均法(average linkage)
5.可变类平均法(flexible-beta method)
6.重心法(centroid method)
7.Ward离差平方和法(Ward's minimumvariance method)
第四军医大学卫生统计学教研室 2002年11月
类与类之间的距离
8.Mcquitty的相似分析法(Mcquitty's
similarity analysis)
9.最大似然估计法(EML)
10.密度估计(density linkage)
11.两阶段密度估计法(two-stage
density linkage)等。
第四军医大学卫生统计学教研室 2002年11月
(一)最短距离法
(single linkage,nearest neighbor)
A2
* B1
*
B2
*
A1
*
B3
*
样品间:欧氏距离
类类间:两类间两
两样品距离最短。
即图中样品A2和B1
之间的距离
DMJ  min( DKJ , DLJ )
第四军医大学卫生统计学教研室 2002年11月
6个民族的粗死亡率与期望寿命
第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
待续!
第四军医大学卫生统计学教研室 2002年11月