聚类分析

Download Report

Transcript 聚类分析

第14章 聚类分析与判别分析
介绍: 1、聚类分析
2、判别分析
分类学是人类认识世界的基础科学。聚类分析
和判别分析是研究事物分类的基本方法,广泛地应
用于自然科学、社会科学、工农业生产的各个领域。
毛本清
2010.08.27
14.1.1 聚类分析
根据事物本身的特性研究个体分类的方法,原
则是同一类中的个体有较大的相似性,不同类
中的个体差异很大。
根据分类对象的不同,分为样品(观测量)聚
类和变量聚类两种:


样品聚类:对观测量(Case)进行聚类(不同的目的
选用不同的指标作为分类的依据,如选拔运动员与
分课外活动小组)
变量聚类:找出彼此独立且有代表性的自变量,而
又不丢失大部分信息。在生产活动中不乏有变量聚
类的实例,如:衣服号码(身长、胸围、裤长、腰
围)、鞋的号码。变量聚类使批量生产成为可能。
毛本清
2010.08.27
14.1.2 判别分析
判别分析是根据表明事物特点的变量值和它们
所属的类,求出判别函数。根据判别函数对未
知所属类别的事物进行分类的一种分析方法。
在自然科学和社会科学的各个领域经常遇到需
要对某个个体属于哪一类进行判断。如动物学
家对动物如何分类的研究和某个动物属于哪一
类、目、纲的判断。
不同:判别分析和聚类分析不同的在于判别分
析要求已知一系列反映事物特征的数值变量的
值,并且已知各个体的分类(训练样本)。
毛本清
2010.08.27
14.1.3 聚类分析与判别分析的SPSS过程
在AnalyzeClassify下:
1.
2.
3.
K-Means Cluster: 观测量快速聚类分
析过程
Hierarchical Cluster:分层聚类(进行
观测量聚类和变量聚类的过程
Discriminant:进行判别分析的过程
毛本清
2010.08.27
14.2 快速样本聚类过程(Quick Cluster)
使用 k 均值分类法对观测量进行聚类
可使用系统的默认选项或自己设置选项,如分为几类、
指定初始类中心、是否将聚类结果或中间数据数据存
入数据文件等。
快速聚类实例(P342,data14-01a):使用系统的默认
值进行:对运动员的分类(分为4类)
 AnalyzeClassifyK-Means Cluster
Variables: x1,x2,x3
Label Case By: no
Number of Cluster: 4
比较有用的结果:聚类结果形成的最后四类中心点(Final
Cluster Centers) 和每类的观测量数目(Number of
Cases in each Cluster)
 但不知每个运动员究竟属于哪一类?这就要用到Save选项
毛本清




2010.08.27
14.2 快速样本聚类过程(Quick Cluster)
中的选项
使用快速聚类的选择项:
 类中心数据的输入与输出:Centers选项
 输出数据选择项:Save选项
 聚类方法选择项:Method选项
 聚类何时停止选择项:Iterate选项
 输出统计量选择项:Option选项
毛本清
2010.08.27
14.2 指定初始类中心的聚类方法例题P343
数据同上(data14-01a):以四个四类成绩突出者的数据为初始
聚类中心(种子)进行聚类。类中心数据文件data14-01b(但缺一
列Cluster_,不能直接使用,要修改)。对运动员的分类(还是分
为4类)
AnalyzeClassifyK-Means Cluster
 Variables: x1,x2,x3
 Label Case By: no
 Number of Cluster: 4



Center: Read initial from: data14-01b
Save: Cluster membership和Distance from Cluster Center
比较有用的结果(可将结果与前面没有初始类中心比较):
 聚类结果形成的最后四类中心点(Final Cluster Centers)
 每类的观测量数目(Number of Cases in each Cluster)
 在数据文件中的两个新变量qc1_1(每个观测量最终被分配
到哪一类)和 qc1_2(观测量与所属类中心点的距离)
毛本清
2010.08.27
14.3 分层聚类(Hierarchical Cluster)
分层聚类方法:


分解法:先视为一大类,再分成几类
凝聚法:先视每个为一类,再合并为几大类
可用于观测量(样本)聚类(Q型)和变量聚类(R型)
一般分为两步(自动,可从Paste的语句知道,P359):
 Proximities:先对数据进行的预处理(标准化和计算距离等)
 Cluster:然后进行聚类分析
两种统计图:树形图(Dendrogram)和冰柱图(Icicle)
各类型数据的标准化、距离和相似性计算P348-354


定距变量、分类变量、二值变量
标准化方法p353:Z Scores、Range -1 to 1、 Range 0 to 1等
毛本清
2010.08.27
14.3.4 用分层聚类法进行观测量聚类实例P358
对20种啤酒进行分类(data14-02),变量包括:Beername(啤酒名
称)、calorie(热量)、sodium(钠含量)、alcohol(酒精含量)、 cost(价格)
Analyze→Classify →Hierarchical Cluster:




Variables: calorie,sodium,alcohol, cost 成分和价格
Label Case By: Beername
Cluster:Case, Q聚类
Display: 选中Statistics,单击Statistics
 Agglomeration Schedule 凝聚状态表
 Proximity matrix:距离矩阵
 Cluster membership:Single solution:4
量所属的类




显示分为4类时,各观测
Method: Cluster (Furthest Neighbor), Measure-Interval
(Squared Euclidean distance), Transform Value (Range 01/By variable (值-最小值)/极差)
Plots: (Dendrogram) Icicle(Specified range of cluster,
Start-1,Stop-4, by-1), Orientation (Vertical纵向作图)
Save: Cluster Membership(Single solution [4])
毛本清
比较有用的结果:根据需要进行分类,在数据文件中的分类新变量clu4_1等
2010.08.27
14.3.5 用分层聚类法进行变量聚类
变量聚类,是一种降维的方法,用于在
变量众多时寻找有代表性的变量,以便
在用少量、有代表性的变量代替大变量
集时,损失信息很少。
与进行观测量聚类雷同,不同点在于:
选择Variable而非Case
Save选项失效,不建立的新变量
毛本清
2010.08.27
14.3.6
变量聚类实例1 P366
上面啤酒分类问题data14-02。
Analyze→Classify →Hierarchical Cluster:



Variables: calorie,sodium,alcohol, cost 成分和价格
Cluster:Variable, R聚类
Method:
 Cluster Method :Furthest Neighbor
 Measure-Interval:Pearson Correlation
 Transform Values:Z Score (By Variable)



Plots: Dendrogram 树型图
Statistics:Proximity matrix:相关矩阵
比较有用的结果:根据相关矩阵和树型图,可知calorie(热量)和alcohol(酒
精含量)的相关系数最大,首先聚为一类。从整体上看,聚为三类是比较好
的结果。至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量,
可以根据专业知识或测度的难易程度决定。
毛本清
2010.08.27
14.3.6
变量聚类实例2 P368
有10个测试项目,分别用变量X1-X10表示,
50名学生参加测试。想从10个变量中选择几
个典型指标。data14-03
Analyze→Classify →Hierarchical Cluster:



Variables: X1-X10
Cluster:Variable, R聚类
Method:
 Cluster Method :Furthest Neighbor
 Measure-Interval:Pearson Correlation



Plots: Dendrogram 树型图
Statistics:Proximity matrix相关矩阵
比较有用的结果:可以从树型图中看出聚类过程。具体聚为几类最为合理,
根据专业知识来定。而每类中的典型指标的选择,可用p370的相关指数公
式的计算,然后比较类中各个变量间的相关指数,哪个大,就选哪个变量作
为此类的代表变量。
毛本清
2010.08.27
14.4 判别分析P374
判别分析的概念:是根据观测到的若干变量值,判断
研究对象如何分类的方法。
要先建立判别函数 Y=a1x1+a2x2+...anxn,其中:Y为
判别分数(判别值),x1 x2...xn为反映研究对象特征的变
量,a1 a2...an为系数
SPSS对于分为m类的研究对象,建立m个线性判别函
数。对于每个个体进行判别时,把观测量的各变量值
代入判别函数,得出判别分数,从而确定该个体属于
哪一类,或计算属于各类的概率,从而判别该个体属
于哪一类。还建立标准化和未标准化的典则判别函数。
具体见下面吴喜之教授有关判别分析的讲义
毛本清
2010.08.27
补充:聚类分析与判别分析
以下的讲义是吴喜之教授有关
聚类分析与判别分析的讲义,
我觉得比书上讲得清楚。
先是聚类分析一章
再是判别分析一章
毛本清
2010.08.27
聚类分析
毛本清
2010.08.27
分类
俗语说,物以类聚、人以群分。
但什么是分类的根据呢?
比如,要想把中国的县分成若干类,就有很
多种分类法;
可以按照自然条件来分,
比如考虑降水、土地、日照、湿度等各方面;
也可以考虑收入、教育水准、医疗条件、基
础设施等指标;
既可以用某一项来分类,也可以同时考虑多
项指标来分类。
毛本清
2010.08.27
聚类分析
对于一个数据,人们既可以对变量(指标)进
行分类(相当于对数据中的列分类),也可以对
观测值(事件,样品)来分类(相当于对数据
中的行分类)。
比如学生成绩数据就可以对学生按照理科或文
科成绩(或者综合考虑各科成绩)分类,
当然,并不一定事先假定有多少类,完全可以
按照数据本身的规律来分类。
本章要介绍的分类的方法称为聚类分析
(cluster analysis)。对变量的聚类称为R
型聚类,而对观测值聚类称为Q型聚类。这两
种聚类在数学上是对称的,没有什么不同。
毛本清
2010.08.27
饮料数据(drink.sav )
16种饮料的热量、咖啡因、钠及价格四种变量
毛本清
2010.08.27
如何度量远近?
如果想要对100个学生进行分类,如果仅仅知
道他们的数学成绩,则只好按照数学成绩来
分类;这些成绩在直线上形成100个点。这样
就可以把接近的点放到一类。
如果还知道他们的物理成绩,这样数学和物
理成绩就形成二维平面上的100个点,也可以
按照距离远近来分类。
三维或者更高维的情况也是类似;只不过三
维以上的图形无法直观地画出来而已。在饮
料数据中,每种饮料都有四个变量值。这就
是四维空间点的问题了。
毛本清
2010.08.27
两个距离概念
按照远近程度来聚类需要明确两个概念:一个是点和点
之间的距离,一个是类和类之间的距离。
点间距离有很多定义方式。最简单的是歐氏距离,还有
其他的距离。
当然还有一些和距离相反但起同样作用的概念,比如相
似性等,两点越相似度越大,就相当于距离越短。
由一个点组成的类是最基本的类;如果每一类都由一个
点组成,那么点间的距离就是类间距离。但是如果某一
类包含不止一个点,那么就要确定类间距离,
类间距离是基于点间距离定义的:比如两类之间最近点
之间的距离可以作为这两类之间的距离,也可以用两类
中最远点之间的距离作为这两类之间的距离;当然也可
以用各类的中心之间的距离来作为类间距离。在计算时,
各种点间距离和类间距离的选择是通过统计软件的选项
实现的。不同的选择的结果会不同,但一般不会差太多。
毛本清
2010.08.27
向量x=(x1,…, xp)与y=(y1,…, yp)之间的距离或相似系数:
欧氏距离:
Euclidean
2
(
x

y
)
 i i
Squared Euclidean
i
夹角余弦(相似系数1) :
i xi yi
cosine
C xy (1)  cos  xy 
i
Chebychev: Maxi|xi-yi|
Minkowski: 

  ( xi  yi ) 
 i

q
i
Block(绝对距离): Si|xi-yi|
2
2
x
y
 i i
i
2
(
x

y
)
 i i
平方欧氏距离:
Pearson correlation
(相似系数2):
1
q
Cxy (2)  rxy 
当变量的测量值相差悬殊时,要先进行
标准化. 如R为极差, s 为标准差, 则标
准化的数据为每个观测值减去均值后
再除以R或s. 当观测值大于0时, 有人
采用Lance和Williams的距离
 ( x  x )( y  y )
i
i
i
2
2
(
x

x
)
(
y

y
)
 i
 i
i
i
1 | xi  yi |

p i xi  yi
毛本清
2010.08.27
类Gp与类Gq之间的距离Dpq
(d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离)
最短距离法:
最长距离法:
Dpq  min d ( xi , x j )
Dpq  max d ( xi , x j )
类平均法:
1
重心法:
Dpq 
d ( xi , x j )
Dpq  min d ( xp , xq )


n1n2 xi Gp x j Gq
离差平方和:
D1   ( xi  x p ) '( xi  x p ), D2   ( x j  xq ) '( x j  xq ),
(Wald)
x G
x G
i
D1 2 
p
j

xk G p Gq
q
( xk  x ) '( xi  x )  Dpq  D1 2  D1  D2
(中间距离, 可变平均法,可变法等可参考各书).
在用欧氏距离时, 有统一的递推公式
(假设Gr是从Gp和Gq合并而来):
毛本清
2010.08.27
Lance和Williams给出(对欧氏距离)统一递推公式:
D2(k,r)=apD2(k,p)+aqD2(k,q)+bD2(p,q)
+g|D2(k,p)-D2(k,q)|
前面方法的递推公式可选择参数而得:
方法
ai (i=p,q)
b
g
最短距离
½
最长距离
½
重心
ni/nr
类平均
ni/nr
离差平方和(ni+nk)/ (nr+nk)
中间距离
1/2
可变法
(1-b)/2
可变平均 (1- b) n /n
0
0
- a pa q
0
-nk/ (nr+nk)
-1/4
b(<1)
b(<1)
-1/2
1/2
0
0
0
0
0
0
毛本清
2010.08.27
有了上面的点间距离和类间
距离的概念,就可以介绍聚
类的方法了。这里介绍两个
简单的方法。
毛本清
2010.08.27
事先要确定分多少类:k-均值聚类
前面说过,聚类可以走着瞧,不一定事先确定有多少类;
但是这里的k-均值聚类(k-means cluster,也叫快速聚
类,quick cluster)却要求你先说好要分多少类。看起来
有些主观,是吧!
假定你说分3类,这个方法还进一步要求你事先确定3个点
为“聚类种子”(SPSS软件自动为你选种子);也就是说,
把这3个点作为三类中每一类的基石。
然后,根据和这三个点的距离远近,把所有点分成三类。
再把这三类的中心(均值)作为新的基石或种子(原来的
“种子”就没用了),重新按照距离分类。
如此叠代下去,直到达到停止叠代的要求(比如,各类最
后变化不大了,或者叠代次数太多了)。显然,前面的聚
类种子的选择并不必太认真,它们很可能最后还会分到同
一类中呢。下面用饮料例的数据来做k-均值聚类。
毛本清
2010.08.27
• 假定要把这16种饮料分成3类。利用SPSS,只
叠代了三次就达到目标了(计算机选的种子还
可以)。这样就可以得到最后的三类的中心以
及每类有多少点
Fin al Clu ster C enters
CALORIE
CAFFEINE
SODIUM
PRICE
1
203.10
1.65
13.05
3.15
Cluster
2
33.71
4.16
10.06
2.69
3
107.34
3.49
8.76
2.94
Num ber o f Cas es in each Clust er
Cluster
Valid
Missing
1
2
3
2.000
7.000
7.000
16.000
.000
毛本清
2010.08.27
根据需要,可以输出哪些
点分在一起。结果是:第
一类 为饮 料 1、10;第二
类为饮料2、4、8、11、12、
13、14;第三类为剩下的
饮料3、5、6、7、9、15、
16。
毛本清
2010.08.27
SPSS实现(聚类分析)
K-均值聚类
以 数 据 drink.sav 为 例 , 在 SPSS 中 选 择
Analyze - Classify - K-Menas Cluster ,
然后把calorie(热量)、caffeine(咖啡
因)、sodium(钠)、price(价格)选
入Variables,
在Number of Clusters处选择3(想要分
的类数),
如果想要知道哪种饮料分到哪类,则选
Save,再选Cluster Membership等。
注意k-均值聚类只能做Q型聚类,如要做R
型聚类,需要把数据阵进行转置。
毛本清
2010.08.27
事先不用确定分多少类:分层聚类
另一种聚类称为分层聚类或系统聚类
(hierarchical cluster)。开始时,
有多少点就是多少类。
它第一步先把最近的两类(点)合并
成一类,然后再把剩下的最近的两类
合并成一类;
这样下去,每次都少一类,直到最后
只有一大类为止。显然,越是后来合
并的类,距离就越远。再对饮料例子
来实施分层聚类。
毛本清
2010.08.27
对于我们的数据,SPSS输出的树型图为
毛本清
2010.08.27
聚类要注意的问题
聚类结果主要受所选择的变量影响。如果去
掉一些变量,或者增加一些变量,结果会很
不同。
相比之下,聚类方法的选择则不那么重要了。
因此,聚类之前一定要目标明确。
另外就分成多少类来说,也要有道理。只要
你高兴,从分层聚类的计算机结果可以得到
任何可能数量的类。但是,聚类的目的是要
使各类距离尽可能的远,而类中点的距离尽
可能的近,而且分类结果还要有令人信服的
解释。这一点就不是数学可以解决的了。
毛本清
2010.08.27
SPSS实现(聚类分析)
分层聚类
对 drink.sav 数 据 在 SPSS 中 选 择 Analyze -
Classify-Hierarchical Cluster,
然后把calorie(热量)、caffeine(咖啡因)、
sodium(钠)、price(价格)选入Variables,
在Cluster选Cases(这是Q型聚类:对观测值
聚类),如果要对变量聚类(R型聚类)则选
Variables,
为了画出树状图,选Plots,再点Dendrogram
等。
毛本清
2010.08.27
啤酒成分和价格数据(data14-02)
啤酒名
Budweiser
Schlitz
Ionenbrau
Kronensourc
Heineken
Old-milnaukee
Aucsberger
Strchs-bohemi
Miller-lite
Sudeiser-lich
Coors
Coorslicht
Michelos-lich
Secrs
Kkirin
Pabst-extra-l
Hamms
Heilemans-old
Olympia-goldSchlite-light
热量
144.00
181.00
157.00
170.00
152.00
145.00
175.00
149.00
99.00
113.00
140.00
102.00
135.00
150.00
149.00
68.00
136.00
144.00
72.00
97.00
钠含量 酒精
19.00
4.70
19.00
4.90
15.00
4.90
7.00
5.20
11.00
5.00
23.00
4.60
24.00
5.50
27.00
4.70
10.00
4.30
6.00
3.70
16.00
4.60
15.00
4.10
11.00
4.20
19.00
4.70
6.00
5.00
15.00
2.30
19.00
4.40
24.00
4.90
6.00
2.90
7.00
4.20
价格
.43
.43
.48
.73
.77
.26
.40
.42
.43
.44
.44
.46
.50
.76
.79
.36
.43
.43
.46
.47
毛本清
2010.08.27
Statistics→Classify →Hierarchical Cluster:
Variables:啤酒名和成分价格等
Cluster(Case, Q型聚类)
Display: (Statistics)(Agglomeration Schedule凝聚状态表),
(Proximity matrix), Cluster membership(Single solution,
[4])
Method: Cluster (Furthest Neighbor), Measure-Interval
(Squared Euclidean distance), Transform Value (Range 01/By variable (值-最小值)/极差)
Plots: (Dendrogram) Icicle(Specified range of cluster,
Start-1,Stop-4, by-1), Orientation (Vertical)
Save: Cluster Membership(Single solution [4])
毛本清
2010.08.27
C a s e P r o c e s s i n g S u m m a ray
啤酒例子
Cases
Valid
Missing
N
Percent
N
Percent
20
100.0%
0
.0%
a. Squared Euclidean Distance used
Total
N
Percent
20
100.0%
下表(Proximity matrix)中行列交叉点为
两种啤酒之间各变量的欧氏距离平方和
Proximity Matrix
Case
1: Budweiser 2: Schlitz 3: Ionenbrau
1: Budweiser
.000
.111
.062
2: Schlitz
.111
.000
.090
3: Ionenbrau
.062
.090
.000
4: Kronensourc
.724
.665
.390
5: Heineken
.570
.623
.339
6: Old-milnaukee
.140
.249
.337
7: Aucsberger
.198
.098
.267
8: Strchs-bohemi
.147
.230
.348
9: Miller-lite
.358
.745
.364
10: Sudeiser-lich
.556
.886
.482
11: Coors
.023
.161
.039
12: Coorslicht
.213
.591
.301
13: Michelos-lich
.193
.376
.123
14: Secrs
.391
.467
.323
15: Kkirin
.855
.926
.532
16: Pabst-extra-l
1.069
1.714
1.332
17: Hamms
.014
.183
.104
18: Heilemans-old
.061
.164
.206
19: Olympia-gold1.109
1.708
1.142
20: Schlite-light
.530
.933
.475
This is a dissimilarity matrix
Squared Euclidean Distance
4:
6:
8:
9:
10:
12:
13:
16:
18:
19:
20:
Kronensourc 5: Heineken Old-milnaukee 7: Aucsberger Strchs-bohemi Miller-lite Sudeiser-lich 11: Coors Coorslicht Michelos-lich 14: Secrs 15: Kkirin Pabst-extra-l 17: Hamms Heilemans-old Olympia-gold- Schlite-light
.724
.570
.140
.198
.147
.358
.556
.023
.213
.193
.391
.855
1.069
.014
.061
1.109
.530
.665
.623
.249
.098
.230
.745
.886
.161
.591
.376
.467
.926
1.714
.183
.164
1.708
.933
.390
.339
.337
.267
.348
.364
.482
.039
.301
.123
.323
.532
1.332
.104
.206
1.142
.475
.000
.071
1.451
1.054
1.308
.815
.776
.589
.885
.418
.385
.054
2.269
.800
1.037
1.531
.756
.071
.000
1.272
.936
1.026
.682
.729
.471
.653
.345
.155
.059
1.899
.612
.801
1.331
.656
1.451
1.272
.000
.222
.130
.661
.930
.228
.457
.555
.929
1.672
1.162
.149
.114
1.497
.934
1.054
.936
.222
.000
.137
1.041
1.358
.326
.805
.709
.630
1.354
2.086
.297
.114
2.239
1.314
1.308
1.026
.130
.137
.000
.867
1.201
.283
.540
.643
.557
1.496
1.416
.168
.027
1.786
1.152
.815
.682
.661
1.041
.867
.000
.087
.222
.065
.122
.791
.741
.540
.292
.638
.288
.027
.776
.729
.930
1.358
1.201
.087
.000
.363
.210
.132
.953
.703
.556
.473
.951
.196
.050
.589
.471
.228
.326
.283
.222
.363
.000
.141
.087
.394
.685
.948
.026
.156
.873
.347
.885
.653
.457
.805
.540
.065
.210
.141
.000
.128
.572
.823
.443
.139
.388
.395
.148
.418
.345
.555
.709
.643
.122
.132
.087
.128
.000
.428
.434
.810
.167
.455
.538
.153
.385
.155
.929
.630
.557
.791
.953
.394
.572
.428
.000
.395
1.695
.412
.451
1.496
.870
.054
.059
1.672
1.354
1.496
.741
.703
.685
.823
.434
.395
.000
2.068
.893
1.199
1.283
.641
2.269
1.899
1.162
2.086
1.416
.540
.556
.948
.443
.810
1.695
2.068
.000
.847
1.314
.256
.607
.800
.612
.149
.297
.168
.292
.473
.026
.139
.167
.412
.893
.847
.000
.086
.927
.455
1.037
.801
.114
.114
.027
.638
.951
.156
.388
.455
.451
1.199
1.314
.086
.000
1.535
.882
1.531
1.331
1.497
2.239
1.786
.288
.196
.873
.395
.538
1.496
1.283
.256
.927
1.535
.000
.217
.756
.656
.934
1.314
1.152
.027
.050
.347
.148
.153
.870
.641
.607
.455
.882
.217
.000
毛本清
2010.08.27
凝聚过程:Coefficients为不相似系数,由于是欧氏距离,小
的先合并.
Agg lomer ation Sche dule
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Cluster Combined
Cluster 1 Cluster 2
1
17
1
11
8
18
9
20
4
15
4
5
9
10
2
3
12
13
6
8
1
2
9
12
6
7
16
19
1
6
4
14
9
16
1
4
1
9
Coefficients
.014
.026
.027
.027
.054
.071
.087
.090
.128
.130
.183
.210
.222
.256
.348
.395
.810
1.672
2.269
Stage Cluster First
Appears
Cluster 1 Cluster 2
0
0
1
0
0
0
0
0
0
0
5
0
4
0
0
0
0
0
0
3
2
8
7
9
10
0
0
0
11
13
6
0
12
14
15
16
18
17
Next Stage
2
11
10
7
6
16
12
11
12
13
15
17
15
17
18
18
19
19
毛本清 0
2010.08.27
Clu ster Membe rship
分为四
类的聚
类结果
Case
1: Budweiser
2: Schlitz
3: Ionenbrau
4: Kronensourc
5: Heineken
6: Old-milnaukee
7: Aucsberger
8: Strchs-bohemi
9: Miller-lite
10: Sudeiser-lich
11: Coors
12: Coorslicht
13: Michelos-lich
14: Secrs
15: Kkirin
16: Pabst-extra-l
17: Hamms
18: Heilemans-old
19: Olympia-gold20: Schlite-light
4 Clusters
1
1
1
2
2
1
1
1
3
3
1
3
3
2
2
4
1
1
4
3
毛本清
2010.08.27
冰柱图(icicle)
Ver tical Icicl e
Case
1: Budweiser
17: Hamms
11: Coors
2: Schlitz
3: Ionenbrau
6: Old-milnaukee
8: Strchs-bohemi
18: Heilemans-old
7: Aucsberger
4: Kronensourc
15: Kkirin
5: Heineken
14: Secrs
9: Miller-lite
20: Schlite-light
10: Sudeiser-lich
12: Coorslicht
13: Michelos-lich
16: Pabst-extra-l
19: Olympia-gold-
毛本清
2010.08.27
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Number of clusters
1
X
2
X
3
X
4
X
聚类树型图
毛本清
2010.08.27
学生测验数据(data14-03)
50个学生,X1-X10个测验项目
要对这10个变量进行变量聚类
( R 型聚类),过程和Q型聚
类(观测量聚类,对cases)一样
毛本清
2010.08.27
Statistics→Classify →Hierarchical Cluster:
Variables:x1-x10
Cluster(Variable, R型聚类)
Display: (Statistics) (Proximity matrix), Cluster
membership(Single solution, [2])
Method:
Cluster (Furthest Neighbor), Measure-Interval
(Pearson correlation,用Pearson相关系数),
Plots:
Icicle(All Cluster)
毛本清
2010.08.27
Cas e Pro cessi ng Sum marya
学生测验例子
Cases
Valid
Missing
Total
N
Percent
N
Percent
N
Percent
50
100.0%
0
.0%
50
100.0%
a. Correlation between Vectors of Values used
下表(Proximity matrix)中行列交叉点为
两个变量之间变量的欧氏距离平方和
Pro ximit y Mat rix
Case
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X1
.000
.133
.290
.099
.331
.198
.449
.323
.320
.112
X2
.133
.000
.026
.411
.201
.328
.134
.199
.268
.271
X3
.290
.026
.000
.151
.274
.406
.443
.509
.598
.318
X4
.099
.411
.151
.000
.072
.282
.145
.401
.324
.407
Matrix File Input
X5
X6
.331
.198
.201
.328
.274
.406
.072
.282
.000
.317
.317
.000
.191
.370
.063
.312
.356
.306
.084
.296
X7
.449
.134
.443
.145
.191
.370
.000
.337
.313
.246
X8
.323
.199
.509
.401
.063
.312
.337
.000
.611
.584
X9
.320
.268
.598
.324
.356
.306
.313
.611
.000
.325
X10
.112
.271
.318
.407
.084
.296
.246
.584
.325
.000
毛本清
2010.08.27
分为两类的聚类结果
Clus ter Me mbersh ip
Case
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
2 Clusters
1
1
2
1
1
1
1
2
2
2
毛本清
2010.08.27
冰柱图(icicle)
Ver tical Icicl e
Case
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X1
X
X7
X
X
X
X
X
X
X
X
X
X5
X
X
X
X
X
X
X
X
X6
X
X
X
X
X
X
X
X
X
X2
X
X
X
X
X
X
X
X
X
X4
X
X
X
X
X
X
X
X
X
X3
X
X
X
X
X
X8
X9
X10
Number of clusters
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
毛本清
2010.08.27
判
别
分
析
毛本清
2010.08.27
判别
有一些昆虫的性别很难看出,只有通过
解剖才能够判别;
但是雄性和雌性昆虫在若干体表度量上
有些综合的差异。于是统计学家就根据
已知雌雄的昆虫体表度量(这些用作度
量的变量亦称为预测变量)得到一个标
准,并且利用这个标准来判别其他未知
性别的昆虫。
这样的判别虽然不能保证百分之百准确,
但至少大部分判别都是对的,而且用不
着杀死昆虫来进行判别了。
毛本清
2010.08.27
判别分析(discriminant analysis)
这就是本章要讲的是判别分析。
判别分析和前面的聚类分析有什么不
同呢?
主要不同点就是,在聚类分析中一般
人们事先并不知道或一定要明确应该
分成几类,完全根据数据来确定。
而在判别分析中,至少有一个已经明
确知道类别的“训练样本”,利用这
个数据,就可以建立判别准则,并通
过预测变量来为未知类别的观测值进
行判别了。
毛本清
2010.08.27
判别分析例子
数据disc.sav:企图用一套打分体系来描绘企业的状况。
该体系对每个企业的一些指标(变量)进行评分。
这些指标包括:企业规模(is)、服务(se)、雇员工资比
例(sa)、利润增长(prr)、市场份额(ms)、市场份额增
长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。
另外,有一些企业已经被某杂志划分为上升企业、稳
定企业和下降企业。
我们希望根据这些企业的上述变量的打分和它们已知
的类别(三个类别之一:group-1代表上升,group-2
代表稳定,group-3代表下降)找出一个分类标准,以
对没有被该刊物分类的企业进行分类。
该数据有90个企业(90个观测值),其中30个属于上
升型,30个属于稳定型,30个属于下降型。这个数据
就是一个“训练样本”。
毛本清
2010.08.27
Disc.sav数据
毛本清
2010.08.27
根据距离的判别(不用投影)
Disc.sav数据有8个用来建立判别标准(或判别函
数)的(预测)变量,另一个(group)是类别。
因此每一个企业的打分在这8个变量所构成的8维
空间中是一个点。这个数据有90个点,
由于已经知道所有点的类别了,所以可以求得每
个类型的中心。这样只要定义了如何计算距离,
就可以得到任何给定的点(企业)到这三个中心
的三个距离。
显然,最简单的办法就是离哪个中心距离最近,
就属于哪一类。通常使用的距离是所谓的
Mahalanobis距离。用来比较到各个中心距离的
数学函数称为判别函数(discriminant function).这
种根据远近判别的方法,原理简单,直观易懂。
毛本清
2010.08.27
Fisher判别法(先进行投影)
所谓Fisher判别法,就是一种先投影的方法。
考虑只有两个(预测)变量的判别分析问题。
假定这里只有两类。数据中的每个观测值是二维空间
的一个点。见图(下一张幻灯片)。
这里只有两种已知类型的训练样本。其中一类有38个
点(用“o”表示),另一类有44个点(用“*”表
示)。按照原来的变量(横坐标和纵坐标),很难将
这两种点分开。
于是就寻找一个方向,也就是图上的虚线方向,沿着
这个方向朝和这个虚线垂直的一条直线进行投影会使
得这两类分得最清楚。可以看出,如果向其他方向投
影,判别效果不会比这个好。
有了投影之后,再用前面讲到的距离远近的方法来得
到判别准则。这种首先进行投影的判别方法就是
毛本清
Fisher判别法。
2010.08.27
3
2
1
0
-1
-3 -2
-4
-4
-2
0
2
4
6
毛本清
2010.08.27
逐步判别法(仅仅是在前面的方
法中加入变量选择的功能)
有时,一些变量对于判别并没有什么作用,
为了得到对判别最合适的变量,可以使用
逐步判别。也就是,一边判别,一边引进
判别能力最强的变量,
这个过程可以有进有出。一个变量的判别
能力的判断方法有很多种,主要利用各种
检验,例如Wilks’ Lambda、Rao’s V、The
Squared Mahalanobis Distance、Smallest
F ratio 或 The Sum of Unexplained
Variations等检验。其细节这里就不赘述了;
这些不同方法可由统计软件的各种选项来
实现。逐步判别的其他方面和前面的无异。
毛本清
2010.08.27
Disc.sav例子
利用SPSS软件的逐步判别法淘汰了不显著的流动
资金比例(cp),还剩下七个变量is,se,sa,prr,
ms , msr , cs , 得 到 两 个 典 则 判 别 函 数
(Canonical Discriminant Function Coefficients):


0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.166
0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384
这两个函数实际上是由Fisher判别法得到的向
两个方向的投影。这两个典则判别函数的系数
是下面的SPSS输出得到的:
毛本清
2010.08.27
Disc.sav例子
Canonical Discriminant Function Coefficients
Function
IS 企 业 规模
SE 服 务
SA 雇 员 工资 比 例
PRR 利 润 增长
MS 市 场 份额
MSR 市 场 份额 增 长
CS 资 金 周转 速 度
(Constant)
1
2
.035
3.283
.037
-.007
.068
-.023
-.385
-3.166
.005
.567
.041
.012
.048
.044
-.159
-4.384
Unstandardized coefficients
根据这两个函数,从任何一个观测值(每个观测值都有
7个变量值)都可以算出两个数。把这两个数目当成该
观测值的坐标,这样数据中的150个观测值就是二维平
面上的150个点。它们的点图在下面图中。
毛本清
2010.08.27
Canonical Discriminant Functions
4
3
2
1
3
1
0
GROUP
2
G ro up Centroid s
-1
3
-2
2
-3
1
- 10
Function 1
0
10
毛本清
2010.08.27
Disc.sav例子
从上图可以看出,第一个投影(相应于来自于第一个典
则判别函数横坐标值)已经能够很好地分辨出三个企业
类型了。这两个典则判别函数并不是平等的。其实一个
函数就已经能够把这三类分清楚了。SPSS的一个输出就
给出了这些判别函数(投影)的重要程度:
Eig envalu es
Function Eigenvalue % of Variance Cumulative %
1
26.673a
99.0
99.0
2
.262a
1.0
100.0
a. First 2 canonical discriminant functions were
analysis.
Canonical
Correlation
.982
.456
used in the
前面说过,投影的重要性是和特征值的贡献率有关。该表
说明第一个函数的贡献率已经是99%了,而第二个只有
1%。当然,二维图要容易看一些。投影之后,再根据各
点的位置远近算出具体的判别公式(SPSS输出):
毛本清
2010.08.27
Disc.sav例子
具体的判别公式(SPSS输出),由一张分类函数表给出:
Cla ssifi catio n Fun ction Coef ficie nts
GROUP
1.00
2.00
3.00
IS
.118
.338
.554
SE
.770
21.329
41.616
SA
.345
.542
.811
PRR
.086
.029
-.001
MS
.355
.743
1.203
MSR
.368
.173
.081
CS
7.531
5.220
2.742
(Constant)
-57.521
-53.704
-96.084
Fisher's linear discriminant functions
该表给出了三个线性分类函数的系数。把每个观测点带入三个函数,
就可以得到分别代表三类的三个值,哪个值最大,该点就属于相应
的那一类。当然,用不着自己去算,计算机软件的选项可以把这些
训练数据的每一个点按照这里的分类法分到某一类。当然,我们一
开始就知道这些训练数据的各个观测值的归属,但即使是这些训练
样本的观测值(企业)按照这里推导出的分类函数来分类,也不一
毛本清
定全都能够正确划分。
2010.08.27
Disc.sav例子
下面就是对我们的训练样本的分类结果(SPSS):
C l a s s i f i c a t i o n R e s u l tbs,c
Predicted Group Membership
GROUP
1.00
2.00
3.00
Total
Original
Count 1.00
30
0
0
30
2.00
0
30
0
30
3.00
0
0
30
30
%
1.00
100.0
.0
.0
100.0
2.00
.0
100.0
.0
100.0
3.00
.0
.0
100.0
100.0
a
Cross-validated Count 1.00
30
0
0
30
2.00
0
30
0
30
3.00
0
0
30
30
%
1.00
100.0
.0
.0
100.0
2.00
.0
100.0
.0
100.0
3.00
.0
.0
100.0
100.0
a. Cross validation is done only for those cases in the analysis. In cross
validation, each case is classified by the functions derived from all
cases other than that case.
b. 100.0% of original grouped cases correctly classified.
c. 100.0% of cross-validated grouped cases correctly classified.
毛本清
2010.08.27
误判和正确判别率
从这个表来看,我们的分类能够100%地把训
练数据的每一个观测值分到其本来的类。
该表分成两部分;上面一半(Original)是用
从全部数据得到的判别函数来判断每一个点的
结果(前面三行为判断结果的数目,而后三行
为相应的百分比)。
下面一半(Cross validated)是对每一个观
测值,都用缺少该观测的全部数据得到的判别
函数来判断的结果。
这里的判别结果是100%判别正确,但一般并
不一定。
毛本清
2010.08.27
Disc.sav例子
如果就用这个数据,但不用所有的变量,而只用4个变量进行判
别:企业规模(is)、服务(se)、雇员工资比例(sa)、资金周转速
度(cs)。结果的图形和判别的正确与否就不一样了。下图为两个
典则判别函数导出的150个企业的二维点图。它不如前面的图那
么容易分清楚了
Canonical Discriminant Functions
3
2
原先的图
1
Canonical Discriminant Functions
2
1
0
3
4
-1
3
GROUP
G ro up Centroid s
-2
2
3
1
0
2
3
Function 2
1
-3
GROUP
G ro up Centroid s
-1
3
-2
2
-3
2
-4
1
-8
-6
-4
-2
0
2
4
6
8
Function 1
1
- 10
Function 1
0
10
毛本清
2010.08.27
Disc.sav例子
下面是基于4个变量时分类结果表:
C l a s s i f i c a t i o n R e s u l tbs,c
Predicted Group Membership
GROUP
1.00
2.00
3.00
Total
Original
Count 1.00
30
0
0
30
2.00
2
27
1
30
3.00
0
0
30
30
%
1.00
100.0
.0
.0
100.0
2.00
6.7
90.0
3.3
100.0
3.00
.0
.0
100.0
100.0
a
Cross-validated Count 1.00
30
0
0
30
2.00
2
27
1
30
3.00
0
0
30
30
%
1.00
100.0
.0
.0
100.0
2.00
6.7
90.0
3.3
100.0
3.00
.0
.0
100.0
100.0
a. Cross validation is done only for those cases in the analysis. In cross
validation, each case is classified by the functions derived from all
cases other than that case.
b. 96.7% of original grouped cases correctly classified.
c. 96.7% of cross-validated grouped cases correctly classified.
• 这个表的结果是有87个点(96.7%)得到正确划分,有
3个点被错误判别;其中第二类有两个被误判为第一类,
有一个被误判为第三类。
毛本清
2010.08.27
判别分析要注意什么?
训练样本中必须有所有要判别的类型,分类必须
清楚,不能有混杂。
要选择好可能由于判别的预测变量。这是最重要
的一步。当然,在应用中,选择的余地不见得有
多大。
要注意数据是否有不寻常的点或者模式存在。还
要看预测变量中是否有些不适宜的;这可以用单
变量方差分析(ANOVA)和相关分析来验证。
判别分析是为了正确地分类,但同时也要注意使
用尽可能少的预测变量来达到这个目的。使用较
少的变量意味着节省资源和易于对结果进行解释。
毛本清
2010.08.27
判别分析要注意什么?
在计算中需要看关于各个类的有关变量的均值是否显著
不同的检验结果(在SPSS选项中选择Wilks’ Lambda、
Rao’s V、The Squared Mahalanobis Distance或
The Sum of Unexplained Variations等检验的计算
机输出),以确定是否分类结果是仅仅由于随机因素。
此外成员的权数(SPSS用prior probability,即“先
验概率”,和贝叶斯统计的先验概率有区别)需要考虑;
一般来说,加权要按照各类观测值的多少,观测值少的
就要按照比例多加权。
对于多个判别函数,要弄清各自的重要性。
注意训练样本的正确和错误分类率。研究被误分类的观
测值,看是否可以找出原因。
毛本清
2010.08.27
SPSS选项
打开disc.sav数据。然后点击Analyze-Classify-
Discriminant,
把group放入Grouping Variable,再定义范围,即在Define
Range输入1-3的范围。然后在Independents输入所有想用
的变量;但如果要用逐步判别,则不选Enter independents
together,而选择Use stepwise method,
在方法(Method)中选挑选变量的准则(检验方法;默认值为
Wilks’ Lambda)。
为了输出Fisher分类函数的结果可以在Statistics中的Function
Coefficient选 Fisher和UnStandardized(点则判别函数系
数) ,在Matrices中选择输出所需要的相关阵;
还可以在Classify中的Display选summary table, Leaveone-out classification;注意在Classify选项中默认的Prior
Probability为All groups equal表示所有的类都平等对待,而
另一个选项为Compute from group sizes,即按照类的大小
加权。
在Plots可选 Combined-groups, Territorial map等。
毛本清
2010.08.27
14.4.3 判别分析实例P379
鸢尾花数据(花瓣,花萼的长宽) 5个变量:花瓣长(slen),
花瓣宽(swid), 花萼长(plen), 花萼宽(pwid), 分类号
(1:Setosa, 2:Versicolor, 3:Virginica)(data14-04)
毛本清
2010.08.27
Statistics→Classify →Discriminant:
Variables: independent (slen,swid,plen,pwid) Grouping(spno)
Define range(min-1,max-3)
Classify:
prior probability(All group equal) use covariance
matrix (Within-groups) Plots (Combined-groups, Separate-groups,
Territorial map) Display (Summary table)
Statistics:
Descriptive (Means) Function Coefficients (Fisher’s,
Unstandardized) Matrix (Within-groups correlation, Within-groups
covariance, Separate-groups covariance, Total covariance)
Save:
(Predicted group membership, Discriminant Scores,
Probability of group membership)
毛本清
2010.08.27
鸢尾花数据(数据分析过程简明表)
Ana lysis Case Proc essin g Sum mary
Unweighted Cases
Valid
Excluded Missing or out-of-range
group codes
At least one missing
discriminating variable
Both missing or
out-of-range group
codes and at least one
missing discriminating
variable
Total
Total
N
150
Percent
100.0
0
.0
0
.0
0
.0
0
150
.0
100.0
毛本清
2010.08.27
鸢尾花数据(原始数据的描述)
Gro up St atist ics
分类
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
Total
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
花萼长
花萼宽
花瓣长
花瓣宽
Mean
50.06
34.28
14.62
2.46
59.36
27.66
42.60
13.26
66.38
29.82
55.60
20.26
58.60
30.59
37.61
11.99
Std.
Deviation
3.525
3.791
1.737
1.054
5.162
3.147
4.699
1.978
7.128
3.218
5.540
2.747
8.633
4.363
17.682
7.622
Valid N (listwise)
Unweighted Weighted
50
50.000
50
50.000
50
50.000
50
50.000
50
50.000
50
50.000
50
50.000
50
50.000
50
50.000
50
50.000
50
50.000
50
50.000
150
150.000
150
150.000
150
150.000
150
150.000
毛本清
2010.08.27
鸢尾花数据(合并类内相关阵和协方差阵)
P o o l e d W i t h i n - G r o u p s M a t r i c eas
Covariance
花萼长
花萼宽
花瓣长
花瓣宽
Correlation 花萼长
花萼宽
花瓣长
花瓣宽
a. The covariance
花萼长
花萼宽
花瓣长
29.960
8.767
16.129
8.767
11.542
5.033
16.129
5.033
18.597
4.340
3.145
4.287
1.000
.471
.683
.471
1.000
.344
.683
.344
1.000
.387
.452
.486
matrix has 147 degrees of freedom.
花瓣宽
4.340
3.145
4.287
4.188
.387
.452
.486
1.000
毛本清
2010.08.27
鸢尾花数据(总协方差阵)
C o v a r i a n c e M a t r i c e sa
分类
刚毛鸢尾花
花萼长
花萼长
12.425
花萼宽
9.922
花瓣长
1.636
花瓣宽
1.033
变色鸢尾花
花萼长
26.643
花萼宽
8.288
花瓣长
18.290
花瓣宽
5.578
佛吉尼亚鸢尾花 花萼长
50.812
花萼宽
8.090
花瓣长
28.461
花瓣宽
6.409
Total
花萼长
74.537
花萼宽
-4.683
花瓣长
130.036
花瓣宽
53.507
a. The total covariance matrix has
花萼宽
9.922
14.369
1.170
.930
8.288
9.902
8.127
4.049
8.090
10.355
5.804
4.456
-4.683
19.036
-33.056
-12.083
149 degrees
花瓣长
花瓣宽
1.636
1.033
1.170
.930
3.016
.607
.607
1.111
18.290
5.578
8.127
4.049
22.082
7.310
7.310
3.911
28.461
6.409
5.804
4.456
30.694
4.943
4.943
7.543
130.036
53.507
-33.056
-12.083
312.670
129.803
129.803
58.101
of freedom.
毛本清
2010.08.27
鸢尾花数据(特征值表)
Eigenvalue:用于分析的前两个典则判别函数的特
征值, 是组间平方和与组内平方和之比值. 最大特
征值与组均值最大的向量对应, 第二大特征值对应
着次大的组均值向量
典则相关系数(canonical correlation):是组间平
方和与总平方和之比的平方根.被平方的是由组间
差异解释的变异总和的比.
Eig envalu es
Function Eigenvalue % of Variance Cumulative %
1
30.419a
99.0
99.0
2
.293a
1.0
100.0
a. First 2 canonical discriminant functions were
analysis.
Canonical
Correlation
.984
.476
used in the
毛本清
2010.08.27
鸢尾花数据(Wilks’ Lambda统计量)
检验的零假设是各组变量均值相等.
Lambda接近0表示组均值不同,接近
1表示组均值没有不同. Chi-square
是lambda的卡方转换, 用于确定其显
著性.
Wil ks' L ambda
Test of Function(s) Wilks' Lambda
1 through 2
.025
2
.774
Chi-square
538.950
37.351
df
8
3
Sig.
.000
.000
毛本清
2010.08.27
鸢尾花数据(有关判别函数的输出)
Sta ndard ized Canon ical Discr imina nt
Fun ction Coef ficie nts
Function
花萼长
花萼宽
花瓣长
花瓣宽
1
-.346
-.525
.846
.613
2
.039
.742
-.386
.555
标准化的典则判别
函数系数(使用时
必须用标准化的自
变量)
y1  0.346 x1  0.525x2  0.846 x3  0.613x4
y2  0.039 x1  0.742 x2  0.386 x3  0.555x4
毛本清
2010.08.27
鸢尾花数据(有关判别函数的输出)
Can onical Discr iminan t Fun ction Coeffi cients
Function
1
2
花萼长
-.063
.007
花萼宽
-.155
.218
花瓣长
.196
-.089
花瓣宽
.299
.271
(Constant)
-2.526
-6.987
Unstandardized coefficients
典则判别函数系数
y1  0.063x1  0.155x2  0.196 x3  0.299 x4  2.526
y2  0.007 x1  0.218x2  0.089 x3  0.271x4  6.948
毛本清
2010.08.27
鸢尾花数据(有关判别函数的输出)
这是类均值(重心)处的典则判别函数值
Fun ction s at Grou p Cen troid s
Function
分类
1
2
刚毛鸢尾花
-7.392
.219
变色鸢尾花
1.763
-.737
佛吉尼亚鸢尾花
5.629
.518
Unstandardized canonical discriminant
functions evaluated at group means
这是典则判别函数(前面两个函数)在类
均值(重心)处的值
毛本清
2010.08.27
鸢尾花数据(用判别函数对观测量分类结果)
Cla ssifi catio n Pro cess ing S ummar y
Processed
Excluded
Used in Output
150
Missing or out-of-range
group codes
At least one missing
discriminating variable
0
0
150
Pri or Pr obabi litie s for Grou ps
先验概率(没有给)
分类
刚毛鸢尾花
变色鸢尾花
佛吉尼亚鸢尾花
Total
Prior
.333
.333
.333
1.000
Cases Used in Analysis
Unweighted
Weighted
50
50.000
50
50.000
50
50.000
150
150.000
Cla ssific ation Funct ion Co effic ients
费歇判别函数系数
把自变量代入三个
式子,哪个大归谁.
分类
佛吉尼亚
刚毛鸢尾花 变色鸢尾花
鸢尾花
花萼长
1.687
1.101
.865
花萼宽
2.695
1.070
.747
花瓣长
-.880
1.001
1.647
花瓣宽
-2.284
.197
1.695
(Constant)
-80.268
-71.196
-103.890
毛本清
Fisher's linear discriminant functions
2010.08.27
Territorial Map
Canonical Discriminant
Function 2
-12.0
-8.0
-4.0
.0
4.0
8.0
12.0
趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌
12.0
12 23
12 23
12 23
12
23
12
23
12
8.0
12
23
23
12
23
12
23
12
12
4.0
Canonical Discriminate Function 1
23
Versus
23
12
23
12
23
12
23
23
12
23
23
12
*
23
12
*
12
23
23
12
23
12
23
12
-4.0
23
12
23
12
23
12
23
12
23
12
23
12
-8.0
23
12
23
12
23
12
23
12
-12.0
三种鸢尾花的典则变量值
把一个典则变量组成的坐
标平面分成三个区域. *为
中心坐标.
23
12
*
Canonical Discriminate Function 2
12
12
.0
鸢尾花数据
Territory Map(区域图)
23
12
23
12
23
12
23
趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌
-12.0
-8.0
-4.0
.0
4.0
8.0
12.0
Canonical Discriminant Function 1
Symbols used in territorial map
Symbol Group Label
------ ----- -------------------1
1 刚毛鸢尾花
2
2 变色鸢尾花
3
3 佛吉尼亚鸢尾花
*
Indicates a group centroid
毛本清
2010.08.27
Canonical Discriminant Functions
3
2
1
佛吉尼亚鸢尾花
刚毛鸢尾花
0
分类
变色鸢尾花
Group Centroids
-1
佛吉尼亚鸢尾花
-2
变色鸢尾花
-3
刚毛鸢尾花
-10
Function 1
0
10
毛本清
2010.08.27
Canonical Discriminant Functions
分类 = 刚毛鸢尾花
3
2
1
0
-1
Group Centroid
-2
Group Centroid
-3
刚毛鸢尾花
-10
-9
Function 1
-8
-7
-6
-5
毛本清
2010.08.27
Canonical Discriminant Functions
分类 = 变色鸢尾花
2
1
0
-1
Group Centroid
-2
Group Centroid
-3
变色鸢尾花
-1
0
Function 1
1
2
3
4
5
毛本清
2010.08.27
Canonical Discriminant Functions
分类 = 佛吉尼亚鸢尾花
3
2
1
0
-1
Group Centroid
-2
Group Centroid
-3
佛吉尼亚鸢尾花
3
4
5
Function 1
6
7
8
9
10
毛本清
2010.08.27
鸢尾花数据(预测分类结果小结)
C l a s s i f i c a t i o n R e s u l tas
Predicted Group Membership
佛吉尼亚
分类
刚毛鸢尾花 变色鸢尾花
鸢尾花
Original Count 刚毛鸢尾花
50
0
0
变色鸢尾花
0
48
2
佛吉尼亚鸢尾花
0
1
49
%
刚毛鸢尾花
100.0
.0
.0
变色鸢尾花
.0
96.0
4.0
佛吉尼亚鸢尾花
.0
2.0
98.0
a. 98.0% of original grouped cases correctly classified.
Total
50
50
50
100.0
100.0
100.0
可以看出分错率
毛本清
2010.08.27