变量选择是否恰当,是判别分析效果有列的关键。如果在某个判别问题中

Download Report

Transcript 变量选择是否恰当,是判别分析效果有列的关键。如果在某个判别问题中

§5 变量选择和逐步判别
变量的选择是判别分析中的一个重要的问题,
变量选择是否恰当,是判别分析效果有列的关键。
如果在某个判别问题中,将起最重要的变量忽略
了,相应的判别函数的效果一定不好。而另一方
面,如果判别变量个数太多,计算量必然大,会
影响估计的精度。特别当引入了一些判别能力不
强的变量时,还会严重地影响判别的效果。
中小企业的破产模型
为了研究中小企业的破产模型,首先选定了X1总负债
率(现金收益/总负债),X2收益性指标(纯收入/总财产
),X3短期支付能力(流动资产/流动负债)和X4生产效
率性指标(流动资产/纯销售额)4个经济指标,对17个破
产企业为“1”和21个正常运行企业“2”进行了调查,得
资料如下。如果这些指标是用来做判别分析和聚类分析的
变量,他们之间没有显著性差异是不恰当的,所以检验所
选择的指标在不同类型企业之间是否有显著的差异。
x1,x2,x3,x4均为判别变量
Classification Results b,c
Original
Count
%
Cross-validateda
Count
%
破 产 企 业 为 1,正
常 运行 企 业 为2
1
2
Ungrouped cases
1
2
Ungrouped cases
1
2
1
2
Predicted Group
Membership
1
2
15
2
5
16
4
4
88.2
11.8
23.8
76.2
50.0
50.0
15
2
6
15
88.2
11.8
28.6
71.4
Total
17
21
8
100.0
100.0
100.0
17
21
100.0
100.0
a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that
case.
b. 81.6% of original grouped cases correctly classified.
c. 78.9% of cross-validated grouped cases correctly classified.
x1, x3为判别变量
Classification Resultsb,c
Original
Count
%
Cross-validateda Count
%
破 产 企 业 为 1,正
常 运行 企 业 为2
1
2
Ungrouped cases
1
2
Ungrouped cases
1
2
1
2
Predicted Group
Membership
1
2
15
2
4
17
4
4
88.2
11.8
19.0
81.0
50.0
50.0
15
2
5
16
88.2
11.8
23.8
76.2
Total
17
21
8
100.0
100.0
100.0
17
21
100.0
100.0
a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that
case.
b. 84.2% of original grouped cases correctly classified.
c. 81.6% of cross-validated grouped cases correctly classified.
Dependent Variable: x1 (对X1进行的检验)
Sum of
Source
DF
Model
1
0.87466791
0.87466791
Error
36
1.86300840
0.05175023
Corrected Total
Squares
37
Mean Square F Value Pr > F
16.90 0.0002
2.73767632
X1在类间有显著性差异。
Dependent Variable: x2 (对X2进行的检验)
Sum of
Source
DF
Squares
Model
1
0.08312077
0.08312077
Error
36
1.53370028
0.04260279
Corrected Total 37
1.61682105
X2在类间没有显著性差异。
Mean Square F Value Pr > F
1.95 0.1710
多元假设检验
Statistic
Value
F Value Num DF Den DF Pr > F
Wilks' Lambda
0.54561620
6.87
4
33
0.0004
Pillai's Trace
0.45438380
6.87
4
33 0.0004
Hotelling-Lawley Trace
0.83279015
6.87
4
33 0.0004
Roy's Greatest Root
0.83279015
6.87
4
33
0.0004
p
p
p
A
1
1
Wilks 


  (1  i )   i
1
i 1
A  B I  A B i 1 1  i i 1
Pillai's Trace
V
(s)
p
i
 tr ( BT )   i  
  (1  i )
i 1
i 1 1  
i 1
i
1
p
p
(一)变量组间差异的显著检验
设有n样品,分别来自 k个类G1,G2,┅,Gk其中
ni个来自Gi,
Gi ~ N p (i , ).
样品分别为: X (1) ,, X (1) ;  X ( k ) ,, X ( k ) ;
1
n
1
n
1
k
H0 : μ1   μk
即,p个指标对G1,G2,┅,Gk无区别能力;
H1 : μ1 ,, μ k 不尽相同
p个指标对G1,G2,┅,Gk有区别能力。

| A|
| A|
组内离差平方和


| A B | |T |
总离差平方和
当比值很小,类内的离差平方和在总离差平方和中所占
比率小,则类间的离差平方和所占比重大。在原假设为
真的条件下,  服从维尔克斯分布  p ( p, n  k , k  1)
当  时,拒绝原假设。
即 p个指标对G1,G2,┅,Gk有较强的区别能力。
(二)附加信息的检验
在回归分析中,变量的好坏直接影响回归的
效果。在判别分析中也有类似的问题。如果在某
个判别分析问题中,将其中最主要的指标忽略了。
判别效果一定不会好。但是在许多问题中,事先
并不知道那些是主要的指标。因此筛选变量的问
题就成了非常重要的了。从而产生了逐步判别法,
而逐步判别法的基础是附加信息的检验。
向前法;
向后法;
逐步筛选法 。
逐步判别法采用有进有出的算法,即每一步
都进行检验。首先,将判别能力最强的变量引进判
别函数,而对较早进入判别函数的变量,随着其他
变量的进入,其显著性可能发生变化,如果其判别
能力不强了,则删除。
设判别函数中已经有q个变量,要检验某个变量xj 对
判别效果的贡献,或者说变量对判别是否有附加的信息。
H 0:
xj判别分析没有附加的信息
H 1:
xj对判别分析有附加的信息
将q+1个变量构成的离差矩阵分块
A
A  
A
11
21
B
B  
B
q

1
A
A
12
22
T
T  
T
11
21
11
21
T
T
12
22
q

1
利用分块矩阵的行列式的性质有:
A A A A A A
1
11
22
21
11
12
T  T T T T T
1
11
22
21
11
12
B
B
12
22
q

1
A A A A A A
 
T
T T T T T
1

11
1, 2 ,,( q 1 )
22
21
11
12
1
11
22
21
11
12
1, 2,,( q1)  1, 2,,q  ( q1) /1, 2,,q
A A A A

T T T T
1
记

22
( q 1 ) / 1,, q
21
11
12
1
22
21
11
12
它是在给定了q个指标的条件下,第q+1个指标的
附加信息量的度量,该统计量服从维尔克斯分布
记
( q1) /1,,q ~ (1, n  k  p, k  1)
(n  p  k )( 

(k  1)
1 , 2 ,, q
F
( q 1 ) / 1, 2 ,, q
F
( q 1 ) / 1, 2 ,, q

1, 2 ,,( q 1 )
)
1, 2 ,,( q 1 )
(n  p  k ) (1  

(k  1)

( q 1 ) / 1, 2 ,, q
)
( q 1 ) / 1, 2 ,, q
该统计量服从F(k-1,n-p-k)分布,当F很大时,则
拒绝原假设,第q+1个指标有附加信息,要引入该变量;
否则,接受原假设。
剔除变量
对于判别函数中已有的q+1个变量 ,是否有对判别能力贡
献不显著的变量存在,则应该将其从判别函数中删除。
H0: xk对判别分析贡献不显著,即应该剔除;
H1: xk对判别分析贡献显著,即应该保留;
检验的统计量
k /1, 2,,( k 1),( k 1),,( q1)
Fk /1, 2,,( k 1),( k 1),,( q1)
步骤

第一步:通过计算单变量的统计量,逐步
选择判别变量
A
 
T
i
i
i
统计量最小者首先进入模型。

第二步:分别计算未被选中的其它变量
与选中变量x1的统计量,
A
 
T
1i
1i
1i
统计量1i得值最小者与x1搭配进入模型。
 第三步:类推假设已经有q+1个变量进入了模
型,要考虑较早选入模型的变量的重要性是否有
较大的变化,应及时将其从模型中剔除。其原则
与引入相同。在所有检验不显著的变量中,将统
计量得值最大者或F最小者先剔除。
 第四步:进行判别分析。
The STEPDISC Procedure(逐步判别过程)
The Method for Selecting Variables is STEPWISE
Observations
38
Variable(s) in the Analysis
4
Class Levels
2
Variable(s) will be Included
0
Significance Level to Enter
0.15
Significance Level to Stay
0.15
Class Level Information
Variable
class Name
Frequency
Weight Proportion
1 _1
17
17.0000
0.447368
2 _2
21
21.0000
0.552632
Stepwise Selection: Step 1(第一步)
Statistics for Entry, DF = 1, 36
Variable R-Square F Value Pr > F Tolerance
x1
0.3195
16.90 0.0002
1.0000
x2
0.0514
1.95 0.1710
1.0000
x3
0.3734
21.45 <.0001
1.0000
x4
0.0008
0.03 0.8643
1.0000
Variable x3 will be entered.(X3进入)
Variable(s) that have been Entered
x3
Multivariate Statistics
Statistic
Value F Value Num DF Den DF Pr > F
Wilks' Lambda 0.626628 21.45
1
36 <.0001
Pillai's Trace
0.373372 21.45
1
36 <.0001
Stepwise Selection: Step 2(第二步)
Statistics for Removal, DF = 1, 36
Variable R-Square F Value Pr > F
x3
0.3734 21.45 <.0001
No variables can be removed.
Statistics for Entry, DF = 1, 35
Partial
Variable R-Square F Value Pr > F Tolerance
x1
x2
x4
0.1070
0.0094
0.0172
4.19
0.33
0.61
0.0482
0.5672
0.4386
0.6638
0.9379
0.9546
Variable x1 will be entered.(X1进入)
Stepwise Selection: Step 3(第三步)
Statistics for Removal, DF = 1, 35
Partial
Variable R-Square F Value Pr > F
x1
0.1070
4.19 0.0482
x3
0.1777
7.56 0.0094
No variables can be removed.
Statistics for Entry, DF = 1, 34
Partial
Variable R-Square F Value Pr > F Tolerance
x2
0.0196
0.68 0.4154
0.4120
x4
0.0057
0.20 0.6614
0.6119
No variables can be entered.(无变量能进入)
No further steps are possible. (进一步是不可能的)
Linear Discriminant Function for class
线性判别函数
Variable
1
2
Constant
x3
x1
-2.45595
2.18098
-4.55096
-5.25152
3.52968
-0.52018
f1  2.45595  4.55096 x1  2.18098 x3
f 2  5.25152  0.52018 x1  3.52968 x3
Number of Observations and Percent Classified into class
From class
1
2
Total
1
14
3
17
82.35
17.65
100.00
2
3
18
21
14.29
85.71
100.00
Total
17
21
38
44.74
55.26
100.00
Priors 0.44737 0.55263
Error Count Estimates for class
1
Rate
Priors
0.1765
0.4474
2
Total
0.1429
0.5526
0.1579
Number of Observations and Percent Classified into class
From class
1
2
Total
1
14
3
17
82.35
17.65
100.00
2
4
17
21
19.05
80.95
100.00
Total
18
20
38
47.37
52.63
100.00
Priors
0.44737 0.55263
Error Count Estimates for class
1
2
Total
Rate
0.1765 0.1905 0.1842
Priors
0.4474 0.5526
Posterior Probability of Membership in class
Classified
Obs into class
1
2
3
4
5
6
7
8
1
1
1
1
2
2
2
2
1
0.6482
0.7667
0.6605
0.8029
0.3065
0.2759
0.2984
0.0742
2
0.3518
0.2333
0.3395
0.1971
0.6935
0.7241
0.7016
0.9258