Discriminant Analysis

Download Report

Transcript Discriminant Analysis

Discriminant Analysis
• 目的
– 確定在兩個或以上事先界定之群體的一組變數
上的平均分數間是否有統計上的顯著差異存在
– 確定哪些預測變數(x)最能解釋兩個或以上群體
之平均分數的差異
– 依據預測變數上的分數規劃到不組群組
– 建立由一組預測變數所形成之群體的區別構面
和組合
基本假設
Y (名目尺度)  X1  X 2  X 3  ...X m (順序尺度)
–
–
–
–
–
–
–
兩個或兩個以上的群體
每個群體至少有兩個樣本
區別變數<總樣本數減二
區別變數是區間尺度
任何區別變數都不是其他區別變數的線性組合
每一群體的共變數矩陣必須大致相等
每一群體都是從具有常態分配的母體抽出
分析步驟-1
• 研究問題
– 找出準則變數(y)與預測變數(x)
– 區別分析的準則變數應為二個或二個以上完全
互斥的類別
– 準則變數(y)必須是名目尺度
– 預測變數(x)必須是順序尺度
• Example
– 某公司發展出一組新產品,行銷部門希望能知道
哪一些家庭是這項新產品的早期採用者,經過
初步判斷,家庭所得與人數是決定購買的重要因
子.因此,決定以所得與人數為區別變數,利用區
別分析找出可能的購買者
– 準則變數(y):購買的行為
– 預測變數(x):家庭所得,家庭人數
– 區別分析的準則:購買/不購買者
分析步驟-2
• 區別函數的估計
– 估計區別函數的係數,建立區別函數
– 如果只有二個群組,只需估計一個區別函數的
係數
– 區別函數(detail)
分析步驟-3
• 顯著性檢定
– 如果估計而得的區別函數並不具有統計上的顯
著性,則對分析結果的解釋是沒有意義的。因
此,解釋結果之前,應先檢定各區別函數的統
計顯著性。
– Detail…
分析步驟-4
• 結果的解釋
– 依據區別函數的係數或區別權重(discriminant
weights)的數值來解釋區別分析的結果
– 各項預測變數的相對重要性或相對區別能力,
可以檢視其結構相關,亦即規則負荷量
(canonical loadings)或區別負荷量
(discriminant loadings)
– 預測變數的相對重要性(detail)
分析步驟-5
• 效度的驗證
– 將樣本分為兩部分
– 一部份樣本分析樣本,用來估計區別函數。
– 一部份樣本作為驗證。
Discriminant vs. Regression
• Y是名目尺度
• X是順序尺度
• Y是順序尺度
• X是順序尺度
Y (名目尺度)  X1  X 2  X 3  ...X m (順序尺度)
Y (順序尺度)  X1  X 2  X 3  ...X m (順序尺度)
Discriminant vs. ANOVA
• Y是名目尺度
• X是順序尺度
• X是名目尺度
• Y是順序尺度
Discriminant vs. Cluster
• Y已有分組
• Y尚未分組
Discriminant analysis注意事項
– X是重要屬性,初始分析數目不能太少,亦即
研究者要從許多不同的特性中蒐集統計資料,
統計分析的平均值與加權總和會決定他們的區
別能力。
– 挑選具重要特性而又有區別能力的變項,達到
最少變數而最高區別力的目標
SPSS操作
G r o u p Sta ti st i cs
效能組別
高效能
中效能
低效能
Total
組織文化
組織氣氛
領導角色
組織文化
組織氣氛
領導角色
組織文化
組織氣氛
領導角色
組織文化
組織氣氛
領導角色
Mean
21.0000
76.2500
80.7500
28.8333
48.5000
40.0000
78.8000
24.6000
80.2000
43.4000
47.9333
64.2667
Std. Deviation
8.2057
11.5000
14.6373
8.8863
11.9290
22.3069
10.7564
4.1593
7.3280
27.5235
22.5340
25.6834
Valid N (listwise)
Weighted
Unweighted
4.000
4
4.000
4
4.000
4
6.000
6
6.000
6
6.000
6
5.000
5
5.000
5
5.000
5
15.000
15
15.000
15
15.000
15
T e st s o f E q u al i ty o f G r o u p M ean s
組織文化
組織氣氛
領導角色
Wilks' Lambda
.100
.166
.362
F
54.052
30.225
10.562
df1
df2
2
2
2
12
12
12
Po o le d W i th i n - G r o u p s M at r i ces
Correlation
組織文化
組織氣氛
領導角色
組織文化
1.000
-.345
-.197
組織氣氛
-.345
1.000
.371
領導角色
-.197
.371
1.000
Sig.
.000
.000
.002
L o g D et er m in an t s
Log
效能組別
Rank
Determinant
高效能
3
14.027
中效能
3
14.819
低效能
3
11.021
Pooled within-groups
3
14.416
The ranks and natural logarithms of determinants
printed are those of the group covariance matrices.
T e st R esu l t s
Box's M
F
12.739
Approx.
.633
df1
12
df2
492.007
Sig.
.814
Tests null hypothesis of equal population covariance matrices.
Ho:三基本假設組母群體共變異數相等
Summary of Canonical Discriminant Functions
E i g en v al u es
Canonical
Function Eigenvalue % of Variance Cumulative %
Correlation
a
1
12.835
86.8
86.8
.963
a
2
1.951
13.2
100.0
.813
a. First 2 canonical discriminant functions were used in the analysis.
Wil k s' L amb d a
Test of Function(s)
1 through 2
2
Wilks' Lambda
.024
.339
Chi-square
40.804
11.905
df
6
2
F u n ct i on s a t G r o up C en t r o i ds
Function
效能組別
1
2
高效能
-2.689
1.787
中效能
-1.969
-1.324
低效能
4.513
.159
Unstandardized canonical discriminant
functions evaluated at group means
Sig.
.000
.003
St an d ar d i zed Ca n o ni ca l D i scr i min an t Fun c ti o n Co ef f ic i en ts
Function
1
組織文化
組織氣氛
領導角色
2
.775
-.470
.509
.270
.627
.648
St r u ct u r e M at r i x
Function
1
2
組織文化
.837*
-.074
領導角色
.182
.827*
組織氣氛
-.549
.773*
Pooled within-groups correlations between discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.
*. Largest absolute correlation between each variable and
any discriminant function
說明
Fu n ct i on s a t G r o up C en t r o i ds
Function
效能組別
1
2
高效能
-2.689
1.787
中效能
-1.969
-1.324
低效能
4.513
.159
Unstandardized canonical discriminant
functions evaluated at group means
Cl as si f i cat i o n R esu l t sa
Predicted Group Membership
效能組別
高效能
中效能
低效能
Original Count
高效能
4
0
0
中效能
1
5
0
低效能
0
0
5
%
高效能
100.0
.0
.0
中效能
16.7
83.3
.0
低效能
.0
.0
100.0
a. 93.3% of original grouped cases correctly classified.
Total
4
6
5
100.0
100.0
100.0
Ca sew i se St at i st ic s
Highest Group
Case Number
Original 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
**. Misclassified case
Actual Group
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
Predicted Group
1
1
1
1
1**
2
2
2
2
2
3
3
3
3
3
p
P(D>d | G=g)
df
.656
.431
.285
.571
.896
.600
.870
.509
.402
.422
.823
.247
.716
.881
.958
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Second Highest Group
P(G=g | D=d)
.970
.998
1.000
.947
.974
.994
.998
.999
1.000
1.000
1.000
1.000
1.000
1.000
1.000
Squared
Mahalanobis
Distance to
Centroid
.844
1.682
2.511
1.121
.220
1.020
.278
1.349
1.823
1.728
.390
2.798
.669
.252
.086
Group
2
2
2
2
2
1
1
1
1
1
2
2
2
2
2
P(G=g | D=d)
.030
.002
.000
.053
.026
.006
.002
.001
.000
.000
.000
.000
.000
.000
.000
Squared
Mahalanobis
Distance to
Centroid
7.813
13.726
18.510
6.896
7.448
11.332
12.303
14.497
17.088
19.386
52.669
25.070
53.063
48.495
45.968
Discriminant Scores
Function 1
-3.322
-1.523
-4.159
-1.752
-2.524
-.981
-2.336
-.826
-2.854
-2.291
5.138
2.844
4.993
4.898
4.695
Function 2
1.122
2.354
2.379
1.293
1.348
-1.114
-1.703
-1.534
-2.343
-2.598
.149
.059
.822
-.164
-.071