 Chi Square 2 謝寶煖

Download Report

Transcript  Chi Square 2 謝寶煖

Chi Square

2
2
謝寶煖
台灣大學圖書資訊學系
2007年10月13日
1
2
X-
test
自變數、依變數均屬類別變數時,
運用X2- test來檢驗其差異顯著性
2
Outline
Overview
 Bivariate Tabular Analysis
 Generalizing from Samples to Populations
 Chi Square Requirements
 Collapsing Values
 Computing Chi Square
 Interpreting the Chi Square Value
 Measures of Association
 SPSS procedure

3
Overview
Chi square是雙變項交叉表的無母數統計檢定方
法。
 適切地執行統計顯著性檢定,讓我們知道有多大
的信心(degree of confidence)接受或拒絕
(accepting or rejecting)一項假設(hypothesis)。
 一般而言, chi square 的假設檢定(hypothesis test)
是檢定兩個不同的樣本(人數、關鍵詞出現次數
等)的特定屬性或面向的差異是否夠大到可以從
樣本一般化到母群體。
 無母數統計檢定, chi square,是一種粗估計,可
以接受較不正確的資料做為input;相較於t-tests
和ANOVA等的母數檢定

4
 Chi
square最常用來檢定雙變項交叉表
(bivariate tables )的統計顯著性,通常在
詮釋結果時,交叉表要與卡方檢定整合
5
雙變項交叉分析

Bivariate Tabular Analysis

雙變項交叉表是用來描述自變項和依變項之間是否存在任
何關係






例如想要知道台大學生中,男生女生對手機的偏好是否有任何關
係。
儘可能隨機地找50位男生和50位女生,問他們喜愛的手機
自變項是性別
依變項是手機品牌
自變項是可以經由抽樣控制的,是假設的特性或屬性用來
預測或解釋其他的屬性或特性(依變項)
控制自變項,衡量依變項,檢定假設,以知自變與依變項
是否有關係存在
6
雙變項交叉分析
 雙變項交叉分析可用以回答下列問題
兩個變項是否有某種關係(relationship)存在?
 由資料中顯示出兩變項的關係有多強(strong )?
 關係的方向(direction)或樣態(shape) 為何?
 該關係是否係其他變項所造成?

 intervening
variable(s)
7
B
A
Nokia
Motor
ola
Ben Q
Alcate
l
男生
Other
女生
Nokia
男生
Motorola
Ben Q
女生
Alcatel
Other
8
雙變項交叉分析表
 自變項:Y軸,垂直軸(SPSS:列)
 依變項:X軸,水平軸(SPSS:直行)
方便讀者閱讀,由自變項到結果(依變項)
 怎麼組織交叉分析表是取決於研究問題或研究
假設

 例如:自變項是由小到大排列,依變項的值是由左
到右,由小到大,則將呈現由左到右的正相關
(請注意:相關,並不等於因果關係)
9
雙變項交叉分析表
Other
Nokia
Motorola
Ben Q
Alcatel
男生
6
17
13
9
5
女生
13
5
7
16
9
10
分析>描述性統計>交叉表
11
性別 * 手 機品牌 交叉表
個數
Nokia
性別
總和
男生
女生
6
13
19
Motorola
17
5
22
手機品牌
Ben Q
13
7
20
Alcatel
9
16
25
Others
5
9
14
總和
50
50
100
12
13
性別 * 手機 品牌 交叉表
Nokia
性別
女生
男生
總和
個數
性別內的 %
個數
性別內的 %
個數
性別內的 %
Motorola
5
10.0%
17
34.0%
22
22.0%
13
26.0%
6
12.0%
19
19.0%
手機品牌
Ben Q
7
14.0%
13
26.0%
20
20.0%
Alcatel
16
32.0%
9
18.0%
25
25.0%
Others
9
18.0%
5
10.0%
14
14.0%
總和
50
100.0%
50
100.0%
100
100.0%
性別 * 手機 品牌 交叉表
Nokia
性別
女生
男生
總和
個數
性別內的 %
手機品牌內的 %
個數
性別內的 %
手機品牌內的 %
個數
性別內的 %
手機品牌內的 %
13
26.0%
68.4%
6
12.0%
31.6%
19
19.0%
100.0%
Motorola
5
10.0%
22.7%
17
34.0%
77.3%
22
22.0%
100.0%
手機品牌
Ben Q
7
14.0%
35.0%
13
26.0%
65.0%
20
20.0%
100.0%
Alcatel
16
32.0%
64.0%
9
18.0%
36.0%
25
25.0%
100.0%
Others
9
18.0%
64.3%
5
10.0%
35.7%
14
14.0%
100.0%
總和
50
100.0%
50.0%
50
100.0%
50.0%
100
100.0%
100.0%
14
資料呈現
 交叉分析,不必要顯示所有的橫行百分比、
直行百分比及總百分比;很多時候,可能
僅需要顯示橫行百分比,和每一橫行之總
次數,即可。
15
交叉分析
 主要功能是探討多個變項的關聯分佈,並
以表格的型式呈現
每一格可以顯示次數、期望次數、總百分比、
列百分比等
 由次數分佈狀況,可以知道某變數在其他變數
內的分配狀況,可知變數間的關係。

 卡方檢定,檢定變數間的獨立性
16
17
交叉分析

卡方統計量(Chi-square)



相關(correlations)


當2X2表格內的觀察值數目少於20時,可以方格內的次
數值計算Fisher的準確測量值
其他的2X2表格,則以Yates修正後的卡方檢定量計算
計算Pearson相關係數
根據變數性質,選擇適當之統計量




名義:如果表格中的橫列和直行都含有名義變數
次序:如果表格中的橫列和直行都含有次序變數
名義對等距:當一個變數為類別,而另一個為等距數
值時,請選取「Eta 值」
Kappa 統計量數:如果表格中的直行類別與橫列相同
時 (例如測量兩位評估者之間的一致性),請選取
「Cohen Kappa值」。
18
卡方檢定
漸近顯著
性 (雙尾)
.007
.006
.333
自由度
數值
Pearson卡方
4
14.027 a
概似比
4
14.530
線性對線性的關連
1
.937
有效觀察值的個數
100
a. 0格 (.0%) 的預期個數少於 5。 最小的預期個數為 7.00。
Pearson卡方檢定統計量的值為14.027 ,P值小於0.007.在
顯著水準為0.01時,(推翻兩變數為統計獨立之虛無假
設)顯示性別與手機品牌偏好有關。
2=14.027, df=4, p<0.01
19
* p< .05
** p< .01
***p< .001
 不太於0的數值,小數點前的零應省略。
(APA Style)
20
性別 * 手機 品牌 交叉表
Nokia
性別
女生
男生
總和
個數
性別內的 %
個數
性別內的 %
個數
性別內的 %
13
26.0%
6
12.0%
19
19.0%
Motorola
5
10.0%
17
34.0%
22
22.0%
手機品牌
Ben Q
7
14.0%
13
26.0%
20
20.0%
Alcatel
16
32.0%
9
18.0%
25
25.0%
Others
9
18.0%
5
10.0%
14
14.0%
總和
50
100.0%
50
100.0%
100
100.0%
21
卡方檢定
 虛無假設H0:兩個變數X與Y是獨立的
表示變數X與變數Y,沒有關聯
 對立假設H1:兩個變數X與Y是不獨立的
表示變數X與變數Y,有關聯
22
卡方檢定
數值
12.844 b
11.927
13.252
自由度
漸近顯著性
(雙尾)
.000
.001
.000
Pearson卡方
1
連續性校正a
1
概似比
1
Fisher's精確檢定
線性對線性的關連
12.801
1
.000
有效觀察值的個數
299
a. 只能計算 2x2 表格
b. 0格 (.0%) 的預期個數少於 5。 最小的預期個數為 36.75。
精確顯著性
(雙尾)
精確顯著性
(單尾)
.000
.000
Pearson卡方檢定統計量的值為12.844 ,P值小於0.0001.
在顯著水準為0.001時,(推翻兩變數為統計獨立之虛
無假設)顯示性別與是否修課有關。
2=12.844, p<0.0001
23
性別 * 是否修 課 交叉表
性
別
女性
男性
總和
個數
性別內的 %
總和的 %
個數
性別內的 %
總和的 %
個數
性別內的 %
總和的 %
是否修課
未修課
已修課
111
23
82.8%
17.2%
37.1%
7.7%
106
59
64.2%
35.8%
35.5%
19.7%
217
82
72.6%
27.4%
72.6%
27.4%
總和
134
100.0%
44.8%
165
100.0%
55.2%
299
100.0%
100.0%
檢視交又表可知,男生已選修或正在選修資訊素養
課程之比例,明顯高於女生
24
個案二
 有沒有修過課是否會影響其對課程區隔因
素之看法?
25
區隔因素 * 是否修課 交叉表
區隔
因素
人數
學科
年級
特殊學生需求
其他
總和
個數
區隔因素內的 %
總和的 %
標準化殘差
個數
區隔因素內的 %
總和的 %
標準化殘差
個數
區隔因素內的 %
總和的 %
標準化殘差
個數
區隔因素內的 %
總和的 %
標準化殘差
個數
區隔因素內的 %
總和的 %
標準化殘差
個數
區隔因素內的 %
總和的 %
是否修課
未修課
已修課
6
9
40.0%
60.0%
2.0%
3.0%
-1.5
2.4
161
59
73.2%
26.8%
53.3%
19.5%
.1
-.2
16
5
76.2%
23.8%
5.3%
1.7%
.2
-.3
22
4
84.6%
15.4%
7.3%
1.3%
.7
-1.2
14
6
70.0%
30.0%
4.6%
2.0%
-.1
.2
219
83
72.5%
27.5%
72.5%
27.5%
總和
15
100.0%
5.0%
220
100.0%
72.8%
21
100.0%
7.0%
26
100.0%
8.6%
20
100.0%
6.6%
302
100.0%
100.0%
26
卡方檢定
漸近顯著性
(雙尾)
.038
.054
.159
數值
自由度
Pearso n卡方
10.122 a
4
概似比
9.320
4
線性對線性的關連
1.986
1
有效觀察值的個數
302
a. 1格 (10.0%) 的預期個數少於 5。 最小的預期個數為 4.12。
Pearson卡方檢定統計量的值為10.122,P值小於0.038,在顯
著水準為0.05時,(推翻兩變數為統計獨立之虛無假設)
顯示是否修過課對課程區隔因素之看法,達到統計上之顯著。
經卡方檢定,在0.05下達到顯著(2(4)=10.122, p=0.038)
但是因為期望個數少於5的方格數超過10%,使得卡方檢定
有不準確之虞,因此,前述顯著性之結論可能不成立。
27
Web Chi Square Calculator
28
http://www.georgetown.edu/faculty/ballc/webtools/web_chi.html
用Word打公式
 插入>功能變數>Eq
> 方程式編輯器
29
Thank You!
Q&A
30