統計學CH15

Download Report

Transcript 統計學CH15

第 15 章
卡方檢定
LOGO
15.1
What to do?
資料類型?
類型數目?
統計方法:
敘述母體
名目
兩個或更多
卡方的適合度檢定
比較兩個母體
名目
兩個或更多
卡方的列聯表檢定
比較兩個或更多母體
名目
--
卡方的列聯表檢定
分析兩個變數之間的
關係
名目
--
卡方的列聯表檢定
一種資料類型…
…兩種方法
Copyright ©2010 Cengage Learning
第15章 卡方檢定
15.2
兩個與名目資料有關的統計方法
第一個是應用於資料來自多項實驗(multinomial
experiment) 的適合度檢定(goodness-of-fit test)。其
中,多項實驗是二項實驗的推廣。
第二個方法使用整理成表的資料,稱為列聯表
(contingency table),去決定兩個名目資料母體的分
類是否為統計獨立;這個檢定也可以被詮釋為兩個
或更多母體的比較。
兩個檢定中,檢定統計量的抽樣分配皆服從在第8
章介紹的卡方分配。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第590頁
15.3
多項實驗
不像二項實驗只有兩個可能的結果(例: 銅板的正面
或反面) ,一個多項實驗具下列的特質:
1.實驗包括 n 次固定的試驗。
2.每一次試驗的結果可以被歸類到 k 個類別中的一個,
稱為細格或儲存格 (cells)。
3.每一次的試驗,結果將會落在細格 i 的機率pi 保持
固定不變。而且p1 + p2+⋯+ pk = 1
4.實驗的每次試驗與其他試驗是獨立的。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第591頁
15.4
卡方的適合度檢定
我們檢定是否有足夠的證據去拒絕 pi 的指定值。
為了說明,我們的虛無假設:
H0: p1 = a1, p2 = a2, …, pk = ak
其中 a1, a2, …, ak 是我們想要設定的值。
我們的研究假設:
H1: 至少一個 pi 不等於其指定的值
Copyright ©2010 Cengage Learning
第15章 卡方檢定
15.5
範例15.1
有兩家公司,公司 A 與公司 B最近積極執行廣告活
動以維持並且儘可能地增加其衣物柔軟精的市場佔
有率。這兩家公司具有支配市場的地位。在廣告活
動開始之前,公司A的市場佔有率是45% ,而公司B
佔有40%的市場,其他競爭者則分享其餘的15%。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第592頁
15.6
範例15.1
為了決定廣告活動之後這些市場佔有率是否有所改
變,公司 A 的行銷經理蒐集了200 位衣物柔軟精顧
客的隨機樣本對產品偏好的資料。200 位顧客當中,
102 位表明偏好公司 A 的產品,82 位偏好公司 B 的
衣物柔軟精,以及其餘16 位偏好其他競爭者之一的
產品。在5% 的顯著水準下,分析人員是否能推論在
廣告活動之後顧客偏好的程度已經改變?
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第592頁
15.7
範例15.1
我們比較廣告活動前後的市場佔有率是否有差異(例
如廣告是否影響到提高市場佔有率)。我們假設參數
值等於活動前市場佔有率,即:
H0: p1 = .45, p2 = .40, p3 = .15
對立假設是拒絕虛無假設,因此:
H1: 至少一個 pi 不等於其指定的值
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第592頁
15.8
範例15.1
檢定統計量
如果虛無假設為真,我們將期望選擇品牌A、品牌B 與其他
的顧客人數為200 乘以在虛無假設中指定的比例。也就是,
e1 = 200(.45) = 90
e2 = 200(.40) = 80
e3 = 200(.15) = 30
一般而言,每一個細格的期望次數(expected frequency) 可以
計算如下
ei = npi
此一表示源自於二項隨機變數的期望值公式,在7.4 節中曾經
介紹過。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第592-593頁
15.9
範例15.1
假若期望次數ei 和觀測次數(observed frequencies) fi
是相當不同的,我們將結論虛無假設是錯的,且我
們將拒絕它。
但是,假如期望和觀測次數是相似的,我們將不拒
絕虛無假設。
在t- 檢定統計量可用以測量期望次數和觀測次數的
相似性。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第594頁
15.10
卡方的適合度檢定
卡方適合度檢定統計量 :
期望次數
觀測次數
注意:在大樣本的條件下,此檢定統計量的抽樣分
配是近似地 服從自由度為v = k – 1的卡方分配。拒絕
域是:
。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第593頁
15.11
計算
範例15.1
下列的表格示範檢定統計量的計算。如同以往,我
們透過指定拒絕域或決定 p- 值來判定檢定統計量的
大小。
應該會相等
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第593-594頁
15.12
詮釋
範例15.1
拒絕域是:
我們的檢定統計量是8.18,大於我們的卡方標準值,
我們拒絕H0且支持H1,即
「在5% 的顯著水準之下,有充分的證據推論當廣
告活動完成後各比例已經改變。」
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第594.595頁
15.13
必要的條件
卡方檢定統計量被要求樣本大小必須夠大,使得每
一個細格的期望值大於等於 5。
假若期望次數小於5,細格應該合併以滿足這個條件。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第595頁
15.14
辨識卡方適合度檢定的因素
辨識卡方適合度檢定的因素
1.問題目的:描述一個單一的母體。
2.資料類型:名目。
3.類別組數:2或更多。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第596頁
15.15
卡方的列聯表檢定
卡方的列聯表檢定(Chi-squared test of a
contingency table) 用來決定:
 是否有足夠的證據去推論兩個名目變數之間是相關的,
並且
 去推論兩個或多個名目變數母體間是否存在著差異。
要完成這兩個問題引發兩個不同的分類法則。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第597頁
15.16
範例15.2
MBA 課程對安排各科的上課時問與內容遇到一些問
題。該課程的選修課與主修課的需求在前後兩年之
間有相當大的變動。
在不知所措的情況下,商學院院長向一位統計教授
求助。
這位統計教授相信問題可能是由於學生不同的教育
背景和大學學位影響對主修的選擇。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第598頁
15.17
範例15.2
一開始,他選取一個去年 MBA 學生的隨機樣本,
並記錄其大學學位與在研究所課程中所選擇的主修
領域。
大學學位包括藝術(B.A.)、工程(B.Eng)、商管
(B.B.A.) ,以及其他。
對 MBA 學生而言有三個可能的主修:會計、財務
與行銷。這些結果被彙整於下列的交叉分類表(在
第 2 章介紹過)。這位統計學家是否可以推論大學
學位影響對 MBA 主修的選擇?
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第598頁
15.18
範例15.2
Xm15-02
 此資料包含兩行。第一個欄位由整數1、2、3、4
構成,表示大學學位的數值
1 = 藝術(B.A.)
3 = 商管(B.B.A.)
2 = 工程(B.Eng.) 4 = 其他
 第二個欄位列出MBA 主修的數值
1 = 會計與行銷
2 = 財務
3 = 商管
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第598頁
15.19
辨認
範例15.2
問題的目的是分析兩個變數之間的關係。特別是,
我們想要知道一個變數是否與另一個變數有關(是
否受另一個變數的影響)。另一種處理這個問題的
方法是決定在B.A.、B.Eng.與B.B.A. 之間是否存有差
異。也就是,
H1: 兩個變數是相依的
虛無假設將指明兩個變數間沒有關聯性:
H0: 兩個變數是獨立的
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第598-599頁
15.20
檢定統計量
 這個檢定的統計量與用於檢定比例適合度檢定的檢定統計
量是同一個。也就是,檢定的統計量是
2
(
f

e
)
2  i i
ei
 假如你檢視適合度檢定中描述的虛無假設與上述的虛無假
設,你將會發現一個主要的差異。在適合度檢定中,虛無
假設列出機率pi 的值。而在列聯表卡方檢定中,虛無假設
則敘述兩個變數是獨立的。但是,我們需要機率去計算期
望數值ei,它要用來計算檢定統計量的值。
 此時,問題立刻就產生了,我們要從哪裡去得到這些機率
呢?答案是它們必須在虛無假設為真的設定下由資料計算
而得。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第599-600頁
15.21
範例15.2
第一步要先計算在12個細格內的學生數,此稱為交
叉分類表。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第600頁
15.22
範例15.2
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第601頁
15.23
範例15.2
如果虛無假設為真(記得我們總開始於這個假設)且兩
個名目變數是相依的,例如
P(藝術 且 會計)=[P(藝術)][P(會計) ]
遺憾的是,我們沒有P(藝術)或P(會計)的值。但是,
這些機率可以從資料獲得估計值。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第600頁
15.24
檢定統計量
152位中的61位學生選擇會計做為他的MBA主修。
因此,我們估計主修會計的機率為
61
 .401
P(會計) 
152
相同地
60
P(藝術) 
 .395
152
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第600頁
15.25
範例15.2
假設虛無假設為真
P(藝術 和 會計) = (60/152)(61/152)
現在我們有計算期望值的機率。即:
E(藝術且會計) =
所有其他的期望值都是以類似的方式決定。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第600-601頁
15.26
計算
範例15.2
從下表中,我們可以得知次數的觀測值與期望值:
MBA 主修
大學學位
會計
財務
行銷
藝術
31
24.08
13
17.37
16
18.55
工程
8
12.44
16
8.97
7
9.59
商管
12
15.65
10
11.29
17
12.06
其他
10
8.83
5
6.37
7
6.80
現在我們可以計算檢定統計量的值:
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第601-602頁
15.27
計算
範例15.2
點選Add-Ins、Data Analysis Plus,與Contingency
Table(Raw Data)。
Copyright ©2010 Cengage Learning
第15章 卡方檢定
15.28
計算
範例15.2
Excel 可以從已經計算出次數的交叉分類表或從原始資
料產生卡方統計量。檔案Xm15-02包括使用下列編碼
的原始資料。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第602.603頁
15.29
詮釋
範例15.2
p- 值為.0227。有強烈的證據推論大學學位與MBA
主修是相關的。
我們可以從兩個部分來詮釋這個檢定。
1. 如果虛無假設為真,則大學學位與MBA 主修是
彼此獨立的。亦即,在大學畢業領域之間,沒有
選擇MBA主修的差異。
2. 假如對立假設為真,大學學位確實會影響MBA
主修的選擇。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第603-604頁
15.30
5 法則
在列聯表中,其中若有一個或多個細格的期望數值
是小於5 的,我們必須合併某些行與列以滿足5 法則。
注意:使用此方法同時也需要改變自由度。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第604頁
15.31
辨識因素
辨識列聯表卡方檢定的因素:
1.問題目的:分析兩個變數間的關係以及比較兩個
或更多個母體。
2.資料類型:名目資料。
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第605頁
15.32
表15.1 名目資料的統計方法
Copyright ©2010 Cengage Learning
第15章 卡方檢定 第608頁
15.33