Transcript 統計學CH15
第 15 章 卡方檢定 LOGO 15.1 What to do? 資料類型? 類型數目? 統計方法: 敘述母體 名目 兩個或更多 卡方的適合度檢定 比較兩個母體 名目 兩個或更多 卡方的列聯表檢定 比較兩個或更多母體 名目 -- 卡方的列聯表檢定 分析兩個變數之間的 關係 名目 -- 卡方的列聯表檢定 一種資料類型… …兩種方法 Copyright ©2010 Cengage Learning 第15章 卡方檢定 15.2 兩個與名目資料有關的統計方法 第一個是應用於資料來自多項實驗(multinomial experiment) 的適合度檢定(goodness-of-fit test)。其 中,多項實驗是二項實驗的推廣。 第二個方法使用整理成表的資料,稱為列聯表 (contingency table),去決定兩個名目資料母體的分 類是否為統計獨立;這個檢定也可以被詮釋為兩個 或更多母體的比較。 兩個檢定中,檢定統計量的抽樣分配皆服從在第8 章介紹的卡方分配。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第590頁 15.3 多項實驗 不像二項實驗只有兩個可能的結果(例: 銅板的正面 或反面) ,一個多項實驗具下列的特質: 1.實驗包括 n 次固定的試驗。 2.每一次試驗的結果可以被歸類到 k 個類別中的一個, 稱為細格或儲存格 (cells)。 3.每一次的試驗,結果將會落在細格 i 的機率pi 保持 固定不變。而且p1 + p2+⋯+ pk = 1 4.實驗的每次試驗與其他試驗是獨立的。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第591頁 15.4 卡方的適合度檢定 我們檢定是否有足夠的證據去拒絕 pi 的指定值。 為了說明,我們的虛無假設: H0: p1 = a1, p2 = a2, …, pk = ak 其中 a1, a2, …, ak 是我們想要設定的值。 我們的研究假設: H1: 至少一個 pi 不等於其指定的值 Copyright ©2010 Cengage Learning 第15章 卡方檢定 15.5 範例15.1 有兩家公司,公司 A 與公司 B最近積極執行廣告活 動以維持並且儘可能地增加其衣物柔軟精的市場佔 有率。這兩家公司具有支配市場的地位。在廣告活 動開始之前,公司A的市場佔有率是45% ,而公司B 佔有40%的市場,其他競爭者則分享其餘的15%。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第592頁 15.6 範例15.1 為了決定廣告活動之後這些市場佔有率是否有所改 變,公司 A 的行銷經理蒐集了200 位衣物柔軟精顧 客的隨機樣本對產品偏好的資料。200 位顧客當中, 102 位表明偏好公司 A 的產品,82 位偏好公司 B 的 衣物柔軟精,以及其餘16 位偏好其他競爭者之一的 產品。在5% 的顯著水準下,分析人員是否能推論在 廣告活動之後顧客偏好的程度已經改變? Copyright ©2010 Cengage Learning 第15章 卡方檢定 第592頁 15.7 範例15.1 我們比較廣告活動前後的市場佔有率是否有差異(例 如廣告是否影響到提高市場佔有率)。我們假設參數 值等於活動前市場佔有率,即: H0: p1 = .45, p2 = .40, p3 = .15 對立假設是拒絕虛無假設,因此: H1: 至少一個 pi 不等於其指定的值 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第592頁 15.8 範例15.1 檢定統計量 如果虛無假設為真,我們將期望選擇品牌A、品牌B 與其他 的顧客人數為200 乘以在虛無假設中指定的比例。也就是, e1 = 200(.45) = 90 e2 = 200(.40) = 80 e3 = 200(.15) = 30 一般而言,每一個細格的期望次數(expected frequency) 可以 計算如下 ei = npi 此一表示源自於二項隨機變數的期望值公式,在7.4 節中曾經 介紹過。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第592-593頁 15.9 範例15.1 假若期望次數ei 和觀測次數(observed frequencies) fi 是相當不同的,我們將結論虛無假設是錯的,且我 們將拒絕它。 但是,假如期望和觀測次數是相似的,我們將不拒 絕虛無假設。 在t- 檢定統計量可用以測量期望次數和觀測次數的 相似性。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第594頁 15.10 卡方的適合度檢定 卡方適合度檢定統計量 : 期望次數 觀測次數 注意:在大樣本的條件下,此檢定統計量的抽樣分 配是近似地 服從自由度為v = k – 1的卡方分配。拒絕 域是: 。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第593頁 15.11 計算 範例15.1 下列的表格示範檢定統計量的計算。如同以往,我 們透過指定拒絕域或決定 p- 值來判定檢定統計量的 大小。 應該會相等 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第593-594頁 15.12 詮釋 範例15.1 拒絕域是: 我們的檢定統計量是8.18,大於我們的卡方標準值, 我們拒絕H0且支持H1,即 「在5% 的顯著水準之下,有充分的證據推論當廣 告活動完成後各比例已經改變。」 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第594.595頁 15.13 必要的條件 卡方檢定統計量被要求樣本大小必須夠大,使得每 一個細格的期望值大於等於 5。 假若期望次數小於5,細格應該合併以滿足這個條件。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第595頁 15.14 辨識卡方適合度檢定的因素 辨識卡方適合度檢定的因素 1.問題目的:描述一個單一的母體。 2.資料類型:名目。 3.類別組數:2或更多。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第596頁 15.15 卡方的列聯表檢定 卡方的列聯表檢定(Chi-squared test of a contingency table) 用來決定: 是否有足夠的證據去推論兩個名目變數之間是相關的, 並且 去推論兩個或多個名目變數母體間是否存在著差異。 要完成這兩個問題引發兩個不同的分類法則。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第597頁 15.16 範例15.2 MBA 課程對安排各科的上課時問與內容遇到一些問 題。該課程的選修課與主修課的需求在前後兩年之 間有相當大的變動。 在不知所措的情況下,商學院院長向一位統計教授 求助。 這位統計教授相信問題可能是由於學生不同的教育 背景和大學學位影響對主修的選擇。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第598頁 15.17 範例15.2 一開始,他選取一個去年 MBA 學生的隨機樣本, 並記錄其大學學位與在研究所課程中所選擇的主修 領域。 大學學位包括藝術(B.A.)、工程(B.Eng)、商管 (B.B.A.) ,以及其他。 對 MBA 學生而言有三個可能的主修:會計、財務 與行銷。這些結果被彙整於下列的交叉分類表(在 第 2 章介紹過)。這位統計學家是否可以推論大學 學位影響對 MBA 主修的選擇? Copyright ©2010 Cengage Learning 第15章 卡方檢定 第598頁 15.18 範例15.2 Xm15-02 此資料包含兩行。第一個欄位由整數1、2、3、4 構成,表示大學學位的數值 1 = 藝術(B.A.) 3 = 商管(B.B.A.) 2 = 工程(B.Eng.) 4 = 其他 第二個欄位列出MBA 主修的數值 1 = 會計與行銷 2 = 財務 3 = 商管 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第598頁 15.19 辨認 範例15.2 問題的目的是分析兩個變數之間的關係。特別是, 我們想要知道一個變數是否與另一個變數有關(是 否受另一個變數的影響)。另一種處理這個問題的 方法是決定在B.A.、B.Eng.與B.B.A. 之間是否存有差 異。也就是, H1: 兩個變數是相依的 虛無假設將指明兩個變數間沒有關聯性: H0: 兩個變數是獨立的 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第598-599頁 15.20 檢定統計量 這個檢定的統計量與用於檢定比例適合度檢定的檢定統計 量是同一個。也就是,檢定的統計量是 2 ( f e ) 2 i i ei 假如你檢視適合度檢定中描述的虛無假設與上述的虛無假 設,你將會發現一個主要的差異。在適合度檢定中,虛無 假設列出機率pi 的值。而在列聯表卡方檢定中,虛無假設 則敘述兩個變數是獨立的。但是,我們需要機率去計算期 望數值ei,它要用來計算檢定統計量的值。 此時,問題立刻就產生了,我們要從哪裡去得到這些機率 呢?答案是它們必須在虛無假設為真的設定下由資料計算 而得。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第599-600頁 15.21 範例15.2 第一步要先計算在12個細格內的學生數,此稱為交 叉分類表。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第600頁 15.22 範例15.2 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第601頁 15.23 範例15.2 如果虛無假設為真(記得我們總開始於這個假設)且兩 個名目變數是相依的,例如 P(藝術 且 會計)=[P(藝術)][P(會計) ] 遺憾的是,我們沒有P(藝術)或P(會計)的值。但是, 這些機率可以從資料獲得估計值。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第600頁 15.24 檢定統計量 152位中的61位學生選擇會計做為他的MBA主修。 因此,我們估計主修會計的機率為 61 .401 P(會計) 152 相同地 60 P(藝術) .395 152 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第600頁 15.25 範例15.2 假設虛無假設為真 P(藝術 和 會計) = (60/152)(61/152) 現在我們有計算期望值的機率。即: E(藝術且會計) = 所有其他的期望值都是以類似的方式決定。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第600-601頁 15.26 計算 範例15.2 從下表中,我們可以得知次數的觀測值與期望值: MBA 主修 大學學位 會計 財務 行銷 藝術 31 24.08 13 17.37 16 18.55 工程 8 12.44 16 8.97 7 9.59 商管 12 15.65 10 11.29 17 12.06 其他 10 8.83 5 6.37 7 6.80 現在我們可以計算檢定統計量的值: Copyright ©2010 Cengage Learning 第15章 卡方檢定 第601-602頁 15.27 計算 範例15.2 點選Add-Ins、Data Analysis Plus,與Contingency Table(Raw Data)。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 15.28 計算 範例15.2 Excel 可以從已經計算出次數的交叉分類表或從原始資 料產生卡方統計量。檔案Xm15-02包括使用下列編碼 的原始資料。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第602.603頁 15.29 詮釋 範例15.2 p- 值為.0227。有強烈的證據推論大學學位與MBA 主修是相關的。 我們可以從兩個部分來詮釋這個檢定。 1. 如果虛無假設為真,則大學學位與MBA 主修是 彼此獨立的。亦即,在大學畢業領域之間,沒有 選擇MBA主修的差異。 2. 假如對立假設為真,大學學位確實會影響MBA 主修的選擇。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第603-604頁 15.30 5 法則 在列聯表中,其中若有一個或多個細格的期望數值 是小於5 的,我們必須合併某些行與列以滿足5 法則。 注意:使用此方法同時也需要改變自由度。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第604頁 15.31 辨識因素 辨識列聯表卡方檢定的因素: 1.問題目的:分析兩個變數間的關係以及比較兩個 或更多個母體。 2.資料類型:名目資料。 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第605頁 15.32 表15.1 名目資料的統計方法 Copyright ©2010 Cengage Learning 第15章 卡方檢定 第608頁 15.33