百分比的區間估計 - Sites@Duke

Download Report

Transcript 百分比的區間估計 - Sites@Duke

主題四、估計與假設檢定
主講人
陳陸輝 特聘研究員兼主任
政治大學選舉研究中心
美國密西根州立大學博士
1
2015/4/13
政治學研究方法班
講授主題
一、樣本與母體
二、無偏估計與效率
三、偏差估計與無偏估計的效率
四、一致性估計
五、區間估計
六、小樣本的區間估計
七、獨立樣本間平均數的差異
八、配對樣本間平均數的差異
九、百分比的區間估計
十、假設檢定
2
政治學研究方法班
2015/4/13
幾個估計圖形
3
政治學研究方法班
2015/4/13
一、樣本與母體
(一)推論統計所使用的三種方法
(二)推論統計的主題
(三)評估估計量好壞的標準
4
政治學研究方法班
2015/4/13
(一)推論統計所使用的三種方法



5
母數統計Parametric statistics
無母數統計Nonparametric statistics
貝氏統計學Bayesian Statistics
政治學研究方法班
2015/4/13
(二)推論統計的主題


6
統計估計
假設檢定
政治學研究方法班
2015/4/13
統計估計的兩個類型


7
點估計
區間估計
政治學研究方法班
2015/4/13
家庭食品年度支出(母體)
8
政治學研究方法班
2015/4/13
家庭食品年度支出(N=100)
9
政治學研究方法班
2015/4/13
(三)評估估計量好壞的標準





10
計算的成本(Computational cost)
最小平方(Least squares)
無偏(Unbiasedness)
效率(Efficiency)
大樣本不偏性(Asymptotic properties)
政治學研究方法班
2015/4/13
二、無偏估計與效率
(一)、無偏
(二)、效率
11
政治學研究方法班
2015/4/13
(一)無偏

當一個樣本的期望值等於他要推論的母體值時,
我們就稱此估計量為無偏估計。用統計符號表示
就是:
E(ˆ)  

E (ˆ) 就是樣本的期望值,而  是母體值。
而偏/誤差的計算方式就是
Bias  E (ˆ)   (6.1)
12
政治學研究方法班
2015/4/13
隨機樣本:母體參數與樣本估計
隨機樣本是隨機自母體內抽出的一組次集合
我們運用相對次數 f/n 去計算
我們運用機率 p(x)去計算
 以及  2
X 以及 s 2
上述這些隨機變數我們就稱之為
估計量(estimators)
13
上述這些固定的母體值,我們就稱之為
參數(parameters)
政治學研究方法班
2015/4/13
(一)無偏的圖形
無 偏 估 計 :兩 個 估 計 量 的 比 較
14
目標
政治學研究方法班
2015/4/13
(二)效率
有效較高的估計式是估計值較集中的估計法,
也就是變異數較小的估計式。(請參考下
圖)
假設有兩個估計式,他們的變異數分別是V
與W,則相對有效性的計算方式為:
V相對於W的效率程度=
15
政治學研究方法班
Var (V )
Var (W )
2015/4/13
效率的圖形
兩種估計式的分佈
P(W)
P(V)
目標
16
政治學研究方法班
2015/4/13
三、偏差估計與無偏估計的效率
同時考慮無偏與效率:
平均誤差平方(Mean Squared Error, MSE) :
MSE  E (V   ) (6.3)
2
MSE  var(V )  ( ) (6.4)
2
17
政治學研究方法班
2015/4/13
三種估計量: 無偏與效率
MSE的圖形
E的變異數
最小
M的MSE
最小
U的誤差
最小
目標
18
政治學研究方法班
2015/4/13
四、一致性估計
當樣本趨近於無限大時,一致性的估計式所給我
們的估計誤差,趨近於零,而且,該估計式的變
異數也趨近於零。
p limˆ   or lim Prob (| ˆ   |  )  1 (6.5)
n 
n
大樣本不偏性:當樣本增至無限大時,估計的誤差為零。
19
政治學研究方法班
2015/4/13
一致性估計
一致性估計的圖形
N=200
N=50
N=10
20
政治學研究方法班
N=5
2015/4/13
五、區間估計

21
經過一般隨機抽樣程序所獲得的代表性樣本的相
關資訊以及初步統計出來的有關母體的分布,只
是根據樣本資訊來推估母體參數值的點估計,我
們在解讀的時候,還必須將抽樣誤差一併呈現,
這樣的推論才會較為合理。
政治學研究方法班
2015/4/13
1.單一樣本的區間估計
為了讓我們的估計更有信心,我們會以區間估計
(interval estimate)也就是考慮抽樣誤差後加
入一些信賴區間(confidence interval)來做成我們
的估計。所以

22
=
X
 抽樣誤差
政治學研究方法班
(6.6)
2015/4/13
百分之九十五的信心水準




23
一般而言,我們做區間估計時,以百分之九十五的信心
水準為原則。
在雙尾檢定時,整個分佈的左右兩邊各佔所有分布的
2.5%。用標準常態分布表可以發現其z值為1.96。所以,
我們可以說,這一個點估計的上下各1.96個標準誤
(standard error,或是SE)之下,是我們在百分之九十
五信心水準之下的區間估計。也就是
「當我們運用以下區間估計  值時,有百分之九十五的
機會,  會落在以下的區間中。」
P( X -1.96 SE <  < X +1.96 SE) = 95% (5.3)
政治學研究方法班
2015/4/13
百分之九十五的信心水準
圖5.3 對 母體比 例估 計的95%信心程 度
p
24
政治學研究方法班
2015/4/13
六、小樣本的區間估計
一般而言,當樣本數小於30而且其分布屬於常態分布時,
我們運用t分布。(查表參考593頁)
用t值做區間估計的公式是:
 = X  t 0.025
s
N
(6.12)
t值自由度(degree of freedom, df)的計算方式是:
df = N-1 (6.13)
25
政治學研究方法班
2015/4/13
七、獨立樣本間平均數的差異
以百分之九十五信賴區間,兩套獨立樣本間的差
異為:
1   2 = ( X 1  X 2 ) 
z 0.025
 12
N1

 22
N2
(6.15)
如果兩個母體的變異數相同,公式可以改寫為:
1   2
26
1
1
= ( X 1  X 2 )  z 0.025 *  * N  N
1
2
政治學研究方法班
(6.16)
2015/4/13
不知母體的變異數,獨立樣本間平均數之差異
不知道母體的變異數時,百分之九十五信賴區間,獨立樣本
間的差異就變成:
1
  2 = ( X 1  X 2)  t 0.025 * s P *
1
1

(5.11)
N1 N 2
而的計算方式,在假定兩個母體的變異數相同的情況下,它
的計算公式為:
2
( X 1  X 1 ) 2  ( X 2  X 2 ) 2
(5.12)
P =
( N 1  1)  ( N 2  1)
s
估計t分布的自由度的計算方式則是
27
df= ( N 1  1 )+( N 2  1 ) (5.13)
政治學研究方法班
2015/4/13
八、配對樣本間平均數差異的估計
先計算個別選民評分的差異:
D = X1 - X
2
(6.20)
建構平均母體差異,△,的信賴區間:
s D (6.21)
△ = D  t
0.025
N
( D  D ) 2 (6.22)
2
sD 
N 1
也可以用以下的公式計算與表示
sD
△ = 1   2 = ( X  X )  t 0.025
(6.23)
1
28
2
政治學研究方法班
N
2015/4/13
九、百分比的區間估計
(一)單一大樣本的區間估計
(二)兩套獨立樣本差異的區間估計
29
政治學研究方法班
2015/4/13
(一) 單一大樣本的區間估計

以百分之九十五的信心水準而言,在大樣本時對母體百
分比的區間估計公式為:
  P  1.96
 (1   )
N
(6.24)
其中,
 = 母體的比例
P = 樣本的比例
N = 樣本數
30
政治學研究方法班
2015/4/13
(二)兩套獨立樣本差異的區間估計

例如,我們要估計兩個不同時間點所做的民意調查,
是不是出現了顯著差異時,我們若是要對兩次訪問
的差異進行比較,以百分之九十五信心水準而言,
估計公式為:
P1 (1  P1 ) P2 (1  P2 )
 1   2  ( P1  P2 )  1.96

N1
N2
31
政治學研究方法班
2015/4/13
十、 假設檢定
在統計上,有以下兩種假設。
1) 虛無假設(null hypothesis)
通常用 H 0來代表。
2) 對立假設(alternative hypothesis)
通常用 H1 來表示,也有用H A 來表示的。
32
政治學研究方法班
2015/4/13
統計假設的兩種決策
1)
2)
33
拒絕虛無假設
通常p值小於0.05。
不拒絕虛無假設
通常p值大於或是等於0.05。
政治學研究方法班
2015/4/13
兩種統計上假設檢定的錯誤類型
表7-1
統計檢定的兩種錯誤類型表
事實
H0
34
決
不拒絕H
策
拒絕
H0
0
為真
H1
為真
1- (正確機率)  (錯誤機率)

(錯誤機率) 1-
政治學研究方法班
(正確機率)
2015/4/13
幾個統計檢定常用的名詞
(1- )乘以100我們稱之為信心水準(confidence level)。
我們常說的百分之九十五信心水準,就是當 等於5%時,
計算出來的結果。
 又稱之為顯著程度(significance
level),也就是我們犯
下第一型錯誤的機率。
(1-  )稱之為檢定力(power of a test)或是統計的效力
(statistical power)。
35
政治學研究方法班
2015/4/13
古典的假設檢定的步驟
1)設定虛無假設以及對立假設,並確定樣本數、標準差
以及顯著程度,一般而言,統計上可以接受的顯著
程度為0.05或是更小的值。
2)利用上述資訊找出統計檢定的判別值(critical value)
(通常用Z*來表示)以及拒絕虛無假設的區域。
3)利用公式,計算觀察樣本的Z值。如果我們觀察樣本
的Z值大於統計檢定的判別值,我們就拒絕虛無假設;
否則,就不拒絕虛無假設。
36
政治學研究方法班
2015/4/13
假設檢定判別值的決定
單尾檢定而言,
統計檢定決定的Z*值在α=0.05時為1.645。
雙尾檢定而言,
統計檢定決定的Z*值在α=0.05時為1.96。
而計算Z值的公式為
Z =|
37
X  0
/ N
政治學研究方法班
| (5.21)
2015/4/13
SPSS的具體操作:獨立樣本T檢定
我們要檢視不同性別對兩個政黨喜好程
度是否存在顯著差異
TEDS2008PE
對國民黨喜好程度N2
對民進黨喜好程度N2A
性別S18
政黨喜好重新編碼成0~10(其他設為遺
漏值)
38
政治學研究方法班
2015/4/13
性別與主要政黨喜好差異
對國民黨喜好程度N2N
對民進黨喜好程度N2AN
假設此兩個變數為數字資料
性別S18:1男性;2女性
Analyze Compare Means
Independent-Samples T-Test
39
政治學研究方法班
2015/4/13
性別與主要政黨喜好差異KMT
統計的假設:
H 0 : 1  2
H a : 1  2
你的研究假設?
40
政治學研究方法班
2015/4/13
性別與主要政黨喜好差異KMT
Levene's Test for Equality of Variances
虛無假設:變異數相等
對立假設:變異數不相等
Sig<0.05看第二行資訊
Sig>0.05看第一行資訊
Sig, p值與統計的虛無假設
41
政治學研究方法班
2015/4/13
性別與主要政黨喜好差異KMT
表一 不同性別對國民黨評分差異的獨立樣本 T 檢定結果
平均數
標準差
樣本數
統計檢定結果
男性
4.97
2.54
904
t=-1.864,df=1,759
女性
5.20
2.51
857
p=0.063
資料來源:游清鑫,(2009)。
42
政治學研究方法班
2015/4/13
性別與主要政黨喜好差異KMT
統計說明:
從表一的資訊中我們發現:t值為-1.864自由度為
1,759,查表得知p>0.05,所以無法拒絕虛無假設,男
性與女性對國民黨的評價並不具備統計上的顯著差異。
論文描述:
表一中我們發現:男性對於國民黨的評價分數為4.97,
低於女性的5.20。不過,經過統計上的檢定我們得知,
兩者並不具備統計上的顯著差異。本研究假設並未驗
證。
43
政治學研究方法班
2015/4/13
性別與主要政黨喜好差異DPP
研究假設:
統計的虛無假設與對立假設
表二 不同性別對民進黨評分差異的獨立樣本 T 檢定結果
平均數
標準差
(樣本數)
統計檢定結果
男性
4.68
2.49
(896)
t=2.034,df=1,744
女性
4.43
2.55
(850)
p<0.05
資料來源:游清鑫,(2009)。
44
政治學研究方法班
2015/4/13
性別與主要政黨喜好差異DPP
統計說明:
從表二的資訊中我們發現:t值為2.034自由度為1,744,
查表得知p<0.05,所以拒絕虛無假設,男性與女性對
民進黨的評價具備統計上的顯著差異。
論文描述:
表二中我們發現:男性對於民進黨的評價分數為4.68,
低於女性的4.43,且經過統計上的檢定我們得知,兩
者具備統計上的顯著差異。本研究假設主張男性對民
進黨的評價分數較女性為高,獲得支持。
45
政治學研究方法班
2015/4/13
SPSS的具體操作:配對樣本T檢定
我們要檢視民眾對兩個政黨喜好程度是
否存在顯著差異
Analyze Compare Means
Paired-Samples T-Test
46
政治學研究方法班
2015/4/13
民眾對兩個主要政黨喜好的差異
統計的假設:
H 0 : 1  2
H a : 1  2
你的研究假設?
47
政治學研究方法班
2015/4/13
民眾對兩個主要政黨喜好的差異
表三 民眾對國民黨與民進黨評分差異的配對樣本 T 檢定結果
平均數
標準差
(樣本數)
統計檢定結果
國民黨
5.07
2.52
(1,743)
t=5.007,
民進黨
4.56
2.52
(1,743)
df=1,742
差 異
0.51
4.26
(1,743)
p<0.001
資料來源:游清鑫,(2009)。
48
政治學研究方法班
2015/4/13
民眾對兩個主要政黨喜好的差異
統計說明:
從表三的資訊中我們發現:t值為5.007自由度為1,742,
查表得知p<0.001,所以拒絕虛無假設,民眾對國民
黨與民進黨的評價具備統計上的顯著差異。
49
論文描述:
表三中我們發現:民眾對於國民黨的評價分數為5.07,
高於對民進黨的4.56,且經過統計上的檢定我們得知,
兩者具備統計上的顯著差異。本研究假設主張:因為
扁家弊案與國民黨勝選,使得民眾對國民黨的評價分
數較民進黨顯著為高,此一主張獲得支持。
政治學研究方法班
2015/4/13
SPSS的具體操作:單一樣本T檢定
我們要檢視民眾對政黨喜好程度與
特定數值是否存在顯著差異
Analyze Compare Means
One-Samples T-Test
50
政治學研究方法班
2015/4/13