類別資料分析

Download Report

Transcript 類別資料分析

STATISTICS
類別資料分析
運用時機
 一組比例值的檢定
陽明大學學生近視率(%)是否與全台灣的成人有所不同?
 兩組比例值的檢定
陽明大學男女生的近視率是否有所不同?
 一組的兩次比例值是否有所不同?
老人前後兩次觀察的憂鬱比率是否有所不同?
機率分佈
 二項分佈: binomial distribution
1
STATISTICS
二項分佈
一組比例值
 個數的平均值與變異數:np; npq
 比率的平均值與變異數:p; (pq)/n
 檢定值
Z
p1  p0
( p0 q0 ) / n
兩組比例值:標準差與檢定值
SE( p1  p2 )

 p1  q1   p 2  q 2  

 



   SE( p1  p2 ) 
n
n

2

 1  

p1  p 2
z
SE ( p1  p2 )
n1 p1  n2 p 2
1
1
pq(  )  p 
n1 n2
n1  n2
2
STATISTICS
二項分佈的舉例 1
 男女各約一半的人口中,某時期機車肇事死亡共120人中,男性有80人女性有
40人,請問機車肇事死亡是否與性別有關?
 p  0.5  0.5 / 120  0.046
0
Z
p1  p0
p
p1  80 / 120  0.667
 (0.667  0.5) / 0.046  3.63
0
 都市與山地國中生各100人中,近視比例分別為55與15人,請問都市與山地國
中生近視比例差別的95%信賴區間為何?
 ( p  p )  0.55  0.45 / 100  0.15  0.85 / 100  0.0612
1
2
p1  0.55
p2  0.15
95% CI  (0.55  0.15)  1.96  0.0612  0.40  0.12  0.28 ~ 0.52
3
STATISTICS
二項分佈的舉例 2
 某區域醫院了配合總額預算新制、保有一定水準的醫療品質與醫院收入,
決定每天門診量不超過375人,但開放電話或電腦預約掛號到400號,因
為根據以往經驗約有10%的病人掛了號卻不來看診。請問該醫院至少有
一位病人掛了號卻看不到病的機率是多少?(假設病人掛號後有的看診機
率為二項分布)
(A).P(Z>1.96)=2.5%
(B).P(Z>2.14)=1.6%
(C).P(Z>2.34)=1.0%
(D).P(Z>2.58)=0.5% (E).P(Z>2.8)=0.3%
np    400  0.9  360; npq   2  36;
P( Z 
375.5  360
 2.58)  0.5%
6
4
STATISTICS
卡方分佈與兩個類別變項的統計
使用時機:兩個類別變項間是否有相關association
 性別與自體免疫疾病的有無、注射流感疫苗與感冒發生的
有無、籍貫與投票行為等
 與比例值的意義相同
卡方值
  (
2
xi  

) (
2
x1  

) (
2
x1  

)  ...  (
2
x1  

) 2  Z12  Z 22  ...  Z n2
2
(
O

E
)
2  
E
5
STATISTICS
卡方檢定的舉例
 卡方分佈表與自由度
 d.f.=(No. of rows -1)*(No. of Columns-1)
 依照自由度查表
 例題
是否食用鴨子
患病
合計
否
是
11(4.33)
0(6.67)
11
否
75(81.67)
32(125.33)
207
86
132
218
(O  E ) 2
 
 17.84
E
2
合計
是
 .295(1)  3.84
推翻虛無假說,接受對立假說,吃鴨子與否與患傷寒有關
6
STATISTICS
Yate’s校正與Fisher’s exact test
2

 卡方值的簡單公式: (1) 
N ( ad  bc  N / 2) 2
(a  b)(c  d )( a  c)(b  d )
 Yats’ correction: N/2, 2× 2 table 檢定時使用
 Fisher’s exact test
(a  b)!(c  d )!(a  c)!(b  d )!
 使用時機 : 某些cell期望值小於5 Pi 
N!a!b!c!d!
 舉例
1
4
5
0
5
5
6
6
12
7
5
12
7
10
17
7
10
17
所以,P=0.238+0.041=0.279>0.05,接受虛無假說
Pi 
5!12!7!10!
 0.238
17!1!4!6!6!
Pi 
5!12!7!10!
 0.041
17!0!5!7!5!
7
STATISTICS
McNemar’s Test
 名稱與使用時機:非獨立樣本比率數的卡方檢定
 觀念與配對t 檢定完全相同
2
(
b

c
)
 檢定值
McNemar   c2  
bc
 舉例: 第一次與第二次受訪老人的婚姻狀態是否有不同?
結論:追蹤憂鬱老人的婚姻狀態,發現有明顯不同
Married at Wave 2
Married at Wave 1
No
Yes
Total
No
Yes
257
1
258
45
291
336
Total
302
292
594
McNemar    
2
c
( b  c )2
bc

( 1  45 ) 2
1  45
(44) 2
2

 42.09   95
(1)  3.84, d . f  1
46
結論:追蹤憂鬱老人的婚姻狀態,發現有明顯不同
8
STATISTICS
適合度檢定Goodness-of-fit test
 使用時機
 如果一個母群體,依某種分類的分布為已知,要了解一個隨機樣
本是否由該母群體所抽出的檢定,就應使用適合度檢定。
 舉例
 高血壓會者之血型分布與常人是否相同
第一次結果
樣本分佈 已知母群體分佈
樣本預期值
A
B
63
45
25%
21%
54.50
45.78
O
93
49%
106.82
AB
15
5%
10.90
(63  54.5) 2 (45  45.78) 2 (95  106.82) 2 (15  10.9) 2
2
 



 4.19   95
( 3)  7.81
54.5
45.78
106.82
10.9
2
 結論:接受虛無假說,高血壓患者的血型分佈與常人並無不同
9
STATISTICS
波以松分佈:Poisson Test
二項分布
波以松分布
 自然對數
 公式證明
P(r )  C rn p r q n r 
P( X ) 
n!
p r q nr
r!(n  r )!
 X  e 
X!
1 n
lim n (1  )  e
n
x
lim n (1  ) n  e x
n
n(n  1)...( n  x  1)  x

( ) (1  ) n  x
x!
n
n
x n n  1 n  x  1


( )(
)...(
)(1  ) n  x
x! n n
n
n
 x e 

x!
lim n C xn p x (1  p) n  x 
10
STATISTICS
波以松檢定:舉例
 波以松分布
P( X ) 
 X  e 
X!
 設台灣地區盲腸手術失敗率為0.007,某醫院進行盲腸手術400次沒
有一次失敗,該院外科醫療水準是否較全國為優?
 解:設α=0.05,p=0.007, n=400
H0: 該院手術失敗率與全國相同p1= p0
H1: 該院手術失敗率較全國為低p1< p0
e 2.8  2.80
P(0) 
 0.0608
0!
 結論:接受虛無假說,該院並不比一般醫院之外科醫療水準為優
11
STATISTICS
卡方分佈的濫用與討論
任意將等距或等比變項轉化成類別變項
 男女的體重是否有所差別?
分組武斷
 體重:輕中重如何分?(BMI…?)
自變項與依變項的因果關係
 Z 或 t 檢定:方法本身已隱含有因果關係的假定
 卡方檢定:沒有因果關係的假設
但仍習慣將將「因」變項放在直行,「果」變項放在橫列
12
STATISTICS
結論
比率檢定:Z分佈
 與平均值檢定的觀念完全相同
類別變項的統計:卡方檢定
 2×2:要做Yate’s correction
 Fisher’s exact test:
某些cell 的期望值小於5時:樣本數太小或機率值 p 太小
 McNemar’s test: 二項類別變項重複測兩次
 Poisson test:
樣本數n很大且機率值 p很小(通常<0.01),如癌症發生比率
13
STATISTICS
期中考例題1
14
STATISTICS
期中考例題2
15