Transcript 類別資料分析
STATISTICS
類別資料分析
運用時機
一組比例值的檢定
陽明大學學生近視率(%)是否與全台灣的成人有所不同?
兩組比例值的檢定
陽明大學男女生的近視率是否有所不同?
一組的兩次比例值是否有所不同?
老人前後兩次觀察的憂鬱比率是否有所不同?
機率分佈
二項分佈: binomial distribution
1
STATISTICS
二項分佈
一組比例值
個數的平均值與變異數:np; npq
比率的平均值與變異數:p; (pq)/n
檢定值
Z
p1 p0
( p0 q0 ) / n
兩組比例值:標準差與檢定值
SE( p1 p2 )
p1 q1 p 2 q 2
SE( p1 p2 )
n
n
2
1
p1 p 2
z
SE ( p1 p2 )
n1 p1 n2 p 2
1
1
pq( ) p
n1 n2
n1 n2
2
STATISTICS
二項分佈的舉例 1
男女各約一半的人口中,某時期機車肇事死亡共120人中,男性有80人女性有
40人,請問機車肇事死亡是否與性別有關?
p 0.5 0.5 / 120 0.046
0
Z
p1 p0
p
p1 80 / 120 0.667
(0.667 0.5) / 0.046 3.63
0
都市與山地國中生各100人中,近視比例分別為55與15人,請問都市與山地國
中生近視比例差別的95%信賴區間為何?
( p p ) 0.55 0.45 / 100 0.15 0.85 / 100 0.0612
1
2
p1 0.55
p2 0.15
95% CI (0.55 0.15) 1.96 0.0612 0.40 0.12 0.28 ~ 0.52
3
STATISTICS
二項分佈的舉例 2
某區域醫院了配合總額預算新制、保有一定水準的醫療品質與醫院收入,
決定每天門診量不超過375人,但開放電話或電腦預約掛號到400號,因
為根據以往經驗約有10%的病人掛了號卻不來看診。請問該醫院至少有
一位病人掛了號卻看不到病的機率是多少?(假設病人掛號後有的看診機
率為二項分布)
(A).P(Z>1.96)=2.5%
(B).P(Z>2.14)=1.6%
(C).P(Z>2.34)=1.0%
(D).P(Z>2.58)=0.5% (E).P(Z>2.8)=0.3%
np 400 0.9 360; npq 2 36;
P( Z
375.5 360
2.58) 0.5%
6
4
STATISTICS
卡方分佈與兩個類別變項的統計
使用時機:兩個類別變項間是否有相關association
性別與自體免疫疾病的有無、注射流感疫苗與感冒發生的
有無、籍貫與投票行為等
與比例值的意義相同
卡方值
(
2
xi
) (
2
x1
) (
2
x1
) ... (
2
x1
) 2 Z12 Z 22 ... Z n2
2
(
O
E
)
2
E
5
STATISTICS
卡方檢定的舉例
卡方分佈表與自由度
d.f.=(No. of rows -1)*(No. of Columns-1)
依照自由度查表
例題
是否食用鴨子
患病
合計
否
是
11(4.33)
0(6.67)
11
否
75(81.67)
32(125.33)
207
86
132
218
(O E ) 2
17.84
E
2
合計
是
.295(1) 3.84
推翻虛無假說,接受對立假說,吃鴨子與否與患傷寒有關
6
STATISTICS
Yate’s校正與Fisher’s exact test
2
卡方值的簡單公式: (1)
N ( ad bc N / 2) 2
(a b)(c d )( a c)(b d )
Yats’ correction: N/2, 2× 2 table 檢定時使用
Fisher’s exact test
(a b)!(c d )!(a c)!(b d )!
使用時機 : 某些cell期望值小於5 Pi
N!a!b!c!d!
舉例
1
4
5
0
5
5
6
6
12
7
5
12
7
10
17
7
10
17
所以,P=0.238+0.041=0.279>0.05,接受虛無假說
Pi
5!12!7!10!
0.238
17!1!4!6!6!
Pi
5!12!7!10!
0.041
17!0!5!7!5!
7
STATISTICS
McNemar’s Test
名稱與使用時機:非獨立樣本比率數的卡方檢定
觀念與配對t 檢定完全相同
2
(
b
c
)
檢定值
McNemar c2
bc
舉例: 第一次與第二次受訪老人的婚姻狀態是否有不同?
結論:追蹤憂鬱老人的婚姻狀態,發現有明顯不同
Married at Wave 2
Married at Wave 1
No
Yes
Total
No
Yes
257
1
258
45
291
336
Total
302
292
594
McNemar
2
c
( b c )2
bc
( 1 45 ) 2
1 45
(44) 2
2
42.09 95
(1) 3.84, d . f 1
46
結論:追蹤憂鬱老人的婚姻狀態,發現有明顯不同
8
STATISTICS
適合度檢定Goodness-of-fit test
使用時機
如果一個母群體,依某種分類的分布為已知,要了解一個隨機樣
本是否由該母群體所抽出的檢定,就應使用適合度檢定。
舉例
高血壓會者之血型分布與常人是否相同
第一次結果
樣本分佈 已知母群體分佈
樣本預期值
A
B
63
45
25%
21%
54.50
45.78
O
93
49%
106.82
AB
15
5%
10.90
(63 54.5) 2 (45 45.78) 2 (95 106.82) 2 (15 10.9) 2
2
4.19 95
( 3) 7.81
54.5
45.78
106.82
10.9
2
結論:接受虛無假說,高血壓患者的血型分佈與常人並無不同
9
STATISTICS
波以松分佈:Poisson Test
二項分布
波以松分布
自然對數
公式證明
P(r ) C rn p r q n r
P( X )
n!
p r q nr
r!(n r )!
X e
X!
1 n
lim n (1 ) e
n
x
lim n (1 ) n e x
n
n(n 1)...( n x 1) x
( ) (1 ) n x
x!
n
n
x n n 1 n x 1
( )(
)...(
)(1 ) n x
x! n n
n
n
x e
x!
lim n C xn p x (1 p) n x
10
STATISTICS
波以松檢定:舉例
波以松分布
P( X )
X e
X!
設台灣地區盲腸手術失敗率為0.007,某醫院進行盲腸手術400次沒
有一次失敗,該院外科醫療水準是否較全國為優?
解:設α=0.05,p=0.007, n=400
H0: 該院手術失敗率與全國相同p1= p0
H1: 該院手術失敗率較全國為低p1< p0
e 2.8 2.80
P(0)
0.0608
0!
結論:接受虛無假說,該院並不比一般醫院之外科醫療水準為優
11
STATISTICS
卡方分佈的濫用與討論
任意將等距或等比變項轉化成類別變項
男女的體重是否有所差別?
分組武斷
體重:輕中重如何分?(BMI…?)
自變項與依變項的因果關係
Z 或 t 檢定:方法本身已隱含有因果關係的假定
卡方檢定:沒有因果關係的假設
但仍習慣將將「因」變項放在直行,「果」變項放在橫列
12
STATISTICS
結論
比率檢定:Z分佈
與平均值檢定的觀念完全相同
類別變項的統計:卡方檢定
2×2:要做Yate’s correction
Fisher’s exact test:
某些cell 的期望值小於5時:樣本數太小或機率值 p 太小
McNemar’s test: 二項類別變項重複測兩次
Poisson test:
樣本數n很大且機率值 p很小(通常<0.01),如癌症發生比率
13
STATISTICS
期中考例題1
14
STATISTICS
期中考例題2
15