機率是多少? - Sites@Duke

Download Report

Transcript 機率是多少? - Sites@Duke

主題三 機率分佈簡介
主講人
陳陸輝 特聘研究員兼主任
政治大學選舉研究中心
美國密西根州立大學博士
1
2015/4/13
政治學研究方法班
講授主題
2
壹 幾個基本概念
貳 機率模型
參 複合事件
肆 條件機率
伍 獨立事件
陸 貝氏定理
柒 間斷與連續事件的機率分佈
捌 常態分佈
玖 樣本平均數的抽樣分佈
拾 母體、樣本資料與樣本分佈
政治學研究方法班
2015/4/13
2008年選舉結果
馬約得765.9萬票/謝約得544.5萬票
馬勝221萬票
馬得票率佔有效票58.45%
投票率76.33%
如果用出口名調,得到比例會是多少?
3
政治學研究方法班
2015/4/13
壹 幾個基本概念
A.隨機實驗 (Random Experiment)
B.基本結果(Elementary Outcome)
C.樣本空間(Sample Space)
D.事件(Event Set)
4
政治學研究方法班
2015/4/13
A.隨機實驗 (Random Experiment)
這是一種過程,你會知道有幾種特定的結果會出
現,不過,不能確定哪一個結果會出現,也無
法精確預測。
隨機實驗可以重複進行,經過累積一定的觀察數
量後,可以找出一些統計規則。
5
例如,你擲一個骰子,你不確定會出現幾點,但
是,你知道其中一些基本原則。同理,可以推
論到擲兩顆骰子或是抽一張撲克牌。
政治學研究方法班
2015/4/13
B.基本結果(Elementary Outcome)
隨機實驗可能出現的結果。
例如,擲一個骰子的基本結果是從1到6。
6
政治學研究方法班
2015/4/13
C.樣本空間(Sample Space)
列出隨機實驗中的所有可能結果。例如,擲一個
骰子的樣本空間是
S={1,2,3,4,5,6}
通常用S來表示之。
7
政治學研究方法班
2015/4/13
D. 事件(Event Set)
樣本空間的部分集合稱之為事件。
事件可以只包括一個基本結果(簡單事件simple
event)或是兩個或兩個以上的基本結果(混合事
件composite event)。
8
政治學研究方法班
2015/4/13
貳 機率模型
家中小孩男女的組合:
生男生女是一個很平常卻很有趣的問題。當一個
家庭有三個小孩,你會猜他們的男女組合
是?GBG?BBB?GGB?BGB?
G-Girl
B-Boy
9
政治學研究方法班
2015/4/13
例題4.1-4.2
4.1 一對夫妻有三個小孩,他們都是男的,機率是
多少?
4.2. 都是女的機率是多少?
10
政治學研究方法班
2015/4/13
樹狀圖
第一個
第二個
第三個
基本結果
出現機率
結果 SET
G
GGG
1/8
e1
B
GGB
1/8
e2
G
GBG
1/8
e3
B
G
GBB
BGG
1/8
1/8
e4
e5
B
BGB
1/8
e6
G
BBG
1/8
e7
B
BBB
1/8
e8
G
G
B
G
B
B
11
政治學研究方法班
2015/4/13
各種男女組合出現機率
事件
機率
E=至少兩個女兒
F=兩位小的是女的
G=少於兩個女兒
H=青一色性別
K=少於兩個兒子
I=沒有女兒
I1=剛好一個女兒
I2=剛好兩個女兒
I3=三個全是女兒
12
政治學研究方法班
2015/4/13
各種男女組合出現機率(解答)
事件
13
機率
E=至少兩個女兒
{e1,e2,e3,e5} P(E)=4/8=0.5
F=兩位小的是女的
{e1,e5}
G=少於兩個女兒
{e4,e6,e7,e8} P(G)=4/8=0.5
H=青一色性別
{e1,e8} P(H)=2/8=0.25
K=少於兩個兒子
{e1,e2,e3,e5} P(K)=4/8=0.5
I=沒有女兒
{e8} P(I)=1/8=0.125
I1=剛好一個女兒
{e4,e6,e7} P(I1)=3/8=0.375
I2=剛好兩個女兒
{e2,e3,e5} P(I2)=3/8=0.375
I3=三個全是女兒
{e1} P(I3)=1/8=0.125
政治學研究方法班
P(F)=2/8=0.25
2015/4/13
參、複合事件(Compound Event)
(1)交集與聯集
(2)互斥事件
(3)互補事件
14
政治學研究方法班
2015/4/13
複合事件例題4.3
一個三個小孩家庭中的女生至少兩個且全部性別
都相同的機率是多少?
這是交集?還是聯集?/包含哪些結果(outcome)?/機
率是多少?
15
政治學研究方法班
2015/4/13
複合事件例題4.3解答
一個三個小孩家庭中的女生至少兩個且全部性別
都相同的機率是多少?
至少二女P(E):{e1,e2,e3,e5}
 相同性別P(H):{e1,e8}
是交集

P( E  H )  1/ 8  0.125
16
政治學研究方法班
2015/4/13
複合事件例題4.4
一個三個小孩家庭中的女生至少兩個或是全部性
別都相同的機率是多少?
這是交集?還是聯集?/包含哪些結果(outcome)?/機
率是多少?
17
政治學研究方法班
2015/4/13
複合事件例題4.4解答
一個三個小孩家庭中的女生至少兩個或是全部性
別都相同的機率是多少?
至少二女:{e1,e2,e3,e5}
 相同性別:{e1,e8}
是聯集

P( E  H )  P( E )  P ( H )  P( E  H )
18
 0.5  0.25  0.125  0.625
政治學研究方法班
2015/4/13
互斥事件
就是兩個事件基本上是沒有交集的
例如:
沒有女兒P(I) {e8}
至少兩個女兒P(E) {e1,e2,e3,e5}
P( E  I )  0
19
政治學研究方法班
2015/4/13
互補事件
彼此戶斥卻又窮盡所有結果(outcome):
 P(G)少於二女:{e4,e6,e7,e8}
 P(K)少於二子:{e1,e2,e3,e5}
P(G  K )  0 且 P(G  K )  1
20
政治學研究方法班
2015/4/13
肆 條件機率
設定條件之後,再看機率發生情況:
你快樂嗎?
21
政治學研究方法班
2015/4/13
婚姻與快樂
22
很快樂 H
不很快樂 N
小計
已婚 M
22
34
56
未婚 U
34
10
44
小計
56
44
100
政治學研究方法班
2015/4/13
各種機率
P(未婚)
P(很快樂)+P(不很快樂)
P(已婚且很快樂)=P(已婚)*P(已婚中很快樂)
P(M)=1-P(M)
P(H∪N)= P(H)+P(N)如果兩個事件獨立
P(M∩H)= P(M)*P(H|M)
23
政治學研究方法班
2015/4/13
各種比例:總比例
24
政治學研究方法班
2015/4/13
直欄百分比
25
很快樂 H
不很快樂 N
已婚 M
39.3
77.3
56.0
未婚 U
60.7
22.7
44.0
橫列%
56.0
44.0
100.0
P( M | H ) 
P(U | H ) 
P( M | N ) 
P(U | N ) 
政治學研究方法班
直欄%
2015/4/13
橫列百分比
26
很快樂 H
不很快樂 N
直欄%
已婚 M
39.3
60.7
56.0
未婚 U
77.3
22.7
44.0
橫列%
56.0
44.0
100.0
P( H | M ) 
P( N | M ) 
P( H | U ) 
P( N | U ) 
政治學研究方法班
2015/4/13
各種概念



27
交集: P(A∩B)
聯集:P(A∪B)
條件機率: P(A|B)
政治學研究方法班
2015/4/13
伍、獨立事件
對人工流產立場
贊成(F)
反對(O)
白人 W
45.9%
44.1%
90.0%
非裔 B
5.1%
4.9%
10.0%
51.0%
49.0%
100.0%
總計
28
總計
政治學研究方法班
2015/4/13
獨立事件例題
如果我們隨機選一個受訪者,他支持人工流產的機率
是多少? P(F)
如果我們選中一位白人,則他支持人工流產的機率是
多少?P(F|W)?
29
政治學研究方法班
2015/4/13
統計上的獨立事件
如果事件A統計上獨立於事件B之外,則P(A|B)=P(A)
上述的例子告訴我們,受訪者的族裔背景,會不會影
響他們對人工流產的態度?
30
政治學研究方法班
2015/4/13
統計上獨立的兩個事件之間的機率關係:
統計上獨立的兩個事件之間的機率關係:
P(A∩B) = P(B) * P(A|B)
因為A與B是獨立事件,所以
P(A∩B) = P(B) * P(A)
兩邊同時除以P(A)
P( A  B )
= P(B)
P( A)
這表示
P(B|A) = P(B)
31
政治學研究方法班
2015/4/13
兩事件互為獨立時的關係
當事件A是獨立於事件B之外時,則事件B一定
獨立於事件A之外.
32
政治學研究方法班
2015/4/13
幾個重要公式
P(A∪B)
33
P(A∩B)
一般公式
=P(A)+P(B) - P(A∩B)
=P(A)*P(B|A)
特例
=P(A)+P(B)
事件 A 與 B 是互斥
=P(A)* P(B)
事件 A 與 B 獨立
亦即
P(A∩B) = 0
亦即
政治學研究方法班
P(B|A)=P(B)
2015/4/13
陸、貝氏定理
貝氏定理是估計一個事件發生的條件機率的方式,
它使用事前機率導出事後機率。我們可以看一下
以下的例子。
公式是:
P( E ) P( R | E )
P( E | R) 
(4-4)
P( E ) P( R | E )  P( E ) P( R | E )
34
政治學研究方法班
2015/4/13
一群人不相同生日機率
大家生日皆不同的機率:Pn=exp((-n*(n-1))/730)
35
N
機率
10
0.884
20
0.594
30
0.304
40
0.118
50
0.035
60
0.008
政治學研究方法班
2015/4/13
柒、間斷與連續變數的機率分佈
間斷變數與連續變數之區別
36
政治學研究方法班
2015/4/13
一、間斷變數的機率分佈
表 4.1 家中理想子女數目的分佈
y
P(y)
0
0.01
1
0.03
2
0.60
3
0.23
4
0.12
5
0.01
總計
1.00
P(4)=?
37
政治學研究方法班
2015/4/13
二、連續機率分佈圖
圖4.2
%
0
15
30
通勤時間的機率分佈
45
60
75
90
105
通勤時間(分)
38
政治學研究方法班
2015/4/13
二、連續機率分佈
P(y<10)=?
P(30<y<60)=?
39
政治學研究方法班
2015/4/13
機率分佈的母數(parameter)
如果表4.1的機率分佈是母體值(母數),我們
反覆抽樣的結果,會知道
家中理想子女數為1的機率是:P(y=1)=?


1.
2.
40
對機率的兩個重要的描述母數(參數)為
平均數
標準差
政治學研究方法班
2015/4/13
間斷變數的平均數計算方式
   ( y  P( y))

此一數值又稱為期望值,以E(y)表示

變異數計算公式
V ( y )   (( y   ) 2  P ( y ))
41
政治學研究方法班
2015/4/13
捌、常態機率分佈
圖4.3 常態分佈圖
42
μ-3σ
μ-2σ
μ-σ
μ
政治學研究方法班
μ+σ
μ+2σ
μ+3σ
2015/4/13
常態分佈的幾個特性
1.平均數、中位數與眾數是同值,而將常態曲線分成
對稱的兩個部分,各佔總分布的一半。
2.分布是對稱的,一旦將本分布從中間對折,兩邊會
彼此重疊。
3.分布的兩端(尾巴),離平均數愈遠,會接近X-軸,
不過,不會接觸到X-軸---總是會有發生的機率,
不過,機率很低就是了。
43
政治學研究方法班
2015/4/13
常態分佈的幾個特性
當觀察值為常態分佈時,在平均數
1.
正負一個標準差的區間之內,涵蓋了68%的所
有觀察值
2.
正負兩個標準差的區間之內,包括了95%的所
有觀察值,
3.
正負三個標準差的區間之內,包括了99.7%的
所有觀察值。
44
政治學研究方法班
2015/4/13
兩個常態分佈圖
圖4.4 男女身高常態分佈圖
50
55
60
65
70
75
80
85
英吋
45
政治學研究方法班
2015/4/13
運用常態分配表(p.592)
Second Decimal Place of z
z
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
0.0 .5000
.4960
.4920 .4880 .4840
.4801 .4761
.4721 .4681
.4641
1.0 .1587
.1562
.1539 .1515 .1492
.1469 .1446
.1423 .1401
.1379
1.6 .0548
.0537
.0526 .0516 .0505
.0495 .0485
.0475 .0465
.0455
1.9 .0287
.0281
.0274 .0268 .0262
.0256 .0250
.0244 .0239
.0233
2.0 .0228
.0222
.0217 .0212 .0207
.0202 .0197
.0192 .0188
.0183
3.0 .00135
46
政治學研究方法班
2015/4/13
運用常態分配表(區域C的比例)
47
政治學研究方法班
2015/4/13
運用常態分配表(區域C的比例)
48
政治學研究方法班
2015/4/13
找出以下區域的百分比
49

P(-1.96<Z<1.96)

P (Z<1.645)

P(-3>Z)
政治學研究方法班
2015/4/13
標準常態分佈
所有常態分佈,都可以轉換成標準常態分數。他的
平均數是0,標準差是1。
我們可以先知道標準分數,然後找出比這個分數高
/低者,佔所有分布的比例
另外一個是,我們知道一定的比例後,要找出這個
標準化分數
我們將標準常態分布的整個區域,定為1或是100%,
一半就是0.5或是50%
50
政治學研究方法班
2015/4/13
標準常態分佈圖
標準常態分布曲線圖
51
-4
-3
-2
-1
0
政治學研究方法班
1
2
3
2015/4/13
4
玖、樣本平均數的抽樣分佈

52
我們想知道每年家庭食品支出花費
政治學研究方法班
2015/4/13
食品支出的實例
53
政治學研究方法班
2015/4/13
食品支出的實例(N=25)
MEAN25
12
10
8
6
4
0
.0
0
0
50 .0
6 0
1 00 .0
0
6 0
1 00 .0
5
5 0
1 00 .0
0
5 0
1 00 .0
5
4 0
1 00 .0
0
4 0
1 00 .0
5
3 0
1 00 .0
0
3 0
1 00 .0
5
2 0
1 00 .0
0
2 0
1 00 .0
5
1 0
1 00 .0
0
1 0
1 00
5
1
2015/4/13
政治學研究方法班
MEAN25
54
N = 100.00
0
標 準 差 = 12501.24
平 均 數 = 130324.4
2
次
數
食品支出的實例(N=100)
55
政治學研究方法班
2015/4/13
樣本數對抽樣分佈與精確度的影響一
圖4.13 樣本數為100與2705時的抽樣比例之抽樣分佈
n=2705
n=100
56
0.35
0.4
0.45
0.5
政治學研究方法班
0.55
0.6
0.65
2015/4/13
樣本數對抽樣分佈與精確度的影響二
N=30
57
N=50
N=100
N=1,000
政治學研究方法班
2015/4/13
標準誤(standard error)

平均數抽樣分佈的標準差稱之
y  / n
58
政治學研究方法班
2015/4/13
抽樣分佈:常態分佈與中央極限定理
y  ( y1  y2  y3  ...  yn ) / n
在統計上有個中央極限定理,它的內容是:在樣本數
足夠大的情況下,如果把這K個平均數排起來,它
們會形成常態分布,而這些樣本平均數的平均數會
等於μ,這些樣本平均數的標準差會等於
/ n
59
政治學研究方法班
2015/4/13
不同母體分佈的抽樣分佈
不論母體的原始分佈如何,當樣本數趨近
無限大,樣本平均數的平均數分佈會趨近
常態分佈。
 樣本平均數抽樣分佈的標準誤
 母體平均數的左右三個標準誤內包含樣本
平均數

60
政治學研究方法班
2015/4/13
拾、母體、樣本資料與樣本分佈





61
母體分佈:據以抽樣的對象,通常是未知
樣本分佈:可觀察的抽樣結果
可計算樣本平均數與標準差
樣本愈大,樣本平均數會愈接近母體平均數
抽樣分佈:描述固定樣本數下,反覆抽樣下的樣本
分佈情況
樣本數大小:n≧30
統計推論中抽樣分佈的關鍵角色
政治學研究方法班
2015/4/13
本章小結
機率分佈:區間、總和、符號
 機率分佈的平均數、標準差
 常態分佈與標準常態分佈
 標準化分數
 抽樣分佈
 抽樣平均數的平均數分佈,也有標準差
 中央極限定理

62
政治學研究方法班
2015/4/13
提問時間
電子郵件
[email protected]
[email protected]
63
政治學研究方法班
2015/4/13