描述統計

Download Report

Transcript 描述統計

社會統計
第二講
描述統計
©Ming-chi Chen
社會統計
Page.1
如何描述一組為數眾多的數值?
• 開學第一堂課填答問卷的同學其身高如下:160、
168、169、160、171、181、169、170、163、
170、168、180、175、162、160、175、172、
161、161、155、153、163、161、160、178共25
位同學。
• 請問我們怎麼從中看出什麼意義?
©Ming-chi Chen
社會統計
Page.2
以枝葉圖表示
15 3
15 5
16 0000111233
16 8899
17 0012
17 558
18 01
©Ming-chi Chen
社會統計
Page.3
以直方圖表示
次數
社會統計同學身高
12
10
8
6
4
2
0
頻率
5
<1
5
6
<1
0
6
<1
5
7
<1
0
7
<1
5
8
<1
0
80
1
>=
身高
©Ming-chi Chen
社會統計
Page.4
你看出了什麼?
• 分配的形狀
• 集中於何處?平均在哪裡?
• 分散有多廣?*
©Ming-chi Chen
社會統計
Page.5
Summation Notation 基本運算複習
N
x
i 1
i
 x1  x2  x3   xN
©Ming-chi Chen
社會統計
Page.6
基本運算複習
N
N
N
i 1
i 1
 ( x  y )   ( xi )   ( yi )
i 1
x
2
3
4
2
1
12
©Ming-chi Chen
y
3
4
6
2
1
16
i
i
x+y
5
7
10
4
2
28
12+16=28
社會統計
Page.7
基本運算複習
N

(
cx

cx


cx
)
(
c

x
)
1
2
N

i
i 1
 c( x1  x2   xN )
N
 c  xi
i 1
©Ming-chi Chen
社會統計
Page.8
基本運算複習
N

c

c

c


c
c








i 1
N times
 N c
©Ming-chi Chen
社會統計
Page.9
基本運算複習
N
 ( x  c)
i 1
i
N
N
i 1
i 1
  xi   c
N
  xi  n  c
i 1
©Ming-chi Chen
社會統計
Page.10
基本運算複習
N
( x )
i 1
i
N
2
是否等於
(  xi )
i 1
N

(
x
)
(
x
)

i
 i
N
2
i 1
©Ming-chi Chen
2
2
i 1
社會統計
Page.11
基本運算複習
N
 ( x  c)
i 1
N
i
N
2
  ( xi  2cxi  c )
2
2
i 1
  xi  2c xi  nc
2
2
i 1
©Ming-chi Chen
社會統計
Page.12
母體平均數population mean
x1  x2    xN  xi
u

N
N
大N通常代表母體的個數
©Ming-chi Chen
社會統計
Page.13
樣本平均數sample mean
x1  x2    xN
x

n
x
i
n
小n通常代表母體的個數
©Ming-chi Chen
社會統計
Page.14
次數分配(frequency distribution)
• 次數分配表呈顯落在各個不同組(class)裡
面觀察到的數量,在第i 組裡的次數稱為組次
數,以fi來表示。
©Ming-chi Chen
社會統計
Page.15
次數分配(frequency distribution)
• 社會變遷基本調查資料中,每一名受訪者皆被要求
提供月薪資訊:
• 第一位受訪者 月薪2.4萬
• 第二位受訪者 月薪4.5萬
……..
• 第1813位受訪者
月薪5.2萬
• 此時我們可以透過次數分配表來整理資料,以便瞭
解台灣地區民眾收入的分佈情形。
©Ming-chi Chen
社會統計
Page.16
次數分配(frequency distribution)
Class組數
class boundary組界
class frequency
組次數(f i )
B0 ~ B1
B1 ~ B2
f1
f2
1
2
3
4
k
f3
下組界
Lower limit
Bk-1~Bk
fk
Width of class組距= Bk- Bk-1
組中點=(Bk+Bk-1)/2
©Ming-chi Chen
上組界
Upper limit
社會統計
Page.17
次數分配(frequency distribution)
您現在這個工作,每個月月入多少元?
組數
組界
1 1萬元以下
2
1-2萬元
3
2-3萬元
4
3-4萬元
5
4-5萬元
6
5-6萬元
7
6-7萬元
8
7-8萬元
9
8-9萬元
10 9-10萬元
11 10-11萬元
12 19-20萬元
13 20萬元以上
©Ming-chi Chen
Total
組次數 百分比 累積百分比
Frequency Percent Cumulative Percent
88
4.85
4.85
330
18.20
23.06
430
23.72
46.77
341
18.81
65.58
239
13.18
78.76
163
8.99
87.76
71
3.92
91.67
43
2.37
94.04
18
0.99
95.04
25
1.38
96.41
22
1.21
97.63
28
1.54
99.17
15
0.83
100.00
社會統計
1813
100
組上界=2萬
組下界=1萬
組寬=1萬
組中點 = 1.5萬
Page.18
選擇組界的兩個原則(two rules for
selecting classes)
• 互斥性mutually exclusive:各組的組界不得
重疊,即每有任何一個觀察值可以被同時分
類至不同的兩個組中。
– 一般以「不含組上界值」為規範,如組上界為2萬,
僅將2萬元以下的觀察值歸入該組,2萬元整及以
上的觀察值歸入下一組。
• 周延性Exhaustive:所有的觀察值皆能被歸入
某一組中。
©Ming-chi Chen
社會統計
Page.19
分組的其他原則
•
•
•
•
•
•
究竟要分幾組才恰當?
視情況而定,一般以5-20組為原則。
或者可採用下列公式及算組數:
組數=1+3.322 ×log(n樣本數)
組寬要多大?
最好能設等距的組寬,但如果部分觀察值的分佈情
形非常集中,另一部份非常分散,則有時候會採用
不等距的分組方式。
©Ming-chi Chen
社會統計
Page.20
分組的其他原則
• 組界的選擇
• 最好能夠選擇組的上下界,使組中點接近該
組觀察值的平均數。因為我們在計算全體總
平均時,會以組中點來代表該組的平均值,
因此組中點越接近該組的平均值,估計的總
平均數會越準確。
©Ming-chi Chen
社會統計
Page.21
分組的其他原則
Midpoint
100元
50元
©Ming-chi Chen
200元
Midpoint
社會統計
150元
Page.22
Relative Frequency Distributions
相對次數
• 相對次數為第i組的次數,佔全體的比率。
f(第
i組的次數) f(第
i組的次數)
i
i
或
n(樣本數)
N(母體數)
©Ming-chi Chen
社會統計
Page.23
相對次數(Relative frequency)
您現在這個工作,每個月月入多少元?
組數
組界
1 1萬元以下
2
1-2萬元
3
2-3萬元
4
3-4萬元
5
4-5萬元
6
5-6萬元
7
6-7萬元
8
7-8萬元
9
8-9萬元
10 9-10萬元
11 10-11萬元
12 19-20萬元
13 20萬元以上
©Ming-chi Chen
Total
組次數 百分比 累積百分比
Frequency Percent Cumulative Percent
88
4.85
4.85
330
18.20
23.06
430
23.72
46.77
341
18.81
65.58
239
13.18
78.76
第二組的相對次
數為:
163
8.99
87.76
330/1813 = 0.182
71
3.92
91.67
43
2.37
94.04
18
0.99
95.04
25
1.38
96.41
22
1.21
97.63
28
1.54
99.17
15
0.83
100.00
社會統計
Page.24
1813
100
Frequency Histogram直方圖
500
430
400
341
330
300
組
200次
數
100
239
163
88
0
1萬元以下
©Ming-chi Chen
1-2萬元
2-3萬元
社會統計
3-4萬元
4-5萬元
5-6萬元
Page.25
相對次數直方圖
• 與直方圖相同,為其縱軸改以相對次數表達
0.237
0.250
組
相
對
次
數
0.132
0.150
0.090
0.100
0.050
0.000
©Ming-chi Chen
0.188
0.182
0.200
0.049
1萬元以下
1-2萬元
社會統計
2-3萬元
3-4萬元
4-5萬元
5-6萬元
Page.26
分組資料的算數平均數
f x

x
, 其中 x
i
i
i
n
xi
3
4
5
6
fi
34
13
24
32
103
為觀察值
xi× fi
102
52
120
192
466
f x
i
f x

x
i
n
©Ming-chi Chen
i
社會統計
n
i
466

103
Page.27
連續性資料的算數平均數
f m

x
, 其中 m 為組中點,f 為組次數
i
i
i
n
組下界 組上界
3
4
4
5
5
6
6
7
fi
34
13
24
32
103
mf

x
i
n
©Ming-chi Chen
i
i
組中點m i
3.5
4.5
5.5
6.5
mi× fi
119
58.5
132
208
517.5
517 .5

103
社會統計
Page.28
算數平均數
• 各個觀察值與平均數差的總和為0
n
( x  x)  0
i 1
證明
i
n
 x   x   x  n x
i 1
i
i
x

x 
i
n
n
 f  (m  x )  0
i 1
i
©Ming-chi Chen
  xi  n  x
i
社會統計
Page.29
算數平均數
• 各個觀察值與平均數差的平方和為最小
n
n
i 1
i 1
2
2
(
x

x
)

(
x


)
其中為任意數
 i
 i
n
2
2
(
x


)

[(
x

x
)

(
x


)]

 i
 i
i 1
常數
2
2
(
x

x
)

(
x


)
 2( xi  x )( x   )
 i

大於等於0
©Ming-chi Chen
社會統計
等於0
Page.30
算數平均數
• 設x1, x2, x3, …xn 之算數平均數為x-bar
若 yi  xi  b  y  x  b
若 yi  a  xi  b  y  a  x  b
©Ming-chi Chen
社會統計
Page.31
算數平均數
每位員工皆加薪5000元
Name
Income
Raise
New income
A
3
0.5
3.5
B
4
0.5
4.5
C
5
0.5
5.5
D
3
0.5
3.5
E
4
0.5
4.5
Average
3.8
©Ming-chi Chen
4.3
社會統計
Page.32
算數平均數
每位員工皆加薪5%
Name
Income
Raise
New income
A
3
1.05
3.15
B
4
1.05
4.2
C
5
1.05
5.25
D
3
1.05
3.15
E
4
1.05
4.2
Average
3.8
©Ming-chi Chen
3.99
社會統計
Page.33
算數平均數
• 平均值容易受到極端值
的影響,若資料中有過
大或過小的觀察值時,
不要以平均值來代表集
中趨勢。
©Ming-chi Chen
社會統計
Name
Income
A
3
B
4
C
5
D
3
E
60
Average
15
Page.34
算數平均數
• 分組資料中若有開放式
的組界,由於該組的組
中點無法決定,因此其
平均數亦無法計算。
Name
社會統計
f
A
3
~
4
23
B
4
~
5
12
C
5
~
6
34
D
6
~
7
12
E
7以上
Average
©Ming-chi Chen
Income
32
??
Page.35
Median
•將一組數字由大排至小,位居中間的數值為
該組數字的中衛數。一般以Md來表示
©Ming-chi Chen
社會統計
Page.36
Median中位數
• 如果一組數列有奇數個觀察值,則中位數為排序後
數列的中間值
• 12 13 14 15 16 17 18
• 如果一組數列有偶數個觀察值,則中位數為排序後
數列的中間兩個觀察值的算數平均數
• 12 13 14 15 16 17 18 19 Md = 15.5
©Ming-chi Chen
社會統計
Page.37
Median中位數
•未分組資料求中位數:
•將n個數值由小至大排序
•決定中位數所在的位置n/2+1/2。
•若n為偶數,則取第n/2與第n/2+1個之數值的
平均數為代表。
©Ming-chi Chen
社會統計
Page.38
Median中位數
•求下列數值的中位數:
• 66 70 71 76 80 84 92
•n=7, 所以中位數所在的位置為第(7+1)/2=4
第4個數值(76).
• 66 70 71 76 80 84 92 96
•n=8, 中位數所在的位置為第(8+1)/2=4.5
個,取第n/2(第4個)值與第n/2+1(第五個)
值的平均數
• =(76+80)/2 = 78
©Ming-chi Chen
社會統計
Page.39
Median中位數
•
1.
2.
3.
4.
列舉式分組資料求中位數的步驟:
將資料由小至大排序。
計算累加次數。
決定中位數所在的位次(n+1)/2。
如果中位數的位次剛好在組內,則取該組的
數值x為中位數。如果位次落在兩組中間,
則取兩組的平均值。
©Ming-chi Chen
社會統計
Page.40
Median中位數
• 中位數的位次=94/2+1/2=47.5
• Median = 82
分數
77
78
80
82
84
86
90
©Ming-chi Chen
人數
6
12
15
22
21
16
2
累加人數
6
18
33
55
76
92
94
社會統計
Page.41
Median中位數
• 中位數的位次=94/2+1/2=47.5
• Median = (82+84)/2
分數
人數
77
6
6
78
12
18
80
15
33
82
14
47
84
21
68
86
16
84
90
10
94
©Ming-chi Chen
累加人數
社會統計
Page.42
分組資料中位數的推估
• 分組資料(連續資料)求中位數的步驟:
1. 計算累加次數。
2. 根據中位數所在的位次n/2+1/2,找出中位
數所在的組別。
3. 以下列公式求出中位數:
©Ming-chi Chen
社會統計
Page.43
分組資料中位數的推估
n
設Fi  第i組的累積次數,若 Fi 1   Fi
2
n
C
m edian BL  (  Fi 1 ) 
2
f
BL 為該組的組下界
C為中位數所在的組的組距
f為中位組所在組的次數
©Ming-chi Chen
社會統計
Page.44
分組資料中位數的推估
Class組數
Cumulative
boundary frequency frequency
組界
組次數(f i ) 累積次數
1
B0 ~ B1
f1
F1
2
B1 ~ B2
f2
F2
3
4
…
f3
F3
i
fi
Fi
fk
Fk
k
(1) 先將各組次數加
總求出總次數,再用
n/2的公式找到中位
數的
F i-1
Bk-1~Bk
©Ming-chi Chen
f
i
n
社會統計
Page.45
分組資料中位數的推估
Class組數
Cumulative
boundary frequency frequency
組界
組次數(f i ) 累積次數
1
B0 ~ B1
f1
F1
2
B1 ~ B2
f2
F2
f3
F3
3
4
…
F i-1
i
Bi-1~Bi
fi
Fi
k
Bk-1~Bk
fk
Fk
f
©Ming-chi Chen
i
(2)如果中位數的位
次n/2介於Fi-1與Fi之
間。
(3) 用C= Bi-Bi-1求
得組距C
則中位數=
n
C
Bi 1  (  Fi 1 ) 
2
f
n
社會統計
Page.46
分組資料中位數的推估
• 這個公式看起來有點複雜,其實很好理解。
我們已知第n/2的數值落於該組中,我們想要
找出最接近第n/2的位置的一個推估數值。
Fi-1
n
C
Bi 1  (  Fi 1 ) 
2
f
n/2
組距為C,組次數為f,
C/f可以看成每個觀察值
之間的單位距離
從第n/2個觀察值到本組的
下界之間共有幾個觀察值
©Ming-chi Chen
社會統計
Page.47
分組資料中位數的推估
請問你每星期大約工作幾小時?
0-10小時
27
11-20小時
35
21-30小時
57
31-40小時
172
41-50小時
1001
51-60小時
251
61-70小時
87
71-80小時
71
81-90小時
50
91-100小時
35
1786
©Ming-chi Chen
社會統計
請找出台灣地區成
年人每週工時的中
位數。
Page.48
分組資料中位數的推估
請問你每星期大約工作幾小時?
f
F累積次數
0-10小時
27
27
11-20小時
35
62
21-30小時
57
119
31-40小時
172
291
41-50小時
1001
1292
51-60小時
251
1543
61-70小時
87
1630
71-80小時
71
1701
81-90小時
50
1751
91-100小時
35
1786
1786
©Ming-chi Chen
社會統計
步驟一:先算出累
積次數
步驟二:找出中位
數所在的組
(n/2+1/2)。
n/2=1786/2=893
Page.49
分組資料中位數的推估
請問你每星期大約工作幾小時?
f
F累積次數
0.5-10.5小時
27
27
10.5-20.5小時
35
62
20.5-30.5小時
57
119
30.5-40.5小時
172
291
40.5-50.5小時
1001
1292
50.5-60.5小時
251
1543
60.5-70.5小時
87
1630
70.5-80.5小時
71
1701
80.5-90.5小時
50
1751
90.5-100.5小時
35
1786
1786
©Ming-chi Chen
社會統計
步驟三:將組界調整
成為不間斷
步驟四:套入公式求
組中位數:
Median = 40.5+
(1786/2 – 291) * (50.540.5)/1001 = 46.51
Page.50
中位數的特性
• 各觀察值與中位數差異的絕對值總和為最小。
令α為任意數,則:
n
x M
i 1
i
n
d
  xi  
i 1
別忘了:
n
n
i 1
i 1
2
2
(
x

x
)

(
x


)
其中為任意數
 i e  i
©Ming-chi Chen
社會統計
Page.51
眾數Mode
• 未分組或列舉式資料:找出出現最多次數的
觀察值,即為眾數Mo。
©Ming-chi Chen
社會統計
Page.52
分組資料求眾數Mode
• 先再次數表中找出次數最多的那一組,稱為
「眾數組」。
• 若取眾數組的組中點為眾數,則稱為「粗眾
數」
©Ming-chi Chen
社會統計
Page.53
分組資料求眾數Mode- King插補法
• King差補法
f 1
Mo  B 
C
f 1  f 1
500
430
400
330
300
f-1
200
100
眾
數
組
341
f+1
239
163
88
0
1萬元以下
©Ming-chi Chen
1-2萬元
Mo
B2-3萬元
3-4萬元
社會統計
4-5萬元
5-6萬元
Page.54
分組資料求眾數Mode- King插補法
• King差補法
f 1
Mo  B 
C
組
f

f

1

1
眾
組
數
組
©Ming-chi Chen
下
界
社會統計
距
前
一
組
次
數
後
一
組
次
數
Page.55
分組資料求眾數Mode- King插補法
25
23
23
21
19
17
17
15
13
13
11
10
14
眾
數
組
當f-1>f+1時,
眾數較靠近
「組中點」
的左方
14
f-1
12
f+1
11
9
7
5
©Ming-chi Chen
社會統計
Page.56
分組資料求眾數Mode- King插補法
25
當f-1<f+1時,
眾數較靠近
「組中點」的
右方
23
23
21
18
19
17
15
12
13
11
10
9
13
14
12
f-1
11
f+1
7
5
©Ming-chi Chen
社會統計
Page.57
分組資料求眾數Mode- Czuber插補法
1
Mo  B 
C
1   2
1  f  f 1
 2  f  f 1
f為眾數組的次數
f 1為前一組的次數
f 1為後一組的次數
C為組距
©Ming-chi Chen
社會統計
Page.58
分組資料求眾數Mode- Czuber插補法
1
Mo  B 
C
1   2
25
23
23
2  f  f 1
21
19
17
1  f  f 1
15
12
13
11
10
13
14
12
f
f 1
9
18
11
f 1
7
5
©Ming-chi Chen
社會統計
Page.59
分組資料求眾數Mode- Pearson 經驗法
• Pearson發現在單峰微偏的次數分配中,平均數至眾
數的距離,為平均數至中位數距離的三倍。
X  Mo  3( X  Md )
 Mo  X  3( X  Md )
Mo M d X
©Ming-chi Chen
社會統計
Page.60
例題:用三種方法求眾數
請問你每星期大約工作幾小時?
f
F累積次數
0.5-10.5小時
27
27
10.5-20.5小時
35
62
20.5-30.5小時
57
119
30.5-40.5小時
172
291
40.5-50.5小時
1001
1292
50.5-60.5小時
251
1543
60.5-70.5小時
87
1630
70.5-80.5小時
71
1701
80.5-90.5小時
50
1751
90.5-100.5小時
35
1786
1786
©Ming-chi Chen
社會統計
• 粗眾數 = 45.5
• King’s Mo = 40.5
+251/(172+251) ×10
= 46.43
• Czuber: 40.5 +
(1001-172)
×10/[(1001172)+(1001-251)]=
45.75
• Pearson:
Mo=48.38 –3(48.3846.51) = 42.77 Page.61
中央趨勢統計測量數之比較
統計測量數
優 點
缺 點
算算術平均數 1.資料的重心。資料無極端值或 1.若有極端值存在時則不具代表性
偏態時,具代表性。
中位數
眾數
2.適合代數演算
2.資料如為偏態,則代表性較差。
3.考慮所有觀察值,敏感度高。
4.觀察值與平均數差平方和最小
5.適合統計推論的工作
1.適用於有極端值的資料
1.不適合代數演算
2.適用於偏態資料
2.對觀察值敏感性低
3.觀察值與中位數絕對差和最小 3.不易進行母數統計推論
4.可做無母數統計推論
1.適用於有極端值的資料
1.可能不止一個或不存在
2.適用於偏態資料
2.敏感性低
3.適用於質的資料
3.不能做統計推論
©Ming-chi Chen
社會統計
Page.62
分配的形狀
• 次數分配圖是否對稱?
• 如非對稱則為偏態
• 如果分配的右尾很長超過左尾時,稱為右偏
©Ming-chi Chen
社會統計
Page.63
Common Shapes of Distributions
• When a distribution is unimodal(單峰) and symmetric(對
稱) like the bell-shaped normal distribution, the mean
median, and the mode all coincide.
單峰對稱:
相
對
次
數
Mean = Median =Mode
Mean
Median
Mode
©Ming-chi Chen
社會統計
Page.64
Common Shapes of Distributions
右偏分配(skewed to
the right):
相
對
次
數
Mean > Median >Mode
Mode
Mean
Median
©Ming-chi Chen
社會統計
Page.65
Common Shapes of Distributions
左偏分配(skewed to
the left):
相
對
次
數
Mean < Median <Mode
Mode
Median
Mean
©Ming-chi Chen
社會統計
Page.66
分位數
• 中位數又稱為二分位數,即將數字資料由小
至大排序後,切成二部分。大於及小於中位
數者剛好各佔所有數字資料的一半。
• 除了將資料作半切割外,我們也可以將資料
切成四等分、十等分、或一百等分。
• 四分位數(Quartiles): Q1, Q2, Q3, Q4,
• 十分位數(Deciles): D1, D2, D3, … D10
• 百分位數(Percentiles): P1, P2, P3, … P100
©Ming-chi Chen
社會統計
Page.67
百分位數
Q1 = P25
Q3 =P75
Me = Q2=D5 =P50
©Ming-chi Chen
社會統計
Page.68
百分位數
X1 X2 X3
Xp
p%
Xn
(1-p)%
• Xp為第p個百分位數,則「小於XP的觀察值佔
所有觀察值的p%」。
• 基測的PR值
©Ming-chi Chen
社會統計
Page.69
未分組資料求百分位數
X1 X2 X3
Xp
Xn
• 先將資料由小之大排序。
• 以p為所求之百分位,n為樣本數,計算出百分位數
的位置i。 i = (p × n)/100
• 如果i是一個整數,第p個百分位數是i和(i + 1)的數
值的平均。
• 如果i不是一個整數,第p個百分位數是(i + 1)的數值。
©Ming-chi Chen
社會統計
Page.70
未分組資料求百分位數
X1
1
i
X2 X3
Xp
p
100
整數,則p分位數=
第i與第(i+1)個觀
察值的平均值
非整數,則p分位數=
i下一個觀察值
©Ming-chi Chen
社會統計
Xn
p
i

100 n
在一百個中間
的第p個,相當
於在n中間的第
幾個?
Page.71
例題:求下列數列的70th 80th percentiles
• 18 14 45 32 65 43 25 41 83 51 26 36 40 55
20
• 重組:
• 14 18 20 25 26 32 36 40 41 43 45 51 55 65
83
• i =(70 ×15)/100 = 10.5 (not an integer非整數)
• 第11個觀察值為70th percentile (70分位數)
©Ming-chi Chen
社會統計
Page.72
例題:求下列數列的70th 80th percentiles
• 14 18 20 25 26 32 36 40 41 43 45 51 55 65
83
• i =(80 ×15)/100 = 12 (an integer)
• 第12個觀察值為51,第13th觀察值為55
• 所以80 分位數 = (51+55)/2=53
©Ming-chi Chen
社會統計
Page.73
分組資料求百分位數
• 有些統計學家認為分組資料應該用
interpolating內插法的方法來求 p 分位數:
pn
C
B(
 Fi 1 ) 
100
f
B=組下界
Fi-1=小於該組的各組次數和
f = 該組次數
C = 組距
©Ming-chi Chen
社會統計
Page.74
四分位數(Quartiles)
• Q1 :25百分位數(25th percentile)又稱之為下四
分位(lower quartile)或第一個四分位數(first
quartile),25%的觀察值在此數之下,75%的
觀察值在此數之上。
• Q3 : 75百分位數(75th percentile)又稱之為上
四分位(upper quartile)或第三個四分位數
(third quartile),75%的觀察值在此數之下,
25%的觀察值在此數之上。
©Ming-chi Chen
社會統計
Page.75
Measures of Dispersion
分散量數、離差量數、差異量數
• 測量群體中各個觀察值之差異或離中程度的表徵數,
即為離差量數。
• 離差小,表示各數值間的差異小,平均數較能代表
群體中的各個數值,離差大,表各數值之間的變動
很大,較為分散。
• EX) In many financial problems, risk is measured
by the amount of variability in the potential returns
from an investment
©Ming-chi Chen
社會統計
Page.76
Range全距
• The range of a set of observations is the difference
between the largest value and the smallest value.
• 未分組資料 R = Xmax – Xmin(最大觀察值-最小值)
• 分組資料 R = Umax – Lmin(最大組之上界 –最小組
之下界)
©Ming-chi Chen
社會統計
Page.77
Interquartile Range四分位距
•
•
•
•
•
IQR = Q3 – Q1
Semi-interquartile Range四分位差
QD = (Q3 – Q1) /2 ,即IQR的一半為四分位差。
Q3 - Md = Md – Q1
QD = Q3 - Md=Md - Q1
Q1
Md
Q3
IQR
©Ming-chi Chen
社會統計
Page.78
Deviation from the mean平均差
( x  u) or ( x  x )
• 各個觀察值與平均數之間的距離為衡量此組
資料分散程度的良好指標,但如果將所有平
均差加總,則:

n
(
x

x
)

0
i
i 1
©Ming-chi Chen
社會統計
Page.79
Mean Absolute Deviation
平均絕對差
• The mean absolute deviation (M.A.D.) is
calculated using the following formula:
x1  x  x2  x    xn  x
M . A.D. 
n
xi  x


n
©Ming-chi Chen
社會統計
Page.80
Mean Absolute Deviation
平均絕對差
• 分組資料算M.A.D.:
f m x

M . A.D. 
i
i
n
mi為組中點,fi為組次數
©Ming-chi Chen
社會統計
Page.81
Population Variance σ2
Population Standard Deviation σ
• 母體變異數與母體標準差
 
2

2
(
x


)
 i
N
(x
©Ming-chi Chen
i
 )
2
N
社會統計
Page.82
Sample Variance s2
Sample Standard Deviation s
• 樣本變異數與標準差
s
2
x
(x  x)


2
i
n 1
Degree of freedom
©Ming-chi Chen
社會統計
Page.83
Sample Variance s2
Sample Standard Deviation s
• 樣本變異數與標準差
sx2 
 ( xi  x )
2
n 1
2
2
(
x

2
x
x

x
)
 i i
  xi2  2x  xi   x 2
  xi2  2x  nx  nx 2
s 
2
x
2
2
x

n

x
i
  xi2 nx 2
i
n 1
©Ming-chi Chen
x

x
n
社會統計
 n  x   xi
Page.84
例題:求下列數列的標準差
• 樣本變異數與標準差
Xi
3
4
5
6
6
7
7
4
3
©Ming-chi Chen
s
2
x
(x  x)


i
n 1
s 
2
x
2
2
2
x

n

x
i
社會統計
n 1
Page.85
例題:求下列數列的標準差
Xi
3
4
5
6
6
7
7
4
3
5
Xi - mean
(3-5)= -2
(4-5)= -1
(5-5)= 0
(6-5)= 1
(6-5)= 1
(7-5)= 2
(7-5)= 2
(4-5)= -1
(3-5)= -2
©Ming-chi Chen
• 步驟一:
• 修求平均數 x
• 步驟二:計算 x  x
平均數
社會統計
Page.86
例題:求下列數列的標準差
Xi
3
4
5
6
6
7
7
4
3
5
2
Xi - mean
(3-5)=
(4-5)=
(5-5)=
(6-5)=
(6-5)=
(7-5)=
(7-5)=
(4-5)=
(3-5)=
©Ming-chi Chen
-2
-1
0
1
1
2
2
-1
-2
(Xi-mean)
4
1
0
1
1
4
4
1
4
20
• 步驟三:
• 計算
(x 

s
2
x
(x  x)


x)
2
2
i
n 1
= 20/(9-1) = 2.5
s  2.5  1.5811
社會統計
Page.87
另解:求下列數列的標準差
Xi
3
4
5
6
6
7
7
4
3
x 5
©Ming-chi Chen
Xi2
9
16
25
36
36
49
49
16
9
245
x
2
i
 245
n  x  9  5  225
2
x
2
2
i
 n  x  245 225  20
2
20 /(9  1)  2.5  s 2
社會統計
Page.88
分組資料求變異數及標準差
2
x
f (m  x )


2
x
fm


s
s
i
2
i
n 1
i
©Ming-chi Chen
i
2
n x
n 1
2

f i mi  x    f i mi2  2mi x  x 2

 fm
 fm
i
2
i
i
2
i
2

 2 x  f i mi  nx 2
 2 x nx   nx 2   f i mi2  nx 2
社會統計
Page.89
例題:求下列分組資料之變異數及標準差
請問你每星期大約工作幾小時?
f
0.5-10.5小時
27
10.5-20.5小時
35
20.5-30.5小時
57
30.5-40.5小時
172
40.5-50.5小時 1001
50.5-60.5小時
251
60.5-70.5小時
87
70.5-80.5小時
71
80.5-90.5小時
50
90.5-100.5小時 35
©Ming-chi Chen
社會統計
Page.90
例題:求下列分組資料之變異數及標準差
請問你每星期大約工作幾小時?
f
mi
0.5-10.5小時
27
5.5
10.5-20.5小時
35
15.5
20.5-30.5小時
57
25.5
30.5-40.5小時
172
35.5
40.5-50.5小時
1001
45.5
50.5-60.5小時
251
55.5
60.5-70.5小時
87
65.5
70.5-80.5小時
71
75.5
80.5-90.5小時
50
85.5
90.5-100.5小時
35
95.5
1786
mean = 86403/1786=
©Ming-chi Chen
社會統計
f*mi
148.5
542.5
1453.5
6106
45545.5
13930.5
5698.5
5360.5
4275
3342.5
86403
48.37794
步驟一:先求出
算數平均數
Page.91
例題:求下列分組資料之變異數及標準差
請問你每星期大約工作幾小時?
f
0.5-10.5小時
27
10.5-20.5小時
35
20.5-30.5小時
57
30.5-40.5小時 172
40.5-50.5小時 1001
50.5-60.5小時 251
60.5-70.5小時
87
70.5-80.5小時
71
80.5-90.5小時
50
90.5-100.5小時 35
1786
mean =
©Ming-chi Chen
mi (mi-mean) (mi-mean)2 f*(mi-mean)2
5.5
-42.878 1838.518
49640.0
15.5
-32.878 1080.959
37833.6
25.5
-22.878
523.400
29833.8
35.5
-12.878
165.841
28524.7
45.5
-2.8779
8.283
8290.8
55.5 7.12206
50.724
12731.7
65.5 17.1221
293.165
25505.4
75.5 27.1221
735.606
52228.0
85.5 37.1221 1378.047
68902.4
95.5 47.1221 2220.489
77717.1
391207.39
48.38
14.804175
社會統計
391207
1786 1
Page.92
另解:求下列分組資料之變異數及標準差
請問你每星期大約工作幾小時?
f
0.5-10.5小時
27
10.5-20.5小時
35
20.5-30.5小時
57
30.5-40.5小時 172
40.5-50.5小時 1001
50.5-60.5小時 251
60.5-70.5小時
87
70.5-80.5小時
71
80.5-90.5小時
50
90.5-100.5小時 35
1786
mean =
©Ming-chi Chen
mi
5.5
15.5
25.5
35.5
45.5
55.5
65.5
75.5
85.5
95.5
48.38
2
mi
30.25
240.3
650.3
1260
2070
3080
4290
5700
7310
9120
2
f*mi
816.75
8408.75
37064.25
216763
2072320.25
773142.75
373251.75
404717.75
365512.5
319208.75
4571206.5
4179999.11
14.80418
社會統計
2
f
m

n

x
i i
2
sx2 
sx 
n 1

f i mi  n  x 2
2
n 1
Page.93
變異數與標準差之性質
S2≧0, 只有在所有觀察值皆相同時,等號才會
成立。
yi  xi  a  s  s
2
y
2
x
yi  a  xi  s  a s
2
y
2 2
x
2
x
2
xi
s
2
yi   s y 
a
a
©Ming-chi Chen
社會統計
Page.94
變異數與標準差之性質
• 一群資料分成N1, N2, …Nk等k部分,各
部分的相對平均數及變異數分別為
μ1,σ12, μ2,σ22… μk,σk2
N1
N2
μ1
σ12
…
…
μ2
σ22
Nk
μk
σk2
k
則全體N   N i 之平均數及標準差為:
i 1
©Ming-chi Chen
社會統計
Page.95
變異數與標準差之性質
• 平均數:
N1
μ1
σ12
k
N1u1  N 2u2    N k uk
u

N1  N 2    N k
N2
…
…
μ2
σ22
N u
i i
i 1
N
Nk
μk
σk2
各組平均數的加權平均數
©Ming-chi Chen
社會統計
Page.96
變異數與標準差之性質
• 變異數:
Ni
k
2 
 ( x
i 1 j 1
k
2 
ij
Ni
2

k
 ( x
i 1 j 1
 ( x
k
N
Ni
ij
i 1 j 1
該組平均數與整體
平均數之差
 ui )  (ui  u )
2
N
Ni
k
Ni
2
2

u
)

(
u

u
)
 2 ( xij  ui )(ui  u )

ij
i
i
i 1 j 1
觀察值與
平均數之
差為零
i 1 j 1
N
k

 u)
觀察值與該組
平均數之差
k
 N    N (u
i 1
i
2
i
i 1
i
i
Ni
k
 u)
2

2
2
N
[


(
u

u
)
]
 i i i
i 1
j 1
ij
 ui )2
Ni
N
N
©Ming-chi Chen
i2 
( x
社會統計
Page.97
變異數與標準差之性質
•例題:已知人社系全體同學有以下的統計量:
•男生40人,學期平均成績83分,標準差4分
•女生200人,平均成績85分,標準差5分
•請問全班的平均成績為何?標準差為何?
©Ming-chi Chen
社會統計
Page.98
變異數與標準差之性質
•N男=40人,μ男=83分, σ男=4分
•N女=200人,μ女=85分, σ女=5分
• 全班平均分數:
k
u
N u
i i
i 1
N
N 男男  N 女女

N
40  83  200  85

 84.67
240
©Ming-chi Chen
社會統計
Page.99
變異數與標準差之性質
•N男=40人,μ男=83分, σ男=4分
•N女=200人,μ女=85分, σ女=5分
• 全班分數標準差:
k

2
2
N
[


(
u

u
)
]
 i i i
i 1
N
40[42  (83  84.67)2 ]  200[52  (85  84.67)2 ]

40  200
©Ming-chi Chen
社會統計
Page.100
Chebyshëv’s Theorem
徹比雪夫定理
• Let c be any number greater than 1. For
any sample or population of data, the
proportion of observations that lie fewer
than c standard deviations from the
mean is at least (1 - 1 /c2).
• 令 c為任意大於1的常數,若一母體(或樣
本)的平均數及標準差分別為μ及σ,則
介於(μ-cσ, μ+cσ)內之觀察值至少為(1
- 1 /c2)。
©Ming-chi Chen
社會統計
Page.101
Chebyshëv’s Theorem
徹比雪夫定理
介於兩紅線之間
的觀察值至少有
(1-1/c2)
μ-cσ
μ
μ+cσ
當c=2時,至少75% (1-1/4)的觀察值落在平均數左右兩個標準差的
範圍內。
當c=3時,至少89% (1-1/9)的觀察值落在平均數左右三個標準差的
範圍內。
當c=4時,至少93% (1-1/16)的觀察值落在平均數左右四個標準差的
範圍內。
社會統計
©Ming-chi Chen
Page.102
The Empirical Rule
經驗法則
• Chebyshëv’s Theorem是一個較保守的估計,如果
我們知道確切的分佈,則能更精準的估算出落於某
範圍的機率。
• When the distribution of a population or sample of data is
approximately bell shaped,
• approximately 68% of the values will fall within 1 standard
deviation of the mean,
• approximately 95% of the values will fall within 2 standard
deviations of the mean, and
• approximately 99.7% of the values will fall within 3 standard
deviations of the mean.
©Ming-chi Chen
社會統計
Page.103
The Empirical Rule
經驗法則
• 若資料呈現鐘形分配,則:
(  ,   )約佔68%
(  2,   2)約佔95%
(  3,   3)約佔99.7%
©Ming-chi Chen
社會統計
Page.104
The Empirical Rule
經驗法則
• 若資料呈現鐘形分配,則:
μ
μ-σ
μ-2σ
μ-3σ
©Ming-chi Chen
68%
μ+σ
95%
99%
社會統計
μ+2σ
μ+3σ
Page.105
The Empirical Rule
經驗法則
• Consider a bell-shaped distribution approximately
______ percentage of the values lies between μ-2σand
μ+σ.
68% ÷2= 34%
95% ÷2= 47.5%
μ
μ-σ
68%
95%
μ-2σ
©Ming-chi Chen
μ+σ
μ+2σ
社會統計
Page.106
Standardized Score
標準化分數
• 有時候我們會想要知道一個觀察值在整組資
料中的相對位置。
• 某位同學在班上的成績為85分,這個分數本
身所傳遞的訊息很有限,我們通常想要進一
步知道85分究竟是高還是低?也就是說,我
們想知道這個分數離一般平均數多遠?
©Ming-chi Chen
社會統計
Page.107
Standardized Score
標準化分數
• 標準化分數(standardized score)可以告訴我
們觀察值在所有資料中的位置,又稱之為Z
score,表示該觀察值與平均數之間,間隔多
少個標準差。
xu
z

xx
z
s
©Ming-chi Chen
X與平均數之間
的實際距離
以標準差來表達
社會統計
Page.108
例題
• 如果全班同學的統計學平均分數為85分,標
準差為5分,請將將下列三位同學的分數改成
標準化分數:
• 80, 70, 90
80  85
z1 
 1
5
70  85
z2 
 3
5
90  85
z3 
1
5
©Ming-chi Chen
社會統計
Page.109
例題
•
•
•
•
如果根據經驗法則來看,
分數低於80分的同學佔全班的______%?
有多少___%的同學分數低於70?
高於90分的同學佔______%?
85
70
©Ming-chi Chen
社會統計
80
90
Page.110
Detecting Outliers
用標準化分數找出偏離值
• An outlier is an observation that falls far out in the
tail of a distribution.
• Sometimes an outlier can be an indication of a
faulty or incorrectly recorded observation.
• A Z score can be helpful in detecting an outlier. If
the data are approximately normally distributed,
then fewer than .3% of the observations have Z
scores less than-3 or greater than + 3.
©Ming-chi Chen
社會統計
Page.111
Coefficient of Variation
變異係數
• The coefficient of variation, also called the relative
standard deviation, expresses the standard
deviation as a percentage of the mean.
s
CV   100 %
x
The CV allows us to consider the dispersion as a
proportion of the mean, that is, the dispersion in
proportion to the average magnitude of the data.
©Ming-chi Chen
社會統計
Page.112
Coefficient of Variation
變異係數
• A股票過去一年的平均價格為$100,標準差為
$5。
• B股票過去一年的平均價格為$50,標準差為
$4。
• 請問哪一支股票的價格波動較厲害?
• A股票的CV = 5/100 =5%
• B股票的CV=4/50 = 8%
©Ming-chi Chen
社會統計
Page.113
Box Plot(箱型圖)
Max
Q3
Median
IRQ
Q1
Min
©Ming-chi Chen
社會統計
Page.114
Extreme
Outer fence
Box Plot(箱型圖)
Inner fence
Extremes: Cases with
values more than 3
box lengths from the
upper or lower edge of
the box.
Q3
IRQ
Median
Q1
1.5 IRQ
3 IRQ
Inner fence
Outliers
©Ming-chi Chen
Outer fence社會統計
Cases with values
between 1.5 and 3
box lengths from the
upper or lower edge
of the box. The box
length is the IRQ.
Page.115
外籬
內籬
中位數
內籬
外籬
24,050
Q1
19,600
Q3
21,625
27,025
29,050
28,250
*
IQR
15
. ( IQR )
1.5( IQR )
3( IQR )
3( IQR )
19,000
©Ming-chi Chen
21,000
23,000
社會統計
25,000
27,000
29,000
Page.116
男女生平均工時的敘述性統計
Statistics
V46
N
Valid
Missing
Mean
Median
Mode
Std. Deviation
Variance
Range
Minimum
Maximum
Percentiles
25
50
75
Statistics
1010
0
49.06
48.00
48
13.12
172.10
83
7
90
44.00
48.00
56.00
V46
N
Mean
Median
Mode
Std. Deviation
Variance
Range
Minimum
Maximum
Percentiles
男性
©Ming-chi Chen
Valid
Missing
25
50
75
741
0
47.92
48.00
48
13.16
173.18
88
2
90
44.00
48.00
50.00
女性
社會統計
Page.117
100
outlier
60
40
20
0
N=
©Ming-chi Chen
©Ê§O
1010
741
¨k
¤k
社會統計
½Ð°Ý±z¥-§¡¨C¬P´Á¤j¬ù¤u§@¦h¤Ö¤p®É
80
extreme
Page.118
描述統計之為用:台灣歷年出生性比
表1-1
我國歷年出生嬰兒性別比例按胎次統計
單位:%
胎次別 (100名女嬰相對男嬰人數)
年別
合計
第一胎
第二胎
第三胎
第四胎
五胎及以上
1987
1988
1989
108.4
108.2
108.6
107.2
107.3
107.0
108.2
106.9
106.9
110.2
111.6
113.3
113.7
111.5
120.6
109.8
118.0
116.3
1990
1991
∫
110.3
110.4
106.8
107.4
108.7
108.5
118.7
118.2
128.5
129.5
126.7
124.4
2000
109.4
106.9
107.7
118.9
135.0
120.2
2001
108.7
106.9
105.8
120.8
135.0
121.2
2002
109.8
106.9
109.1
121.5
138.7
123.0
2003
110.2
107.7
108.9
123.6
139.7
122.2
2004
110.7
108.7
109.4
122.6
134.1
122.8
2005
109.0
107.7
107.1
122.0
124.3
121.9
2006
109.6
107.2
108.2
126.7
136.6
113.3
資料來源:內政部「中華民國人口統計年刊」。
社會統計
©Ming-chi Chen
Page.119
描述統計之為用:台灣歷年出生性比
趨勢圖
歷年嬰兒出生數
出 生 數 (萬 人 )
性比例
(%)
111
45
嬰兒性比例
40
110
35
109
30
108
25
20
107
女嬰出生數
15
106
10
105
男嬰出生數
5
0
104
70
71
72
73
74
©Ming-chi Chen
75
76
77
78
79
80
81
82
83
84
社會統計
85
86
87
88
89
90
91
92
93
94
95年
Page.120
統計之為用:我國人口金字塔
©Ming-chi Chen
社會統計
Page.121
人口金字塔
©Ming-chi Chen
社會統計
Page.122
中國人口金字塔,1990普查
©Ming-chi Chen
社會統計
Page.123
中國人口金字塔的變遷
©Ming-chi Chen
社會統計
Page.124