集中趨勢 Data Organization-Central location 集中趨勢﹙Central location ﹚ • 平均數﹙mean﹚ – – – – • • • • 算數平均值﹙Arithmetic mean﹚ 幾何平均值﹙Geometric mean﹚ 加權平均值﹙Weighted mean﹚ 調和平均值﹙Harmonic mean﹚ 中位數(median) 眾數(mode) 百分位數﹙percentile range﹚ 四分位數.

Download Report

Transcript 集中趨勢 Data Organization-Central location 集中趨勢﹙Central location ﹚ • 平均數﹙mean﹚ – – – – • • • • 算數平均值﹙Arithmetic mean﹚ 幾何平均值﹙Geometric mean﹚ 加權平均值﹙Weighted mean﹚ 調和平均值﹙Harmonic mean﹚ 中位數(median) 眾數(mode) 百分位數﹙percentile range﹚ 四分位數.

集中趨勢
Data Organization-Central
location
1
集中趨勢﹙Central location ﹚
• 平均數﹙mean﹚
–
–
–
–
•
•
•
•
算數平均值﹙Arithmetic mean﹚
幾何平均值﹙Geometric mean﹚
加權平均值﹙Weighted mean﹚
調和平均值﹙Harmonic mean﹚
中位數(median)
眾數(mode)
百分位數﹙percentile range﹚
四分位數
2
算數平均值﹙Arithmetic mean ﹚
• 樣本平均數即是樣本資料的『中心位置』
• 樣本平均值 =(x1+x2+x3+…+xn)/ n = Σxi / n
• 母群體平均值 μ =(x1+x2+x3+…+xn)/ N = Σxi / N
• Example:
– 某班甲、乙兩組學生甲組5人,乙組4人。某次統計學
測驗成績如下,請問兩組成績孰優:
• 甲:89, 72, 55, 68, 78
• 乙:88, 63, 76, 69
3
算數平均值的優缺點
• 優點:
– 1.易被人接受。
– 2.每筆資料都有被計算入。
– 3.可用代數方法運算。
• 缺點:
– 容易受到極端值﹙extreme value﹚的影響。
4
算數平均值的特性
•
•
•
•
•
﹙a﹚當yi = xi + c 則 y  x  c
﹙b﹚yni = c xi 則 y  cx
﹙c﹚  xi  x   0
i 1
﹙d﹚﹙Sum of Square;SS﹚ =  x
﹙e﹚SS x <SSa <  x  x    x  a
2
n
2
n
i 1
i
n
i 1
2
i 1
i
 x
i
5
幾何平均值﹙Geometric mean﹚
– 幾何平均值平通常用於為生物或血清資料。
– 觀測值通常是液體濃度可以轉換的資料。例如一個生
物研究中,稀釋的倍數為2,4,6,8,16倍。
– 通常這樣的分布都是屬於「右偏斜的分布」,因此用
幾何平均數可以做校正。
n
–   1  log
n
i 1
x
i
g  n x1  x2  x3  xn
6
• example:
– 人體血液中抗體滴定濃度為4, 8, 16, 16, 64求
其平均數?
– Ans.
• 算數平均數 = ﹙4+8+16+16+64﹚/5 = 21.6
• 幾何平均數
– μ = ﹙log4 +log8 +log16 +log64﹚/ 5 = 1.412
– 幾何平均數 = antilog﹙1.412﹚= 101.412 = 13.9
7
加權平均數﹙Weighted mean﹚
• x值 =x1,x2,x3,…xn﹙觀測值﹚
• 權數 =w1,w2,w3,…wn
• 加權平均數 = n w  x

i 1
• example:
i
i
n
 wi
i 1
– 某工廠中有A,B,C三個儲藏區,A區面積700平方公尺,利用了21
%;B區面積400平方公尺,利用了33%;C區面積1050平方公尺,
利用了47%,求該工廠儲存空間有效利用率之平均數。(0.3593 )
8
調和平均數﹙Harmonic mean﹚
– 各觀測值倒數之平均值,在統計上較少採用。
9
中位數﹙Median﹚;﹙Me﹚
• 資料經由遞增或遞減的排序後,排位最中
間的值。
– 如果n為奇數
• Me為第﹙n+1﹚/2個觀測值。
– 如果n為偶數
• Me為中間兩個值的平均數。
• Me = 第n/2個 and 第﹙n/2﹚+1個觀測值,兩數的
平均。
10
• example:
– 12個同學的考試成績: 33,30,36,45,34,
28,25,32,29,34,35,31
– Ans:
• Me =(32+33)/ 2 = 32.5
11
n
n
i 1
i 1
• 中位數的特性:  xi  Me   xi  A
• 中位數的優點:
– 1.簡單易了解。
– 2.不易受極端值的影響。
• 中位數的缺點:
– 1.只考慮居中的數值,忽略了其他數值,敏感性較低。
– 2.不適合代數運算。
• example:
– 如下例資料所示, 1,3,5,7,9,2,4,6,8,
100 則中位數為 5.5,但平均數卻變為 14.5,相差很大。
12
眾數﹙Mode﹚;﹙Mo﹚
• 在觀測值中出現次數最多的值。
• 眾數可能不只一個。
• Example:
– 有一組資料10,12,10,10,8,12,12,14。
– Ans
• 出現次數為10—3次;12—3次;8與14各1次,因此眾數為10
與12。
13
• 眾數的優點:
– 1.簡單易了解。
– 2.不易受極端值的影響。
• 眾數的缺點:
– 1.與中位數類似,僅考慮幾個數值,故不適合
代數運算。
– 2.資料中的數值若皆只出現一次,則眾數不存
在。若有兩個以上的眾數,則較難取捨。
14
百分位數﹙percentile range﹚
• 第p個樣本百分位數是某
一個數值dp,使得樣本中
有k部分的觀察值小於或等
於dp。
• 將資料按大小順序排列後,
若至少有p%的觀測值位於
某一數值底下,且至少有
﹙1-p﹚%的觀測值位於該
值以上,則該數值稱為該
組資料的第p的百分為數
﹙p-th percentile﹚。
25%
25%
Q1
25%
Q2
25%
Q3
15
求第p 個百分位數的程序
• 1. 將資料由小到大排序。
2. 計算百分為數所在位置的指標,設為
i
k
n
100
。
• 指標位置i=ni=觀測值個數
– 假如 i 不為整數,則取下一個比i 還要大的值,即為第
p個百分位數。
– 假如 i 為整數,則第p 個百分位數為第 i 和i+1的平均。
16
四分位數(quartile)
• 第50個百分位數 = 中位數
– 四分位數:
當將資料區分為4個部份,這些區分的點即稱
為四分位數。
• 即為:
第一「四分位數」或第「25個百分位數」
第二「四分位數」或第「50個百分位數」
第三「四分位數」或第「75個百分位數」
17
• example:
– 12個同學的考試成績:
33,30,36,45,34,28,25,32,29,34,35,31
– Ans:
• 第一個四分位數i=(25/100)*12=3﹙整除﹚
• 故取第3和第4位數的平均,即Q1 = 29.5
18
平均數、中位數、眾數相對位置
19