四分位數

Download Report

Transcript 四分位數

第3章
敘述統計II:數值方法
Slide ‹#›
敘述統計II:數值方法
Part A
3.1
 3.2
 3.3

3.4
 3.5
 3.6

位置量數
離散量數
分配的形狀的量數,相對位置,以及離群值
的偵測
探究性資料分析
兩變數的相關性量數
加權平均數與群組資料的處理
Slide ‹#›
3.1
位置量數
平均數
 中位數
 眾數
 百分位數
 四分位數

測量值是由樣本資料計算
而得,則稱之為樣本統計量
(sample statistics)。
若是由整個母體計算而得,
則稱之為母體參數
(population parameters)。
統計推論中,樣本統計量是指
相對應的母體參數的
點估計量(point estimator)。
Slide ‹#›
平均數
一個變數最重要的位置量數或許是平均數 (mean
或 average value)。
 若此資料來自某一母體,則以希臘字母 μ 表示之。
 若此資料來自某一樣本,則樣本平均數記為 x。
 平均數是一種中央位置量數。

Slide ‹#›
樣本平均數 x
x
x
資料集中 n 個觀察值
的總和
i
n
觀察值的樣本數
Slide ‹#›
母體平均數 

x
資料集中 N 個觀察值
的總和
i
N
母體所有元素的個數
Slide ‹#›
平均數實例
假設某大學的就業輔導室寄出一份問卷給被抽中
的商學院畢業生,以調查工作起薪。
 表3.1為所蒐集的資料。

Slide ‹#›
平均數實例

樣本中12個商學院畢業生之平均起薪計算如下。
x

x
n
i
x1  x 2    x12

12
2850  2950    2880

12
35280

 2940
12
Slide ‹#›
中位數
• 中位數(median)是變數的另一種中央位置量數。
• 將資料值由小排到大時,中位數為中間的那一個值。
• 若資料個數為奇數時,中位數即位於中間的數值;
若資料項目為偶數時,就沒有單一的中間項。
• 根據傳統的中位數定義,將中間兩個值之平均數當
作中位數。
Slide ‹#›
中位數

將資料遞增排列(即由小到大排列)
a)
b)
資料值為奇數項時,中位數為此資料之中間值。
資料值為偶數項時,中位數為此資料之中間兩個數值
的平均數。
Slide ‹#›
中位數實例
計算表 3.1 商學院12位畢業生起薪的中位數
 將資料遞增排列後如下

2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
中間兩個值

因為n=12是偶數,故有兩個中間值:2,890和
2,920,中位數為此兩個值之平均。
2890  2920
中位數 
 2905
2
Slide ‹#›
眾數
• 眾數(mode)眾數是資料集中出現次數最多的資料
值。
• 當資料集中出現次數最多的值有兩個或以上時,
眾數就不只一個。
• 若資料集恰有兩個眾數,則稱此資料為雙峰
(bimodal)。
• 若出現兩個以上的眾數時,則稱為多峰
(multimodal)。
Slide ‹#›
眾數實例

表2.2的清涼飲料購買狀況調查整理成如下的次數
分配。

眾數,即最常購買的清涼飲料,是Coke Classic 。
第3章敘述統計II:數值方法 Part A 第81-82頁
Slide ‹#›
百分位數
• 百分位數(percentile)也是一種位置量數,有助於
瞭解資料在最小值與最大值間的分布情況。
• 針對那些沒有太多重複的資料集而言,p-百分位
數可將資料分割成兩部分,大約p-百分比的觀察
值會小於p-百分位數;而大約有(100-p)百分比
的觀察值會大於p-百分位數。
第3章敘述統計II:數值方法 第82頁
Slide ‹#›
百分位數

p-百分位數表示至少有 p-百分比 (百分之 p) 的觀
察值小於或等於它,而至少有 (100-p) 百分比的
觀察值大於或等於它。
Slide ‹#›
百分位數
將資料遞增排列,即由小到大排序。
計算指標 i
i = (p/100)n
p為百分位,n為觀察值的個數。
若 i 不是整數,無條件進位後的整數即 p-百分位數
的位置。
若 i 是整數,則p-百分位數為資料排序後的第 i 個與
第 i+1 個觀察值之平均數。
Slide ‹#›
百分位數實例

求表3.1起薪資料的85-百分位數。
 步驟 1. 將資料集的所有資料由小到大排序。
2710 2755 2850 2880 2880 2890 2920 2940 2950
3050 3130 3325
 步驟 2.
 P 
 85 
i
n  
12  10.2
 100 
 100 

步驟3. 因為 i 不為整數,無條件進位為11,即
85-百分位數的位置指標。因此,85百分位數排
在第11位。
Slide ‹#›
百分位數實例

再看看50-百分位數的計算過程,由步驟2得知
P 
50 


i
n  
12  6
 100 
 100 
因為 i 是整數,步驟3(b)指出50-百分位數為排序
資料的第6個與第7個數值的平均數;因此,50-百
分位數為(2890+2920)/2=2905 。要注意的是,
此處的50-百分位數也是中位數。
第3章敘述統計II:數值方法 第83頁
Slide ‹#›
四分位數
• 四分位數(quartiles)是百分位數的特例。
• Q1 = 第一四分位數或25-百分位數
• Q2 = 第二四分位數或50-百分位數(即中位數)
• Q3 = 第三四分位數或75-百分位數
第3章敘述統計II:數值方法 第83頁
Slide ‹#›
四分位數
第3章敘述統計II:數值方法 第83頁 圖3.1
Slide ‹#›
四分位數實例
將起薪資料再次重新由小到大排序後,第二四分
位數(即中位數)為2905。
2710 2755 2850 2880 2880 2890 2920 2940
2950 3050 3130 3325
 我們需利用找出25與75-百分位數的規則來得到第
一四分位數Q1與第三四分位數Q3,計算如下。

第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁
Slide ‹#›
四分位數實例

對Q1而言:
P 
25 


i
n  
12  3
 100 
 100 
因為 i 是整數,步驟3(b)指出第一四分位數,或
25-百分位數,為第3個與第4個資料之平均數。因
此,Q1 =(2850+2880)/2=2865。
Slide ‹#›
四分位數實例

對Q3而言:
P 
75 


i
n  
12  9
 100 
 100 
因為 i 為整數,步驟3(b)指出第三四分位數,或
75-百分位數,為第9個與第10個資料之平均數,
因此, Q3 =(2950+3050)/2=3000。
第3章敘述統計II:數值方法 Part A (3.1~3.2) 第84頁
Slide ‹#›
四分位數實例

四分位數將 12 個資料分成四部分,而每一部分均
包含 25% 的觀察值。

我們定義了25-百分位數、50-百分位數、75-百分
位數等三個四分位數後,便可利用計算百分位數
的規則求出四分位數。
第3章敘述統計II:數值方法 第84頁
Slide ‹#›
3.2 離散量數
• 除了位置量數外,我們還常希望能知道離散量數
或變異量數。
• 例如,選擇兩家不同的供應商訂貨,不僅要考慮
其平均運送時間,還要考慮其運送時間的變異性。
第3章敘述統計II:數值方法 第88頁
Slide ‹#›
3.2 離散量數
全距
 四分位數距
 變異數
 標準差
 變異係數

第3章敘述統計II:數值方法 第88-91頁
Slide ‹#›
全距
• 最簡單的離散量數就是全距(range)。
• 全距 = 最大值 - 最小值
• 全距僅用到資料中的兩個值,因此深受極端值
的影響。
第3章敘述統計II:數值方法 第88-89頁
Slide ‹#›
全距實例
參考表 3.1 商學院畢業生的起薪資料,最大值是
3,325,最小值是 2,710,全距就是3325-2710=
615。
 假設有一位畢業生的每月起薪是 $10,000,此例中
的全距變為 10000-2710=7290 而不是 615,這
個值並不是非常適合描述資料集的變動性,因為
12 個資料中的 11 個資料均是在 2,710 與 3,130 之
間。

第3章敘述統計II:數值方法 第89頁
Slide ‹#›
四分位數距
• 四分位數距(inter-quartile range, IQR) 這個離散量
數是第三四分位數 Q3 與第一四分位數 Q1 的差。
• IQR= Q3- Q1
• IQR為中間50% 資料的全距。
• 能克服極端資料值的離散量數。
第3章敘述統計II:數值方法 第89頁
Slide ‹#›
四分位數距實例

參考表3.1商學院畢業生的起薪資料,對每月起薪
資料而言,第三四分位數與第一四分位數分別為
Q3=3000 與 Q1=2865,因此,IQR 為 3000-
2865=135。
第3章敘述統計II:數值方法 第89頁
Slide ‹#›
變異數
變異數(variance)是利用到全部資料的離散量數。
變異數是根據每一個觀察值( xi )與平均數之差而
求得。每一個觀察值 xi 與平均數( x 為樣本平均
數,μ為母體平均數)之差稱為離差(deviation
about the mean)。
第3章敘述統計II:數值方法 第89頁
Slide ‹#›
變異數
當樣本平均數的差距平方和除以n-1,而非n
時,此樣本變異數為母體變異數的不偏估計量
變異數之定義如下:
2  ( xi  x )
s 
n 1
2
樣本變異數

2
 (x

i
 )2
N
母體變異數
第3章敘述統計II:數值方法 第89-90頁
Slide ‹#›
變異數實例

利用3.1節中5個大學班級人數的樣本為例。


46 54 42 46 32
資料的彙總在表3.3,包括離差及離差的平方。離
差平方的總和為 Σ( xi - x)2 =256。因此,在n-1
=4時,樣本變異數為
s
2

2
(
x

x
)
 i
n1
256

 64
4
第3章敘述統計II:數值方法 第90頁
Slide ‹#›
變異數實例
第3章敘述統計II:數值方法 第90頁 表3.3
Slide ‹#›
變異數實例
表3.1的起薪資料為例,說明樣本變異數的計算,
在3.1節中,我們算出樣本平均起薪值為2,940。樣
本變異數(s2=27,440.91)的結果列於表3.4。
 表3.3與3.4中值得注意的是,我們算出離差與離差
平方的總和。對於任何資料集,離差的總和必為0。
因此,如同表3.3與表3.4顯示 Σ( xi - ) =0,這是
x
恆成立的,因為正的離差與負的離差會相互抵消,
而使得離差的總和為0。

第3章敘述統計II:數值方法 第90頁
Slide ‹#›
表3.4 起薪資料樣本變異數的計算
第3章敘述統計II:數值方法 第91頁 表3.4
Slide ‹#›
標準差
標準差(standard deviation)的定義是變異數的
正平方根。
標準差比變異數容易解釋,因為標準差的衡量
單位與資料相同。
第3章敘述統計II:數值方法 第91頁
Slide ‹#›
標準差
由變異數得到標準差的方法如下。
s s
2
樣本標準差
  2
母體標準差
第3章敘述統計II:數值方法 第91頁
Slide ‹#›
標準差實例

以表3.1的起薪資料為例,樣本標準差為
s=
27440.91 =165.65。
第3章敘述統計II:數值方法 第91頁
Slide ‹#›
變異係數
變異係數是變異性的相對衡量,它衡量標準差
相對於平均值的大小。
變異係數計算如下:
 標準差

 100 %

 平均數

第3章敘述統計II:數值方法 第91-92頁
Slide ‹#›
變異係數實例

CV是量測相對(於期望值)分散程度的量數,表示標準差佔
期望值的百分比,通常小於1
例:(起薪的資料)樣本平均數 2940 與樣本標準差 165.65,

變異係數為

165.65
CV 
100(%)  5.6%
2,940
表示薪資的分散程度約為期望值的5.6%

一般而言,欲比較具有不同的標準差與平均數的資料之離
散程度時,變異係數是一個有用的統計量。
第3章敘述統計II:數值方法 第92頁
Slide ‹#›
生活中的實例


設甲、乙兩班某次數學考試成績,甲班樣本平均
數為60分,樣本標準差為18分,乙班樣本平均數
為65分,樣本標準差為13分。則

甲班成績之變異係數為

乙班成績之變異係數為
所以乙班變異係數較小。
Slide ‹#›
3.3 分配的形狀的量數,相對位
置,以及離群值的偵測
分配的形狀
 z 分數
 柴比雪夫定理
 經驗法則
 離群值的偵測

第3章敘述統計II:數值方法 第95-98頁
Slide ‹#›
分配的形狀:偏度(skewness)
• 一分配形狀的重要數值衡量則是偏度(skewness)。
• 計算偏度的公式有些複雜。
• 衡量樣本的偏度公式是:
xi  x 
n

偏度 



(n  1)(n  2)  s 
3
• 但是若以統計軟體來計算,則是輕而易舉。
第3章敘述統計II:數值方法 第95頁
Slide ‹#›
分配的形狀:偏度(skewness)

對稱 (不偏)


偏度為 0 。
對稱分配的平均數及中位數是相等的。
第3章敘述統計II:數值方法 第95-96頁 圖3.3
Slide ‹#›
分配的形狀:偏度(skewness)

適度左偏


偏度為負值。
平均數常小於中位數。
第3章敘述統計II:數值方法 第95-96頁 圖3.3
Slide ‹#›
分配的形狀:偏度(skewness)

適度右偏


偏度是正值。
平均數通常大於中位數。
Slide ‹#›
分配的形狀:偏度(skewness)

高度右偏


偏度是正值。 (通常大於1.0)
平均數通常大於中位數。
Slide ‹#›
z 分數
z分數是每一個分數與平均數之差除以標準差,
可用來表示某一分數與平均數之距離為幾個標準差
z 分數通常稱為標準化值(standardized value)。
每個 xi 會有一個稱之為 z 分數(z -score)的數值
與之對應。
xi  x
zi 
s
Slide ‹#›
z 分數
• 可表示該數值於分布中的相對位置。
• 轉換過程稱為Z轉換(Z-transformation)或標準化(standardization)。
• 資料集小於樣本平均數則 z 分數小於 0。
• 資料集大於樣本平均數則 z 分數大於 0。
• 資料集等於樣本平均數則 z 分數等於 0。
Slide ‹#›
z 分數實例

表 3.5 是班級人數資料的 z 分數,之前算出平均數
為 x =44,樣本標準差為 s=8。第 5 個觀察值的
z 分數為 -1.50,是離平均數最遠的資料值,比平
均數小 1.50個標準差。
Slide ‹#›
柴比雪夫定理
在資料集內,至少有 (1-1/k2) 百分比的觀察值
與平均數的差距必須在 k 個標準差之內,k 為任
何大於 1 之值。
Slide ‹#›
柴比雪夫Chebyshev定理

在任何的資料分配中,觀測值落於平均數左右k個
標準差的區間內之比例,至少為
1 

1  k 2 


至少(1 
x  ks
x
1
k
2
)
x  ks
Slide ‹#›
柴比雪夫定理
各種不同k值之Chebyshev定理的應用
k
區間
落於該區間內觀測值的比例
1
( x  s, x  s )
至少為0(至少0%)
2
( x  2 s, x  2 s )
2.5
( x  2.5s, x  2.5s)
3
( x  3 s, x  3 s )
3
至少為 (至少75%)
4
21
至少為 (至少84%)
25
8
至少為 (至少89%)
9
Slide ‹#›
經驗法則
針對鐘形分配的資料集而言:
大約 68.26% 的觀察值與平均數的差距在一個標準差內。
大約 86.64% 的觀察值與平均數的差距在1.5個標準差內。
大約 95.44% 的觀察值與平均數的差距在二個標準差內。
大約 98.76% 的觀察值與平均數的差距在2.5個標準差內。
大約 99.72%(幾乎所有的觀察值)
與平均數的差距在三個標準差內。
Slide ‹#›
經驗法則
99.72%
95.44%
68.26%
m – 3s
m – 1s
m – 2s
m
x
m + 3s
m + 1s
m + 2s
Slide ‹#›
柴比雪夫定理實例
若某學院商用統計課程有 100 位學生修課,期中
考成績之平均數為 70,標準差為 5。有多少學生
的分數介於 60 與 80 之間?又有多少學生的分數
介於 58 與 82 之間?
(1) 我們注意到 60 的值是小於平均數 2 個標準差,
而80 則是大於平均數 2 個標準差。利用柴比雪夫
定理,我們可看出至少 0.75 或至少75% 的觀察值
與平均數的差距必須在兩個標準差之內。因此,
100 個學生至少有75 人分數介於 60 與 80 之間。

Slide ‹#›
柴比雪夫定理實例
(2) 而分數介於 58 與 82 的人數又是多少?我們可看
出 (58-70)/5=-2.4,表示58 是小於平均數 2.4
個標準差;而 (82-70)/5=+2.4,表示 82 大於平
均數 2.4 個標準差。利用柴比雪夫定理 z=2.4,我
們可得到
至少有82.6%的學生的分數必須介於58與82。
Slide ‹#›
假定從一批產品隨機抽出20個量測其長度(公分),記錄如下:
1.8,1.9,2.0,2.1,2.3,2.4,2.5,2.5,2.5,2.7,2.8,2.9,3.0,3.2,3.2,3.3,
3.7,3.8 試利用Chebyshev定理求出,有多少比例的觀測值
落於(1.495,3.835)的區間內。
利用Chebyshev定理
至少有75%落於(1.495,3.835)區間
即至少75%  20  15個
先求mean & std
利用經驗法則
再求 k 代入Chebyshev定理
有95%落於(1.495,3.835)區間
即95%  20  19個
x  ks
x
x  ks
1.495
2.665
3.835
1.495  2.665 k  0.585
3.835  2.665 k  0.585
k 2
1
1
1

1

 75%
k2
22
實際上則有20個觀測值
落於此區間
利用經驗法則
有 68% 落於( 2.08,3.25)區間
即68%  20  13.6  13個
實際上則有13個觀測值
當資料分配愈近似對稱分配,則經驗法則更精確。
Slide ‹#›
隨堂練習

某學期統計學期末成績,陳老師打算當掉6%的
修課學生,若期末成績的全班平均分數為52分,
標準差6分,且呈鐘形分配。
(1)試依Chebyshev定理,計算及格分數。
(2)試依經驗法則,計算及格分數。
(3)哪一方法較適合?
Slide ‹#›
Chebyshev定理
1
1  2  0.88
k
1
 0.12
2
k
2
k  8.33
k  2.89
pass score  52  2.89  6  34.66
Slide ‹#›
經驗法則
內插法
x  1.5
0.88  0.8664

2  1.5 0.9544 0.8664
k  1.5
kx
k2
0.8664
0.88
0.9544
pass
score  52  (1.5772)  6  42.54
x  1.5772
Slide ‹#›
3.4 探究性資料分析
五數彙總
 箱形圖

Slide ‹#›
五數彙總(five-number summary)
1
最小值
2
第一四分位數 (Q1)
3
中位數 (Q2)
4
第三四分位數 (Q3)
5
最大值
Slide ‹#›
五數彙總(five-number summary)實例

表 3.1 中 12 位商業學校畢業生的薪資若以遞增順
序排列的話可以得到下列資料。
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
Q1=2865
Q2=2905
Q3=3000
(中位數)

由3.1節已知中位數為2905,Q1=2865且Q3=3000。
再回顧此資料集之最小值為2710,而最大值為
3325。因此,此資料集之五數彙總為2710, 2865,
2905, 3000, 3325。大約有1/4或25% 的資料值會介
於這五數的兩兩間隔之間。
第3章敘述統計II:數值方法 第102頁
Slide ‹#›
箱形圖
• 箱形圖(box plot)是根據五數彙總而繪製的圖形。
• 繪製箱形圖的關鍵在中位數與四分位數(Q1與Q3),
也用到四分位數距 IQR=Q3-Q1。
• 箱形圖是另一種辨別離群值的方法。但是這種
方法不見得會與用 z 分數找出的離群值相同。
運用兩種方法或只用任一種方法皆可行。
Slide ‹#›
箱形圖

圖3.5為月薪資料的箱形圖以及上、下界線。
第3章敘述統計II:數值方法 第103頁 圖3.5
Slide ‹#›
箱形圖

繪製箱形圖的步驟如下:
1.
2.
3.
箱形的製作以第一四分位數、第三四分位數為前後邊。
以起薪資料為例,Q1=2865, Q3=3000,箱形包含中
間50% 的資料值。
箱形中的垂直線位置為中位數 (以起薪資料而言是
2905)。因此,中位數位置的直線將所有資料分割成兩
等分。
使用四分位數距 IQR=Q3-Q1 時,必須設定界限
(limits),箱形圖的界限分別位於 Q1 之下1.5(IQR)或 Q3
之上1.5(IQR)。對起薪資料而言,IQR= Q3-Q1 =
3000-2865=135。因此,界限為 2865-1.5(135)=
2662.5 與 3000+1.5(135)=3202.5。在界限之外的值
為離群值。
Slide ‹#›
箱形圖
4.
5.

圖 3.5 的虛線稱之為鬚 (whiskers)。鬚的畫法是從步驟
3 中箱形的兩邊至界限內最大值與最小值,以圖 3.5
為例,分別是 2710 與 3130。
最後,以 * 表示離群值的位置;在圖 3.5 中,可看到
一個離群值 3,325。
圖 3.5 中有標示上、下界限的直線。這些線用來
標示資料的範圍,雖然我們會算出這些數值,但
在箱形圖中通常不會顯示出來。圖 3.6 是起薪資
料的箱形圖的一般形式。
Slide ‹#›
3.5 兩變數的相關性量數
共變異數
 相關係數

Slide ‹#›
共變異數
共變異數(covariance)是兩變數間線性相關的
敘述量數。
是量測兩量化變數之間線性關聯程度的量數。
共變異數為正值表示正相關。為負值表示負相關。
共變若觀察資料的序對呈現狹長的帶狀分佈,
則表示兩變數具有線性關聯,分布越集中,越有關聯。
Slide ‹#›
共變異數
樣本共變異數
sxy 
 xy
 ( xi  x )( yi  y )
n 1
 ( xi   x )( yi   y )

N
第3章敘述統計II:數值方法 第107頁
樣本共變異數
母體共變異數
Slide ‹#›
共變異數實例

回顧 2.4 節立體音響設備店的例子。該店的經理
有興趣研究未來幾個週末的電視廣告與銷售量的
關係,樣本資料列於表 3.7 中。
Slide ‹#›
共變異數實例

圖 3.7 為兩變數的散佈圖,其顯示出一種正向的
關係:較高的銷售量 (y) 伴隨著較高的廣告次數
(x)。
Slide ‹#›
共變異數實例

為了測量廣告次數 x 與銷售額 y 的線性關係之強
度,我們利用式(3.10)計算樣本共變異數。表3.8
是  ( xi  x )( yi  y ) 的計算過程。請注意
x =30/10=3且 y =510/10=51,利用式(3.10),
可得共變異數為
S xy
(x


i
 x )( y i  y )
n 1
99

 11
9
Slide ‹#›
共變異數實例
Slide ‹#›
共變異數的意義

以圖3.8來解釋樣本共變異數。
第3章敘述統計II:數值方法 第108頁 圖3.8
Slide ‹#›
圖3.9 樣本共變異數的解釋
第3章敘述統計II:數值方法 第109頁 圖3.9
Slide ‹#›
圖3.9 樣本共變異數的解釋
Slide ‹#›
圖3.9 樣本共變異數的解釋
第3章敘述統計II:數值方法 第109頁 圖3.9
Slide ‹#›
相關係數
相關係數(Correlation Coefficient)的範圍由−1到+1。
樣本相關係數為 1 代表兩變數 x 與 y 之間是完全
正線性相關。
一個樣本相關係數為-1 代表兩變數 x 與 y 之間
是完全負線性相關。
Slide ‹#›
相關係數
皮爾生相關係數
rxy 
sxy
sx s y
樣本資料
 xy
 xy

 x y
母體資料
第3章敘述統計II:數值方法 第110頁
Slide ‹#›
相關係數
相關係數讓我們瞭解兩個變數間線性相關的
程度,而非因果關係存在與否。
兩變數間的高度相關並不表示兩變數間必然有
因果關係。
Slide ‹#›
相關係數實例

以立體音響設備店的資料為例,求其樣本相關係數。利用
表3.8的資料,我們便能計算兩變數的樣本標準差。

因為 sxy=11,可得到樣本相關係數為

我們的結論是:廣告次數與銷售量之間存在強大正的線性
關係。更明確地說,廣告次數增加時,銷售量也增加。
Slide ‹#›
相關係數實例
假設某一特定資料集顯示 x 與 y 間有正線性相
關但不是完全正線性相關,rxy 之值將會小於1,
表示在散佈圖上的點並非全部落在一條直線上。
當資料點愈來愈偏離完全正線性相關, rxy的
值會愈變愈小。
 rxy之值等於零表示 x 與 y 之間沒有線性關係,
且 rxy之值接近零表示一種微弱的線性相關。

第3章敘述統計II:數值方法 第112頁
Slide ‹#›
3.6 加權平均數與群組資料的處理
加權平均數
 群組資料的樣本平均數
 群組資料的樣本變異數
 群組資料的標準差

第3章敘述統計II:數值方法 第114-118頁
Slide ‹#›
加權平均數
加權平均數(weighted mean)是在某些情況為了
反映個別觀察值的重要性,計算平均數時要對
每一觀察值加上權重,以此方式計算而得到的值
wx

x
w
i i
i
其中:
xi = 第 i 個觀察值
wi = 第 i 的觀察值的權重
第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁
Slide ‹#›
加權平均數實例

以下是一個加權平均數的例子,我們以過去3個月
所做的5次採購來做說明。
第3章敘述統計II:數值方法 第115頁
Slide ‹#›
加權平均數實例

我們可以由資料中觀察到,每磅成本由 $2.80至
$3.40不等,而且採購數量在500至2,750磅之間,
假設經理想要瞭解原料每磅的平均成本,由於訂
購數量各有不同,所以我們必須應用加權平均數
的觀念。資料顯示5筆原料每磅成本分別為 x1=
3.00, x2=3.40, x3 =2.80, x4=2.90,以及 x5=3.25,
則每磅成本的加權平均成本等於每項成本乘上其
對應採購量加權而得。
第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁
Slide ‹#›
加權平均數實例

所以,本例的權重分別為 w1=1200, w2=500, w3 =2750,
w4=1000,以及w5 =800,應用式(3.15),我們可以求得加
權平均數:
因此,由加權平均數的計算,可以得到原料的每磅平均成
本等於 $2.96。值得注意的是,若我們使用式 (3.14) 而非
加權平均數的公式,將誤導結果。因為,(3.00+3.40+
2.80+2.90+3.25)/5=15.35/5=$3.07。這個結果高估了每
磅平均採購成本。
第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁
Slide ‹#›
群組資料
• 在大部分的案例中,位置與離散量數都是利用個
別資料計算而得。
• 有時僅有群組資料(grouped data)或是次數分配
形式的資料。
• 為了計算群組資料的平均數,我們視每組中點為
此分組所有數值的代表。
• 應用加權平均數的式(3.15) ,而且以Mi作為資料
值,次數fi作為權重。
第3章敘述統計II:數值方法 第116-117頁
Slide ‹#›
群組資料的平均數
• 群組資料的樣本平均數
fM

x
i
i
n
• 群組資料的母體平均數
fM


i
i
N
其中:
fi = 第 i 組的次數
Mi = 第 i 組的組中點
第3章敘述統計II:數值方法 第116.118頁
Slide ‹#›
群組資料的變異數
• 群組資料的樣本變異數
2
f
(
M

x
)

i
i
s2 
n 1
2
• 群組資料的母體變異數
2
f
(
M


)

i
i
2 
N
第3章敘述統計II:數值方法 第117.118頁
Slide ‹#›
群組資料的實例

在2.2節中,我們做出Sanderson and Clifford會計事
務所完成年度稽核時間(天)的次數分配,並以20
家公司為樣本,做出稽核時間的次數分配如表
3.11。
第3章敘述統計II:數值方法 第116頁 表3.11
Slide ‹#›
群組資料的實例

五個分組的組中點與加權平均數的計算在表 3.12
中,如表所示,樣本平均稽核時間為 19 天。
Slide ‹#›
群組資料的實例

根據表 3.11 稽核時間的群組資料,將樣本變異數
的計算過程列在表 3.13,計算結果可知樣本變異
數為30。
第3章敘述統計II:數值方法 第117頁 表3.13
Slide ‹#›
群組資料的實例

群組資料的標準差即是變異數的平方根。以稽核
時間而言,樣本標準差
s  30  5.48
第3章敘述統計II:數值方法 第117頁
Slide ‹#›
評註

在計算群組資料的敘述統計量時,組中點用來近
似該分組的資料值,結果是群組資料的敘述統計
量只會近似於直接使用原始資料所得到的敘述統
計量。因此,我們建議儘可能從原始資料而不是
群組資料來計算敘述統計量。
第3章敘述統計II:數值方法 第118頁
Slide ‹#›
End of Chapter 3
Slide ‹#›