敘述統計

Download Report

Transcript 敘述統計

敘述統計
中央傾向
 離散度
 偏態與峰態
 百分等位與百分位序
 盒鬚圖
 Excel範例

敘述統計
中央傾向

中央傾向指的是資料整體的傾向,目的就是在找尋一個代
表性的數值,描述整個資料座落的位置。

平均數是一種衡量中央傾向的統計量測,代表整體資料的
平均水準。找出資料集中的位置
算數平均數
幾何平均數
調和平均數
•
•
•
算數平均數

算數平均數亦即:
觀察值的總和
算數平均數
觀察值的總個數和
未分組資料之算術平均數
N
Xi
X1  X 2  X 3    X N i
母體平均數  
 1
N
N
n
 Xi
X 1  X 2  X 3    X n i 1
樣本平均數 X 

n
n
分組資料之算術平均數
k
母體平均數  
 fiXi
i 1
k
 fj
k

 fiXi
i 1
N
j1
k
樣本平均數 X 
 fi Xi
i 1
k
 fj
j1
k

 fi Xi
i 1
n
算數平均數之特性
 資料的平衡點
 各觀察值與平均數間的差的總和最小
 各觀察值與平均數之差的平方和最小
 優點:
考慮到每一個觀察值
 缺點:
易受離群值(outlier)的影響
加權平均數

加權(weight, W)有加重的意思 強調重要性
Wi = fi / Σfj
fj 為 Xi 出現的次數
0≤ Wi≤1

未分組資料的加權平均數為:
n
n
X w   Wi X i 
i 1
 fiXi
i 1
n
 fj
j1
科目
中國語文
英國語文
比重
2
2
嘉輝
85
63
加玲
72
81
家威
69
70
數學
中國歷史
世界歷史
經濟及公共事務
2
1
1
1
88
70
73
67
71
82
80
83
82
69
68
70
地理
物理
化學
1
1
1
80
92
87
75
74
73
85
96
70
生物
1
83
72
73
幾何平均數的概念
 幾何平均數是n個變數值連乘積的n次
方根。
 幾何平均數多用於計算平均比率和平
均速度。如:平均利率、平均發展速
度、平均合格率等。
幾何平均數的計算

幾何平均數乃將 n 個資料
值相乘後,開 n 次方根,
以G 表示,適用在計算指
數的平均數。
未分組資料之幾何平均數

分組資料之幾何平均數

G
k
n
 (m i ) f i ;其中, m i為組中點, f i為組次數。
i 1
幾何平均數的特點
1、幾何平均數受極端值的影響較算術平均數
小。
2、如果變數值有負值,計算出的幾何平均數
就會 成為負數或虛數。
3、它僅適用於具有等比或近似等比關係的數
據。
4、幾何平均數的對數是各變數值對數的算數
平均數。
計算幾何平均數應註意的問題
1、變數數列中任何一個變數值不能為0,
一個為 0,則幾何平均數為0。
2、用環比指數計算的幾何平均易受最初
水平和最末水平的影響。
3、幾何平均法主要用於動態平均數的計
算。

假定某地儲蓄年利率(按複利計算):5%持續1.5
年,3%持續2.5年,2.2%持續1年。請問此5年內該
地平均儲蓄年利率。該地平均儲蓄年利率:
調和平均數
調和平均數又稱倒數平均數,
是變數倒數的算數平均數的
倒數。
調和平均數的計算公式
調和平均數的特點
1、調和平均數易受極端值的影響,且受極小
值的影響比受極大值的影響更大。
2、只要有一個變數值為零,就不能計算調和
平均數。
3、當組距數列有開口組時,其組中值即使按
相鄰組距計算了,假定性也很大,這時,
調和平均數的代表性就很不可靠。
4、調和平均數應用的範圍較小。
舉例
水果甲級每元1公斤,乙級每元1.5公斤,丙級每
元2公斤。問:
(1)若各買1公斤,平均每元可買多少公斤?
(2)各買6.5公斤,平均每元可買多少公斤?
(3)甲級3公斤,乙級2公斤,丙級1公斤,平均每
元可買幾公斤?
(4)甲乙丙三級各買1元,每元可買幾公斤?

(1)若各買1公斤,平均每元可買多少公斤?
(2)各買6.5公斤,平均每元可買多少公斤?
(3)甲級3公斤,乙級2公斤,丙級1公斤,平均
每元可買幾公斤?
(4)甲乙丙三級各買1元,每元可買幾公斤?
中位數

資料由小到大按順序排列,中位數即位於中央位
置的資料值。
若n為奇數,則中位數M e為第 n  1 個的資料值;
2
若n為偶數,則中位數M e為第 n 個和第n  1個的
2
2
平均數。
背景
 張村有個張千萬,隔壁九個窮光蛋,平均
起來算一算,人人都是張百萬。
 對於這樣的問題,不是“平均數”的錯,
也不是統計學的錯,統計學中有現成解決
的辦法,就是計算“中位數”。

所謂“中位數”,以一個51人的企業為例,把
所有人員年收入從大到小排列,正中間的一位,
即第26位的年收入就是這家企業年收入的中位
數。 打油詩裡的“張村”個人財產中位數就
是“零”。

這個時候平均數不能說明的問題,中位數就
說清楚了。
眾數
 眾數是指一組數據中出現次數最多
的那個數據,一組數據可以有多個
眾數,也可以沒有眾數。
 眾數是由英國統計學家皮爾生首先
提出來的。
 所謂眾數是指社會經濟現象中最普
遍出現的標誌值。
 從分佈角度看,眾數是具有明顯集
中趨勢的數值。
舉例
某製鞋廠要瞭解消費者最需要哪種型號的男皮鞋,
調查了某百貨商場某季度男皮鞋的銷售情況,得
到資料如下表(某商場某季度男皮鞋銷售情況):
男皮鞋號碼/釐米 銷售量/雙
合計
24.0
12
24.5
84
25.0
118
25.5
541
26.0
320
26.5
104
27.0
52
1200

從表中可以看到,
25.5釐米的鞋號銷售
量最多,如果我們計
算算數平均數,則平
均號碼為25.65釐米,
而這個號碼顯然是沒
有實際意義的,而直
接用25.5釐米作為顧
客對男皮鞋所需尺寸
的集中趨勢既便捷又
符合實際。
眾數的計算
由
品質數列和單項式變數數列確定眾
數比較容易,哪個變數值出現的次數
最多,它就是眾數,如上面的兩個例
子。
 若所掌握的資料是組距式數列,則只
能按一定的方法來推算眾數的近似值。
L——眾數所在組下限;
U——眾數所在組上限;
——眾數所在組次數與其下限的鄰組次數之差;
——眾數所在組次數與其上限的鄰組次數之差;
d——眾數所在組組距。
克氏法(1/2)
A
F
D
Δ+1
E
Δ-1
B
hmo
f+1
a
hmo–a
Lmo
M0
圖3-4 克氏法求眾數之圖解
Δ-1=眾數與前一組之次數差
=fo–f–1,即線段AB;
Δ+1=眾數組與後一組之次數
差=fo–f+1,即線段CD;
fo=眾數組之組次數
舉例
 根據下表的數據,計算50名工人日加工零
件數的眾數。
 解:從表中的數據可以看出,最大的頻數
值是14,即眾數組為120~125這一組,根據
公式得50名工人日加工零件的眾數為
 眾數是一種位置平均數,是總體中出
現次數最多的變數值,因而在實際工
作中有時有它特殊的用途。
 諸如,要說明一個企業中工人最普遍
的技術等級,說明消費者需要的內衣、
鞋襪、帽子等最普遍的號碼,說明農
貿市場上某種農副產品最普遍的成交
價格等,都需要利用眾數。
 如果數據的分佈沒有明顯的集中趨勢
或最高峰點,眾數也可能不存在。
 如果有兩個最高峰點,也可以有兩個
眾數。
 只有在總體單位比較多,而且又明顯
地集中於某個變數值時,計算眾數才
有意義。
眾數的特點
1、眾數是以它在所有標誌值中所處的位置確
定的全體單位標誌值的代表值,它不受分
佈數列的極大或極小值的影響,從而增強
了眾數對分佈數列的代表性。
2、當分組數列沒有任何一組的次數占多數,
也即分佈數列中沒有明顯的集中趨勢,而
是近似於均勻分佈時,則該次數分配數列
無眾數。

3、若將無眾數的分佈數列重新分組或各組頻
數依序合併,又會使分配數列再現出明顯
的集中趨勢。
4、如果與眾數組相比鄰的上下兩組的次數相
等,則眾數組的組中值就是眾數值;如果
與眾數組比鄰的上一組的次數較多,而下
一組的次數較少,則眾數在眾數組內會偏
向該組下限;如果與眾數組比鄰的上一組
的次數較少,而下一組的次數較多,則眾
數在眾數組內會偏向該組上限。
5、缺乏敏感性。這是由於眾數的計算只
利用了眾數組的數據信息,不象數值
平均數那樣利用了全部數據信息。
6、在生活中,往往會有由多數人來從眾
多答案中選擇一個的情形,一般都利
用“舉手表決”方式來解決問題,
就是這個眾數。
離散度
衡量資料離散的程度
 全距
 變異數
 標準差
 四分位差
 全距是表示一群體全部數值的變動範
圍。
 其計算簡單、意義顯明,但反應不夠
靈敏,即最大、最小數值不變而其它
各項數值皆改變時,全距不能反應。
 全距易受兩極端數值的影響。
 在實際工作中,全距常用來檢查產品質量
的穩定性和進行質量控制。
 在正常生產條件下,全距在一定範圍內波
動,若全距超過給定的範圍,就說明有異
常情況出現。
 利用全距有助於及時發現問題,以便採取
措施,保證產品質量。
平均差(average deviation)
 平均差係用以表示一群體之各數值與
其平均數之差異距離。
 由於其係根據全部數值求得,故較全
距感應靈敏,但因以絕對值運算,意
義不明顯。
分組資料之變異數
k
母體:  
2
 f i ( X i  )
i 1
N
k
樣本: s 
2
2
 f i (X i  X )
i 1
n 1
2

這是統計學上提到的自由度問題
如果母體的平均數是未知的,在計算樣本標準差時
就需要一個估計量來代替母體平均數

而選擇的是樣本的平均數
但是樣本平均數的計算是n個樣本的數值加總除以
n的結果,是一個方程式
只要有其中n-1個樣本的數字固定,另外一個樣本
的數值也就跟著固定
亦即自由度僅n-1而已(因為有一個會受其他n-1個
影響)
故在母體平均數未知的情況下,樣本標準差的根號
當中是除以n-1

但若母體平均數是已知的,那麼就直接以母體平均
數計算之
自由度就是n,故樣本標準差根號內的分母就是n
這樣兩個變異數(標準差的平方)都是母體變異數
的不偏估計量
變異數、標準差的例子

以數據3 5 7 7 38為例、其平均值為12、n=5(共
有5項資料)。而此資料乃是隨機調查五位同學的
收視時間、我們藉此要推知班上同學收視時間的
變異數與標準差。
 樣本變異數S2=((3-12)2+ (5-12)2+ (7-12)2+
(7-12)2+ (38-12)2+)/(51)=(81+49+25+25+676)/4 =214
 則其樣本標準差S=√(214)=14.63。
當進行兩個或多個資料變異程度的比較時,如果
度量單位與平均數相同,可以直接利用標準差來
比較。
 如果單位和(或)平均數不同時,比較其變異程
度就不能採用標準差,而需採用標準差與平均數
的比值(相對值)來比較。
 變異係數可以消除單位和(或)平均數不同對兩
個或多個資料變異程度比較的影響。

舉例
已知某良種豬場A種成年母豬平均體重為190kg,
標準差為10.5kg,而B種成年母豬平均體重為
196kg,標準差為8.5kg,試問兩個品種的成年母
豬,那一個體重變異程度大。

此例觀測值雖然都是體重,單位相同,但它們的
平均數不相同,只能用變異係數來比較其變異程
度的大小。
A種成年母豬體重的變異係數:
B種成年母豬體重的變異係數:
A種成年母豬體重的變異程度大於B種成年母豬。
Quartile四分位數
將資料依序排列﹐四分位數是位於資料個數中﹐四個等分
點上的數值﹐因此每個固定區內有三個四分位數﹐由小到
大依次為:
Q1第一四分位數(lower quantile):約有四分之一的資料
小於它﹐四分之三的資料大於它
Q2第二四分位數(median):就是中位數
Q3第三四分位數(upper quantile):約有四分之三的資料
小於它﹐四分之一的資料大於它
未分組的資料計算四分位數

四分位數是將數列等分成四個部分的數,一個數
列有三個四分位數,設下四分位數、中位數和上
四分位數分別為Q1、Q2、Q3,則:Q1、Q2、Q3的
位置可由下述公式確定:

Q1的位置


Q2的位置


Q3的位置
舉例
某車間某月份的工人生產
某產品的數量分別為13、
13.5、13.8、13.9、14、
14.6、14.8、15、15.2、
15.4、15.7公斤,則三個
四分位數的位置分別為:
Q1的位置
Q2的位置
Q3的位置

即變數數列中的第三個、第六個、第九個工人的
某種產品產量分別為下四分位數、中位數和上四
分位數。
Q1 = 13.8公斤、
 Q2 = 14.6公斤、
 Q3 = 15.2公斤


如果(n+1)不為4的整數倍數,按上述分式計算
出來的四分位數位置就帶有小數,這時,有關的
四分位數就應該是與該小數相鄰的兩個整數位置
上的標誌值的平均數,權數的大小取決於兩個整
數位置距離的遠近,距離越近,權數越大,距離
越遠,權數越小,權數之和等於1。
舉例

某車間某月份的工人生產某產品的數量分別為13
、13.5、13.8、13.9、14、14.6、14.8、15、
15.2、15.4公斤,則三個四分位數的位置分別為
:
Q1的位置
Q2的位置
Q3的位置
Q1=0.25×第二項+0.75×第三項
=0.25×13.5+0.75×13.8=13.73(公斤)
Q2=0.5×第五項+0.5×第六項=0.5×14+0.5×14.6=14.3(
公斤)
Q3=0.75×第八項+0.25×第九項
=0.75×15+0.25×15.2=15.05(公斤
四分位差

定義
Q3  Q1
QD 
2
其中,Q 、Q
第三四分位數。
1
3分別為第一四分位數和
未分組資料之四分位差
 分組資料之四分位差

百分等級(percentile rank)
百分等級是群體分配中的一個點,標示有既定百分比的數
值位在它之下。
1.未分組資料



PK:距離頂點的等第
N:總人數
2.分組資料
X =任意原始分數
l =該原始分數所在組真正
下限
fp =該原始分數所在組的
次數
F =l 以下的累積次數
I =組距
偏態與峰態
動差
 偏態
 峰態

偏態

偏態係數多使用動差法計算,公式如下:
M3
3  3


資料分配的偏態形式判斷準則 α3 = 0為對稱


α3 < 0為左偏
α3 > 0為右偏
平均數 眾數 中位數
峰態

峰態的衡量有指標可供計算,稱為峰態係數,其
公式如下:
M
4 


4
4
資料分配的峰態形式判斷準則



α4 < 3為低闊峰
α4 = 3為常態峰
α4 > 3為高狹峰
α4 < 3為低闊峰
α4 = 3為常態峰
α4 > 3為高狹峰
對稱分配
盒鬚圖 (box-and-whisker plot)

亦稱box plot盒狀圖或Schematic plot骨架圖。

盒鬚圖不繪製實際的觀察值,而顯示分配的總計
統計量(summary-statistics),其可用以檢驗資
料的極端量數及分配的型態。

盒鬚圖主要是繪製中位數(median,即第50的百分
位數)、第25的百分位數,第75的百分位數等,如
下圖所示,盒子的下界限是第25 的百分位數(25%,
Ql,即下四分位數),上界限是第75的百分位數
(75%,Q 3,即上四分位數),通常這些百分位數,
有時亦稱為Tukey‘s-hinges,其計算與一般的百
分位數略有不同。
 盒子的長度即是代表內四分位數的範圍
(interqrartilerange),亦即是第75的百
分位數與第25的百分位數之差值(IQR=Q3Q1)。
 盒中的星號“﹡”代表中位數(median)
。
 通常盒中包含有50%變項的觀察值,因此盒
子愈大,則表示觀察體散佈愈大。
 由盒子上下界所延伸出的線,即稱之為鬚
(whiisker),是用以連接觀察體(非界外、
極端值)的最大值與最小值。
盒鬚圖中亦可顯示出資料的界外值(ourlicrs)以
符號“O”表示之、與極端值(extreme)“E”表示
之。
 通常其界定是以任何觀察值與盒端的距離介於1.5
至3倍盒長(即內四分位數IQR=Q3-Q1)之間者,即
稱之為Outlier,而超過3倍的盒長者,即稱之為
Extreme 。


盒鬚圖可用以顯示資料的
分配形態,如下三圖所示:
(a)常態分配(normal distribution)
(b)左偏分配(left-skewed distribution)
(c)右偏分配(right-skewed distritution)
百分位數與中位數、四分位數、十分位
數之對照
百分位數與中位數、四分位數、十分位數之對照
百分位數
P10
P20
P25
P30
P40
P60
P70
P75
P80
P90
D8
D9
Me
中位數
Q1
四分位數
十分位數
P50
D1
D2
Q2
D3
D4
D5
Q3
D6
D7
舉例

下面12個數字若採盒鬚圖分析法, 有哪些是
outliers? 另外, 有效資料(扣除outliers的資料)
的平均值為何?
230 100 100 150 110 10
140 110 20
40
130 120

1.排序:10 20 40 100 100 110 110 120
130 140 150 230

2.四分位:
12/4=3 …> Q1=(40+100)/2=70
3*2=6 …> Q2=(110+110)/2=110
3*3=9 …> Q3=(130+140)/2=135

3.四分位距IQR:135-70=65

4.內籬:Q1-1.5IQR=70-97.5= -27.5 …>
10
Q3+1.5IQR=135+97.5=232.5 …>230
所以 數據資料都在內籬中,因此沒有外籬。

5.平均值:
10+20+40+100+100+110+110+120+13
0+140+150+230=1260
1260/12=105
98 年公務人員普通考試試題

盒鬚圖(Box-and-whisker Plot)(如下圖)是
經常用來表示資料分布的統計圖。這種擬人像化
的圖形,方形的box 像一張臉,Box 中的一條直
線像鼻樑,而box 旁邊兩條延伸線像鬍鬚
(whisker),因此,名之為盒鬚圖(Box-andwhisker Plot)。請根據題中的表及圖回答下列
問題。
教育測驗與統計概要




統計學家設計這種盒鬚圖在處
理與分析資料時有何功能?(5
分)
Box 中的一條直線代表何種描
述統計量?(5 分)
代表x 與y 兩變數box 中的直
線分別是多少?(10 分)
Box 上下鬍鬚兩端的小黑圈圈
代表什麼?(5 分)
作業
今隨機檢測16個燈泡壽命(單位:月),結果如
下:
13,9,12,4,34,16,26,13,10,18,15,6,15,12,1
0,5 。
 請找出此資料的Q1、Q2、Q3。
 請畫出此組資料之盒鬚圖。
 請問此組資料是否有離群值?
