統計網路學習館

Download Report

Transcript 統計網路學習館

統計網路學習館
敘述統計
引言
統計分析的目的在於利用母體內所有元素的數據,
看看是否有什麼訊息可以讓我們用來了解母體的
結構。
之前我們已經學會如何以表或圖的形式來表現母
體的分配,接下來我們也要藉助用單一數字來描
述與彙總資料囉!
彙總資料的統計量
描述資料的中心或中央的統計量:
算術平均數、中位數、分位數、眾數
測量母體中各個體的差異程度的統計量:
全距、變異數、標準差、變異係數
表達資料分佈形狀的統計量:
偏態、峰態
算術平均數
定義:
所有資料的總和除以資料個數所得的商
n
x1  x2    xn
x

n
x
i 1
n
i
說明:
由於考慮到資料中的每一項,所以易受
極端值影響
中位數
定義:
將資料從小到大排序後,中間項的數值
(當資料是奇數個時)或中間兩項的平均值
(當資料是偶數個時)
說明:
大約會有一半的數據小於(大於)或等於中
位數
分位數
定義:
將資料分成數等分,其分割點即稱為分位數。
四分位數是指將一組資料分為四等分,其分割
點就稱為四分位數,所以有第一四分位數、第
二四分位數(即中位數)、第三四分位數。
說明:
第一四分位數求法相當於求小於資料中位數的
所有數 值之中位數;同樣的,第三四分位數是
求大於資料中位數的所有數值之中位數。
眾數
定義:
一組資料中出現次數最多的數值。
當資料中出現最多次數的數值不只一個時,則
眾數不是唯一的;而當資料中的數值出現次數
都一樣多時,則眾數不存在。
說明:
若資料有對稱性且或越中間的數出現越多,則
眾數會越接近平均數,也會接近中位數。
範例一
收集11位同學在罰球線上投籃10次進籃的
次數,每位同學投中的次數分別為
2 3 4 4 3 6 4 4 5 6 3
分別求其算術平均數、中位數、第一與第
三四分位數和眾數?
解答
2  3 4  4  3 6  4  4  5 6  3
4
11
算術平均數=
將11位同學投中的次數由小到大排序如下:
2 3 3 3 4 4 4 4 5 6 6
最中間的位置是排序第6 位,所以中位數為4。而
進籃次數最多者為4,出現4次,所以眾數是4。
小於中位數的數值為第1至第5筆資料,為
2 3 3 3 4,所以此部份的中位數為第3筆資料、
數值為3,代表第一四分位數為3。 大於中位數的
數值為第7至第11筆資料,為4 4 5 6 6 , 所
以此部份的中位數為第9筆資料、數值為5,代表
第 三四分位數為5。
全距
定義:
一組資料中最大值與最小值的差距。
說明:
當全距越大,表示資料的分 散狀況越大,
反之則越小。
續範例一
試求投中次數的全距。
解答:
投中次數最多是6次,最少是2次
所以全距=6-2=4 (次)
變異數
定義:
量測所有資料到平均數的平均距離。
設一母體資料 x1 , x2 , ..., xN ,且  為此母體的平均
N
數,則母體變異數
( x   )2
 
2

i 1
i
N
設一樣本資料 x1 , x2 , ..., xn,且
n
數,則樣本變異數
s2 
x 為此樣本的平均
2
(
x

x
)
 i
i 1
n 1
說明:
一般很自然會被想到用來量測資料分散程度之指
標值為平均絕對離差。 但絕對值在代數運算上較
麻煩,因此將絕對值改以平方來替代。注意變異
數會因資料中少數幾筆特別大或特別小的值,使
變異數變得特別大。
標準差
定義:
變異數開平方即所謂標準差。
N
母體標準差:
( x   )2
 
樣本標準差:

i 1
i
N
n
s
2
(
x

x
)
 i
i 1
n 1
說明:
由於變異數的單位是資料單位的平方,它必需開
方後才能恢復原來的單位,因此常以變異數開平
方來表示資料的分散程度, 即所謂的標準差。
注意
由於統計通常母體很大,很難由普查得到全體資
料,而大部分統計工作都是抽樣資料,所以一般
若未說明資料是母體的資料時,所有變異數、標
準差計算皆以樣本變異數、樣本標準差作為討論
的對象。
範例二
雅虎籃球隊有10名隊員,身高如下表:
編號
1
身高
182
(公分)
2
3
4
5
6
185 186 186 196 183
7
175
8
9
188 183
求此球隊隊員身高的變異數和標準差。
10
186
解答:
雅虎籃球隊隊員平均身高為

182  185  186  186  196    186
 185
10
母體變異數為
(182  185)2  (185  185)2    (186  185)2 250
 

 25
10
10
2
母體標準差為   25  5
續範例二
若由雅虎籃球隊抽出5名隊員,如下表:
編號
2
4
5
8
9
身高
185 186 196 188 183
(公分)
求此5名隊員身高的樣本變異數和樣本標準
差。
解答:
5名隊員平均身高為
x
185  186  196  188  183
 187.6
5
樣本變異數為
(185  187.6)2  (186  187.6)2    (183  187.6)2 101.2
s 

 25.3
4
4
2
樣本標準差為 s  25.3  5.0299
變異係數
定義:
一組資料的變異係數是指將此組資料的標準差
除以平均數所 得的商化為百分比所得之值,即
變異係數為
s
C.V .   100%
x
說明:
變異係數是一種相對差異量數,用以比較單位
不同或單位相 同但資料差異甚大的資料分散情
形。
範例三
調查5位學生之身高及體重如下,試比較其
分散程度。
身高:172、168、164、170、176 (公分)
體重:62、57、58、64、64 (公斤)
解答:
因為身高與體重的單位不同,欲比較二者的分散程度,
可利用變異係數來比較。分別計算身高與體重各自的平
均數與標準差,得
平均身高 為170公分、標準差為4.47公斤
平均體重為61公斤、 標準差為3.31公斤
接著計算身高的變異係數為4.47/170*100% = 2.63%
體重的變異係數為3.31/61*100% = 5.4%。
比較二者,由於體重的 變異係數較大,所以體重的分散
程度較大。
偏態
定義:
量測一組資料對稱與否的指標。
3( x  Me )
SK 
s
其中 x 表平均數, Me表中位數,而
標準差。
s表
比較一下(1/2)
對稱圖形的平均 數=中位數=眾數,
因此偏態係數SK = 0。
比較一下(2/2)
右偏(正偏)圖形,表示有少數幾
筆資料很大,其平均 數>中位數
>眾數,因此偏態係數SK > 0。
左偏(負偏)圖形,表示有少數幾
筆資料很大,故平均 數<中位數
<眾數,所以偏態係數SK < 0。
峰態
定義:
量測資料分佈形狀峰度有多高的指標。
n
K
4
(
x

x
)
 i
i 1
ns
4
3
其中 s 表標準差, n表樣本數。
說明:
峰態係數K > 0稱為高峻峰
峰態係數K=0稱為常態峰
峰態係數K < 0稱為低闊峰
範例四
收集11位同學罰球投籃10次,投中次數分別為
3 2 3 7 4 3 6 4 3 3 6
試求其偏態係數和峰態係數?
解答:偏態係數為1.86,圖形為右偏。
峰態係數為-1.198,圖形為低闊峰。
想要感受一下如何用數字描述分佈嗎?
最好的方法就是趕快造訪本網站….
統計網路學習館