第3章數據描述統計分析

Download Report

Transcript 第3章數據描述統計分析

第3章 數據描述統計分析
3.1 集中趨勢的測定與分析
3.2 離中趨勢的測定與分析
3.3 分佈形態的測定與分析
3.4 描述統計工具
本章學習目標
Excel描述數據集中趨勢的工作表函數及其應用
Excel描述數據離中趨勢的工作表函數及其應用
Excel描述數據分佈形態的工作表函數及其應用
Excel描述統計工具的內容及其應用
3.1 集中趨勢的測定與分析
3.1.1 集中趨勢的測定內容
3.1.2 用Excel工作表函數描述集中趨勢
3.1.3 三種平均數的特點
返回首頁
3.1.1 集中趨勢的測定內容
在統計研究中,需要搜集大量數據並對其進行加
工整理,對這些數據進行整理之后發現︰大多數
情況下數據都會呈現出一種鐘形分佈,即各個變
量值與中間位置的距離越近,出現的次數越多;
與中間位置距離越遠,出現的次數越少,從而形
成了一種以中間值為中心的集中趨勢。這個集中
趨勢是現象共性的特徵,是現象規律性的數量表
現。
返回本節
3.1.2 用Excel工作表函數描述集中趨勢
1.均值函數
(1)算術平均數。
(2)調和平均數。
(3)幾何平均數。
2.中位數(中位次數)函數
中位數是指全體數值按大小排列后位于中間的數
值。
語法︰MEDIAN(number1,number2, ...)
如果參數集合中包含有偶數個數字,函數
MEDIAN()將返回位于中間的兩個數的平均值。
3.眾數函數
眾數是一組數列中出現次數最多的數值,眾數函
數MODE()返回某一數組或數據區域中出現頻率
最多的數值。與MEDIAN相同,MODE也是一個
位置測量函數。
語法︰MODE(number1,number2, ...)
如果數據集合中不含有重複的數據,則MODE()
函數返回錯誤值N/A。
4.最大(小)值函數
最大(小)值函數可以返回數據集中的最大(小)
數值。
語法︰MAX(number1,number2,...)
MIN(number1,number2, ...)
如果參數不包含數字,函數MAX(MIN)返回0。
返回本節
3.1.3 三種平均數的特點
眾數是一組數據中出現次數最多的變量值,它用
于對分類數據的概括性度量,其特點是不受極端
值的影響,但它沒有利用全部數據訊息,而且還
具有不惟一性。一組數據可能有眾數,也可能沒
有眾數;可能有一個眾數,也可能有多個眾數。
中位數是一組數據按大小順序排序后處于中間位
置上的變量,它主要用于對順序數據的概括性度
量。
均值是一組數據的算術平均,它利用了全部數據
訊息,是概括一組數據最常用的一個值。
例3-1 某商場家用電器銷售情況如圖3-1所示。
(1)計算各種電器的全年平均銷售量,如圖3-2
所示。
(2)計算各種電器銷售量的中位數,如圖3-3所
示。
(3)計算各種電器銷售量的眾數,如圖3-4所示。
圖3-1 某商場家用電器銷售情況
圖3-2 家用電器銷售量平均數
圖3-3 家用電器銷售量中位數
圖3-4 家用電器銷售量眾數
返回本節
3.2 離中趨勢的測定與分析
3.2.1 離中趨勢的測定內容
3.2.2 用Excel函數計算標準差
3.2.3 四分位數與四分位距
返回首頁
3.2.1 離中趨勢的測定內容
在研究現象總體標誌的一般水準時,不僅要研究
總體標誌的集中趨勢,還要研究總體標誌的離中
趨勢,如研究價格背離價值的平均程度。研究離
中趨勢可以透過計算標誌變異指標來進行。標誌
變異指標是同統計平均數相聯繫的一種綜合指標,
用于度量隨機變量在取值區間內的分佈情況,主
要有平均差、標準差、方差、四分位數、百分位
數等。在一般計算中,這些指標計算是比較複雜
的,但在Excel中都有相應的函數,因而使計算變
得很簡單。
返回本節
3.2.2 用Excel函數計算標準差
1.樣本標準差
2.總體標準差
1.樣本標準差
樣本標準差函數用來估算樣本的標準偏差,反映
相對于平均值(mean)的離散程度,Excel計算樣
本標準差採用不偏估計式(亦即自由度=n-1),
其計算公式為
s
n
 x   x 
2
2
nn  1
語法︰STDEV(number1,number2,...)
2.總體標準差
總體標準差函數返回以參數形式給出的整個樣本
總體的標準偏差,反映相對于平均值(mean)的
離散程度。計算總體標準差使用整個總體的變量,
通常採用偏性估計式(亦即自由度為n),其計算
公式為
 
n
 x   x 
2
2
n2
語法︰STDEVP(number1,number2,...)
例3-2 使用例3-1資料,計算各家電銷售量的總
體標準差,如圖3-5所示。
圖3-5 計算總體標準差
例3-3
示。
兩組工人生產某種零件的產量如圖3-6所
圖3-6 兩組工人產量
圖3-7 計算產量平均數
圖3-8 計算兩組工人產量標準差
圖3-9 計算兩組工人產量標準差系數
返回本節
3.2.3 四分位數與四分位距
四分位數是將中值的前后兩部分數值再等分為二,以數值
小的一端算起,前半部的分區點稱為第1四分位數,后半
部的分區點稱為第3四分位數,而中值即為第2四分位數。
四分位數通常用于在銷售額和測量值數據集中對總體進行
分組。
語法︰QUARTILE(array,quart)
array︰需要求四分位數值的數組或數字型單元格區域。
quart︰決定返回哪一個四分位值。
Quart值與QUARTILE返回值的對應關係見表3-1所示。
表3-1 Quart值與QUARTILE返回值的對應關係
quart值
函数QUARTILE返回值
0
最小数值
1
第一个四分位数(第25个百分排位)
2
中分位数(第50个百分排位)
3
第三个四分位数(第75个百分排位)
4
最大数值
例3-4 使用例3-1資料,計算四分位數和四分位
距,如圖3-10所示。
圖3-10 計算四分位數和四分位距
返回本節
3.3 分佈形態的測定與分析
3.3.1 分佈形態的測定內容
3.3.2 用Excel工作表函數描述分佈形態
返回首頁
3.3.1 分佈形態的測定內容
只用集中趨勢和離中趨勢來表示所有數據,難免不夠準
確。分析總體次數的分佈形態有助于識別整個總體的數量
特徵。總體的分佈形態可以從兩個角度考慮,一是分佈的
對稱程度,另一個是分佈的高低。前者的測定參數稱為偏
度或偏斜度,后者的測定參數稱為峰度。
峰度是掌握分佈形態的另一指標,它能描述分佈的平緩
或陡峭程度。如果峰度數值等于零,說明分佈為正態;如
果峰度數值大于零,說明分佈呈陡峭狀態;如果峰度數值
小于零,說明分佈形態趨于平緩。
返回本節
3.3.2 用Excel工作表函數描述分佈形態
1.偏度函數
2.峰度函數
1.偏度函數
偏度函數返回分佈的偏斜度。偏斜度反映以平均
值為中心的分佈的不對稱程度。正偏斜度表示不
對稱邊的分佈更趨向正值,負偏斜度表示不對稱
邊的分佈更趨向負值。其計算公式為
n
n  1n  2

 xi  x 


 s 


3
語法︰SKEW(number1,number2,...)
2.峰度函數
峰度函數返回數據集的峰值,表示次數分佈尖峰
的起伏狀態。峰值反映與正態分佈相比某一分佈
的尖銳度或平坦度。正峰值表示相對尖銳的分佈,
負峰值表示相對平坦的分佈。其計算公式為

nn  1

 n  1n  2n  3

 xi  x 


 s 


4
2
3
(
n

1
)


n  2n  3


語法︰KURT(number1,number2, ...)
例3-5 使用例3-1資料,計算各家電銷售量的偏
度和峰度,如圖3-11所示。
返回本節
3.4 描述統計工具
對于統計數據的一些常用統計量,比如均值、中
位數、眾數、標準差、峰度系數、偏度系數等,
可以利用上述統計函數計算。但Excel提供了一種
更快捷的方法,就是描述統計工具。描述統計分
析工具用于生成數據源區域中數據的單變量統計
分析報表,它可以同時計算出一組數據的多個常
用統計量,提供有關數據集中趨勢和離中趨勢以
及分佈形態等方面的訊息。
返回首頁
例3-6 調查某企業生產車間10名工人的月工資
水準,資料如圖3-12所示。用描述統計工具對工
人工資數據進行分析。
-
圖
3
12
工
資
資
料
圖3-13 “統計描述”對話框
圖3-14 “描述統計”工具輸出結果
返回本節