Transcript 統計網路學習館
統計網路學習館 敘述統計 引言 統計分析的目的在於利用母體內所有元素的數據, 看看是否有什麼訊息可以讓我們用來了解母體的 結構。 之前我們已經學會如何以表或圖的形式來表現母 體的分配,接下來我們也要藉助用單一數字來描 述與彙總資料囉! 彙總資料的統計量 描述資料的中心或中央的統計量: 算術平均數、中位數、分位數、眾數 測量母體中各個體的差異程度的統計量: 全距、變異數、標準差、變異係數 表達資料分佈形狀的統計量: 偏態、峰態 算術平均數 定義: 所有資料的總和除以資料個數所得的商 n x1 x2 xn x n x i 1 n i 說明: 由於考慮到資料中的每一項,所以易受 極端值影響 中位數 定義: 將資料從小到大排序後,中間項的數值 (當資料是奇數個時)或中間兩項的平均值 (當資料是偶數個時) 說明: 大約會有一半的數據小於(大於)或等於中 位數 分位數 定義: 將資料分成數等分,其分割點即稱為分位數。 四分位數是指將一組資料分為四等分,其分割 點就稱為四分位數,所以有第一四分位數、第 二四分位數(即中位數)、第三四分位數。 說明: 第一四分位數求法相當於求小於資料中位數的 所有數 值之中位數;同樣的,第三四分位數是 求大於資料中位數的所有數值之中位數。 眾數 定義: 一組資料中出現次數最多的數值。 當資料中出現最多次數的數值不只一個時,則 眾數不是唯一的;而當資料中的數值出現次數 都一樣多時,則眾數不存在。 說明: 若資料有對稱性且或越中間的數出現越多,則 眾數會越接近平均數,也會接近中位數。 範例一 收集11位同學在罰球線上投籃10次進籃的 次數,每位同學投中的次數分別為 2 3 4 4 3 6 4 4 5 6 3 分別求其算術平均數、中位數、第一與第 三四分位數和眾數? 解答 2 3 4 4 3 6 4 4 5 6 3 4 11 算術平均數= 將11位同學投中的次數由小到大排序如下: 2 3 3 3 4 4 4 4 5 6 6 最中間的位置是排序第6 位,所以中位數為4。而 進籃次數最多者為4,出現4次,所以眾數是4。 小於中位數的數值為第1至第5筆資料,為 2 3 3 3 4,所以此部份的中位數為第3筆資料、 數值為3,代表第一四分位數為3。 大於中位數的 數值為第7至第11筆資料,為4 4 5 6 6 , 所 以此部份的中位數為第9筆資料、數值為5,代表 第 三四分位數為5。 全距 定義: 一組資料中最大值與最小值的差距。 說明: 當全距越大,表示資料的分 散狀況越大, 反之則越小。 續範例一 試求投中次數的全距。 解答: 投中次數最多是6次,最少是2次 所以全距=6-2=4 (次) 變異數 定義: 量測所有資料到平均數的平均距離。 設一母體資料 x1 , x2 , ..., xN ,且 為此母體的平均 N 數,則母體變異數 ( x )2 2 i 1 i N 設一樣本資料 x1 , x2 , ..., xn,且 n 數,則樣本變異數 s2 x 為此樣本的平均 2 ( x x ) i i 1 n 1 說明: 一般很自然會被想到用來量測資料分散程度之指 標值為平均絕對離差。 但絕對值在代數運算上較 麻煩,因此將絕對值改以平方來替代。注意變異 數會因資料中少數幾筆特別大或特別小的值,使 變異數變得特別大。 標準差 定義: 變異數開平方即所謂標準差。 N 母體標準差: ( x )2 樣本標準差: i 1 i N n s 2 ( x x ) i i 1 n 1 說明: 由於變異數的單位是資料單位的平方,它必需開 方後才能恢復原來的單位,因此常以變異數開平 方來表示資料的分散程度, 即所謂的標準差。 注意 由於統計通常母體很大,很難由普查得到全體資 料,而大部分統計工作都是抽樣資料,所以一般 若未說明資料是母體的資料時,所有變異數、標 準差計算皆以樣本變異數、樣本標準差作為討論 的對象。 範例二 雅虎籃球隊有10名隊員,身高如下表: 編號 1 身高 182 (公分) 2 3 4 5 6 185 186 186 196 183 7 175 8 9 188 183 求此球隊隊員身高的變異數和標準差。 10 186 解答: 雅虎籃球隊隊員平均身高為 182 185 186 186 196 186 185 10 母體變異數為 (182 185)2 (185 185)2 (186 185)2 250 25 10 10 2 母體標準差為 25 5 續範例二 若由雅虎籃球隊抽出5名隊員,如下表: 編號 2 4 5 8 9 身高 185 186 196 188 183 (公分) 求此5名隊員身高的樣本變異數和樣本標準 差。 解答: 5名隊員平均身高為 x 185 186 196 188 183 187.6 5 樣本變異數為 (185 187.6)2 (186 187.6)2 (183 187.6)2 101.2 s 25.3 4 4 2 樣本標準差為 s 25.3 5.0299 變異係數 定義: 一組資料的變異係數是指將此組資料的標準差 除以平均數所 得的商化為百分比所得之值,即 變異係數為 s C.V . 100% x 說明: 變異係數是一種相對差異量數,用以比較單位 不同或單位相 同但資料差異甚大的資料分散情 形。 範例三 調查5位學生之身高及體重如下,試比較其 分散程度。 身高:172、168、164、170、176 (公分) 體重:62、57、58、64、64 (公斤) 解答: 因為身高與體重的單位不同,欲比較二者的分散程度, 可利用變異係數來比較。分別計算身高與體重各自的平 均數與標準差,得 平均身高 為170公分、標準差為4.47公斤 平均體重為61公斤、 標準差為3.31公斤 接著計算身高的變異係數為4.47/170*100% = 2.63% 體重的變異係數為3.31/61*100% = 5.4%。 比較二者,由於體重的 變異係數較大,所以體重的分散 程度較大。 偏態 定義: 量測一組資料對稱與否的指標。 3( x Me ) SK s 其中 x 表平均數, Me表中位數,而 標準差。 s表 比較一下(1/2) 對稱圖形的平均 數=中位數=眾數, 因此偏態係數SK = 0。 比較一下(2/2) 右偏(正偏)圖形,表示有少數幾 筆資料很大,其平均 數>中位數 >眾數,因此偏態係數SK > 0。 左偏(負偏)圖形,表示有少數幾 筆資料很大,故平均 數<中位數 <眾數,所以偏態係數SK < 0。 峰態 定義: 量測資料分佈形狀峰度有多高的指標。 n K 4 ( x x ) i i 1 ns 4 3 其中 s 表標準差, n表樣本數。 說明: 峰態係數K > 0稱為高峻峰 峰態係數K=0稱為常態峰 峰態係數K < 0稱為低闊峰 範例四 收集11位同學罰球投籃10次,投中次數分別為 3 2 3 7 4 3 6 4 3 3 6 試求其偏態係數和峰態係數? 解答:偏態係數為1.86,圖形為右偏。 峰態係數為-1.198,圖形為低闊峰。 想要感受一下如何用數字描述分佈嗎? 最好的方法就是趕快造訪本網站…. 統計網路學習館