Transcript 四分位數
第3章 敘述統計II:數值方法 Slide ‹#› 敘述統計II:數值方法 Part A 3.1 3.2 3.3 3.4 3.5 3.6 位置量數 離散量數 分配的形狀的量數,相對位置,以及離群值 的偵測 探究性資料分析 兩變數的相關性量數 加權平均數與群組資料的處理 Slide ‹#› 3.1 位置量數 平均數 中位數 眾數 百分位數 四分位數 測量值是由樣本資料計算 而得,則稱之為樣本統計量 (sample statistics)。 若是由整個母體計算而得, 則稱之為母體參數 (population parameters)。 統計推論中,樣本統計量是指 相對應的母體參數的 點估計量(point estimator)。 Slide ‹#› 平均數 一個變數最重要的位置量數或許是平均數 (mean 或 average value)。 若此資料來自某一母體,則以希臘字母 μ 表示之。 若此資料來自某一樣本,則樣本平均數記為 x。 平均數是一種中央位置量數。 Slide ‹#› 樣本平均數 x x x 資料集中 n 個觀察值 的總和 i n 觀察值的樣本數 Slide ‹#› 母體平均數 x 資料集中 N 個觀察值 的總和 i N 母體所有元素的個數 Slide ‹#› 平均數實例 假設某大學的就業輔導室寄出一份問卷給被抽中 的商學院畢業生,以調查工作起薪。 表3.1為所蒐集的資料。 Slide ‹#› 平均數實例 樣本中12個商學院畢業生之平均起薪計算如下。 x x n i x1 x 2 x12 12 2850 2950 2880 12 35280 2940 12 Slide ‹#› 中位數 • 中位數(median)是變數的另一種中央位置量數。 • 將資料值由小排到大時,中位數為中間的那一個值。 • 若資料個數為奇數時,中位數即位於中間的數值; 若資料項目為偶數時,就沒有單一的中間項。 • 根據傳統的中位數定義,將中間兩個值之平均數當 作中位數。 Slide ‹#› 中位數 將資料遞增排列(即由小到大排列) a) b) 資料值為奇數項時,中位數為此資料之中間值。 資料值為偶數項時,中位數為此資料之中間兩個數值 的平均數。 Slide ‹#› 中位數實例 計算表 3.1 商學院12位畢業生起薪的中位數 將資料遞增排列後如下 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 中間兩個值 因為n=12是偶數,故有兩個中間值:2,890和 2,920,中位數為此兩個值之平均。 2890 2920 中位數 2905 2 Slide ‹#› 眾數 • 眾數(mode)眾數是資料集中出現次數最多的資料 值。 • 當資料集中出現次數最多的值有兩個或以上時, 眾數就不只一個。 • 若資料集恰有兩個眾數,則稱此資料為雙峰 (bimodal)。 • 若出現兩個以上的眾數時,則稱為多峰 (multimodal)。 Slide ‹#› 眾數實例 表2.2的清涼飲料購買狀況調查整理成如下的次數 分配。 眾數,即最常購買的清涼飲料,是Coke Classic 。 第3章敘述統計II:數值方法 Part A 第81-82頁 Slide ‹#› 百分位數 • 百分位數(percentile)也是一種位置量數,有助於 瞭解資料在最小值與最大值間的分布情況。 • 針對那些沒有太多重複的資料集而言,p-百分位 數可將資料分割成兩部分,大約p-百分比的觀察 值會小於p-百分位數;而大約有(100-p)百分比 的觀察值會大於p-百分位數。 第3章敘述統計II:數值方法 第82頁 Slide ‹#› 百分位數 p-百分位數表示至少有 p-百分比 (百分之 p) 的觀 察值小於或等於它,而至少有 (100-p) 百分比的 觀察值大於或等於它。 Slide ‹#› 百分位數 將資料遞增排列,即由小到大排序。 計算指標 i i = (p/100)n p為百分位,n為觀察值的個數。 若 i 不是整數,無條件進位後的整數即 p-百分位數 的位置。 若 i 是整數,則p-百分位數為資料排序後的第 i 個與 第 i+1 個觀察值之平均數。 Slide ‹#› 百分位數實例 求表3.1起薪資料的85-百分位數。 步驟 1. 將資料集的所有資料由小到大排序。 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 步驟 2. P 85 i n 12 10.2 100 100 步驟3. 因為 i 不為整數,無條件進位為11,即 85-百分位數的位置指標。因此,85百分位數排 在第11位。 Slide ‹#› 百分位數實例 再看看50-百分位數的計算過程,由步驟2得知 P 50 i n 12 6 100 100 因為 i 是整數,步驟3(b)指出50-百分位數為排序 資料的第6個與第7個數值的平均數;因此,50-百 分位數為(2890+2920)/2=2905 。要注意的是, 此處的50-百分位數也是中位數。 第3章敘述統計II:數值方法 第83頁 Slide ‹#› 四分位數 • 四分位數(quartiles)是百分位數的特例。 • Q1 = 第一四分位數或25-百分位數 • Q2 = 第二四分位數或50-百分位數(即中位數) • Q3 = 第三四分位數或75-百分位數 第3章敘述統計II:數值方法 第83頁 Slide ‹#› 四分位數 第3章敘述統計II:數值方法 第83頁 圖3.1 Slide ‹#› 四分位數實例 將起薪資料再次重新由小到大排序後,第二四分 位數(即中位數)為2905。 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 我們需利用找出25與75-百分位數的規則來得到第 一四分位數Q1與第三四分位數Q3,計算如下。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第83頁 Slide ‹#› 四分位數實例 對Q1而言: P 25 i n 12 3 100 100 因為 i 是整數,步驟3(b)指出第一四分位數,或 25-百分位數,為第3個與第4個資料之平均數。因 此,Q1 =(2850+2880)/2=2865。 Slide ‹#› 四分位數實例 對Q3而言: P 75 i n 12 9 100 100 因為 i 為整數,步驟3(b)指出第三四分位數,或 75-百分位數,為第9個與第10個資料之平均數, 因此, Q3 =(2950+3050)/2=3000。 第3章敘述統計II:數值方法 Part A (3.1~3.2) 第84頁 Slide ‹#› 四分位數實例 四分位數將 12 個資料分成四部分,而每一部分均 包含 25% 的觀察值。 我們定義了25-百分位數、50-百分位數、75-百分 位數等三個四分位數後,便可利用計算百分位數 的規則求出四分位數。 第3章敘述統計II:數值方法 第84頁 Slide ‹#› 3.2 離散量數 • 除了位置量數外,我們還常希望能知道離散量數 或變異量數。 • 例如,選擇兩家不同的供應商訂貨,不僅要考慮 其平均運送時間,還要考慮其運送時間的變異性。 第3章敘述統計II:數值方法 第88頁 Slide ‹#› 3.2 離散量數 全距 四分位數距 變異數 標準差 變異係數 第3章敘述統計II:數值方法 第88-91頁 Slide ‹#› 全距 • 最簡單的離散量數就是全距(range)。 • 全距 = 最大值 - 最小值 • 全距僅用到資料中的兩個值,因此深受極端值 的影響。 第3章敘述統計II:數值方法 第88-89頁 Slide ‹#› 全距實例 參考表 3.1 商學院畢業生的起薪資料,最大值是 3,325,最小值是 2,710,全距就是3325-2710= 615。 假設有一位畢業生的每月起薪是 $10,000,此例中 的全距變為 10000-2710=7290 而不是 615,這 個值並不是非常適合描述資料集的變動性,因為 12 個資料中的 11 個資料均是在 2,710 與 3,130 之 間。 第3章敘述統計II:數值方法 第89頁 Slide ‹#› 四分位數距 • 四分位數距(inter-quartile range, IQR) 這個離散量 數是第三四分位數 Q3 與第一四分位數 Q1 的差。 • IQR= Q3- Q1 • IQR為中間50% 資料的全距。 • 能克服極端資料值的離散量數。 第3章敘述統計II:數值方法 第89頁 Slide ‹#› 四分位數距實例 參考表3.1商學院畢業生的起薪資料,對每月起薪 資料而言,第三四分位數與第一四分位數分別為 Q3=3000 與 Q1=2865,因此,IQR 為 3000- 2865=135。 第3章敘述統計II:數值方法 第89頁 Slide ‹#› 變異數 變異數(variance)是利用到全部資料的離散量數。 變異數是根據每一個觀察值( xi )與平均數之差而 求得。每一個觀察值 xi 與平均數( x 為樣本平均 數,μ為母體平均數)之差稱為離差(deviation about the mean)。 第3章敘述統計II:數值方法 第89頁 Slide ‹#› 變異數 當樣本平均數的差距平方和除以n-1,而非n 時,此樣本變異數為母體變異數的不偏估計量 變異數之定義如下: 2 ( xi x ) s n 1 2 樣本變異數 2 (x i )2 N 母體變異數 第3章敘述統計II:數值方法 第89-90頁 Slide ‹#› 變異數實例 利用3.1節中5個大學班級人數的樣本為例。 46 54 42 46 32 資料的彙總在表3.3,包括離差及離差的平方。離 差平方的總和為 Σ( xi - x)2 =256。因此,在n-1 =4時,樣本變異數為 s 2 2 ( x x ) i n1 256 64 4 第3章敘述統計II:數值方法 第90頁 Slide ‹#› 變異數實例 第3章敘述統計II:數值方法 第90頁 表3.3 Slide ‹#› 變異數實例 表3.1的起薪資料為例,說明樣本變異數的計算, 在3.1節中,我們算出樣本平均起薪值為2,940。樣 本變異數(s2=27,440.91)的結果列於表3.4。 表3.3與3.4中值得注意的是,我們算出離差與離差 平方的總和。對於任何資料集,離差的總和必為0。 因此,如同表3.3與表3.4顯示 Σ( xi - ) =0,這是 x 恆成立的,因為正的離差與負的離差會相互抵消, 而使得離差的總和為0。 第3章敘述統計II:數值方法 第90頁 Slide ‹#› 表3.4 起薪資料樣本變異數的計算 第3章敘述統計II:數值方法 第91頁 表3.4 Slide ‹#› 標準差 標準差(standard deviation)的定義是變異數的 正平方根。 標準差比變異數容易解釋,因為標準差的衡量 單位與資料相同。 第3章敘述統計II:數值方法 第91頁 Slide ‹#› 標準差 由變異數得到標準差的方法如下。 s s 2 樣本標準差 2 母體標準差 第3章敘述統計II:數值方法 第91頁 Slide ‹#› 標準差實例 以表3.1的起薪資料為例,樣本標準差為 s= 27440.91 =165.65。 第3章敘述統計II:數值方法 第91頁 Slide ‹#› 變異係數 變異係數是變異性的相對衡量,它衡量標準差 相對於平均值的大小。 變異係數計算如下: 標準差 100 % 平均數 第3章敘述統計II:數值方法 第91-92頁 Slide ‹#› 變異係數實例 CV是量測相對(於期望值)分散程度的量數,表示標準差佔 期望值的百分比,通常小於1 例:(起薪的資料)樣本平均數 2940 與樣本標準差 165.65, 變異係數為 165.65 CV 100(%) 5.6% 2,940 表示薪資的分散程度約為期望值的5.6% 一般而言,欲比較具有不同的標準差與平均數的資料之離 散程度時,變異係數是一個有用的統計量。 第3章敘述統計II:數值方法 第92頁 Slide ‹#› 生活中的實例 設甲、乙兩班某次數學考試成績,甲班樣本平均 數為60分,樣本標準差為18分,乙班樣本平均數 為65分,樣本標準差為13分。則 甲班成績之變異係數為 乙班成績之變異係數為 所以乙班變異係數較小。 Slide ‹#› 3.3 分配的形狀的量數,相對位 置,以及離群值的偵測 分配的形狀 z 分數 柴比雪夫定理 經驗法則 離群值的偵測 第3章敘述統計II:數值方法 第95-98頁 Slide ‹#› 分配的形狀:偏度(skewness) • 一分配形狀的重要數值衡量則是偏度(skewness)。 • 計算偏度的公式有些複雜。 • 衡量樣本的偏度公式是: xi x n 偏度 (n 1)(n 2) s 3 • 但是若以統計軟體來計算,則是輕而易舉。 第3章敘述統計II:數值方法 第95頁 Slide ‹#› 分配的形狀:偏度(skewness) 對稱 (不偏) 偏度為 0 。 對稱分配的平均數及中位數是相等的。 第3章敘述統計II:數值方法 第95-96頁 圖3.3 Slide ‹#› 分配的形狀:偏度(skewness) 適度左偏 偏度為負值。 平均數常小於中位數。 第3章敘述統計II:數值方法 第95-96頁 圖3.3 Slide ‹#› 分配的形狀:偏度(skewness) 適度右偏 偏度是正值。 平均數通常大於中位數。 Slide ‹#› 分配的形狀:偏度(skewness) 高度右偏 偏度是正值。 (通常大於1.0) 平均數通常大於中位數。 Slide ‹#› z 分數 z分數是每一個分數與平均數之差除以標準差, 可用來表示某一分數與平均數之距離為幾個標準差 z 分數通常稱為標準化值(standardized value)。 每個 xi 會有一個稱之為 z 分數(z -score)的數值 與之對應。 xi x zi s Slide ‹#› z 分數 • 可表示該數值於分布中的相對位置。 • 轉換過程稱為Z轉換(Z-transformation)或標準化(standardization)。 • 資料集小於樣本平均數則 z 分數小於 0。 • 資料集大於樣本平均數則 z 分數大於 0。 • 資料集等於樣本平均數則 z 分數等於 0。 Slide ‹#› z 分數實例 表 3.5 是班級人數資料的 z 分數,之前算出平均數 為 x =44,樣本標準差為 s=8。第 5 個觀察值的 z 分數為 -1.50,是離平均數最遠的資料值,比平 均數小 1.50個標準差。 Slide ‹#› 柴比雪夫定理 在資料集內,至少有 (1-1/k2) 百分比的觀察值 與平均數的差距必須在 k 個標準差之內,k 為任 何大於 1 之值。 Slide ‹#› 柴比雪夫Chebyshev定理 在任何的資料分配中,觀測值落於平均數左右k個 標準差的區間內之比例,至少為 1 1 k 2 至少(1 x ks x 1 k 2 ) x ks Slide ‹#› 柴比雪夫定理 各種不同k值之Chebyshev定理的應用 k 區間 落於該區間內觀測值的比例 1 ( x s, x s ) 至少為0(至少0%) 2 ( x 2 s, x 2 s ) 2.5 ( x 2.5s, x 2.5s) 3 ( x 3 s, x 3 s ) 3 至少為 (至少75%) 4 21 至少為 (至少84%) 25 8 至少為 (至少89%) 9 Slide ‹#› 經驗法則 針對鐘形分配的資料集而言: 大約 68.26% 的觀察值與平均數的差距在一個標準差內。 大約 86.64% 的觀察值與平均數的差距在1.5個標準差內。 大約 95.44% 的觀察值與平均數的差距在二個標準差內。 大約 98.76% 的觀察值與平均數的差距在2.5個標準差內。 大約 99.72%(幾乎所有的觀察值) 與平均數的差距在三個標準差內。 Slide ‹#› 經驗法則 99.72% 95.44% 68.26% m – 3s m – 1s m – 2s m x m + 3s m + 1s m + 2s Slide ‹#› 柴比雪夫定理實例 若某學院商用統計課程有 100 位學生修課,期中 考成績之平均數為 70,標準差為 5。有多少學生 的分數介於 60 與 80 之間?又有多少學生的分數 介於 58 與 82 之間? (1) 我們注意到 60 的值是小於平均數 2 個標準差, 而80 則是大於平均數 2 個標準差。利用柴比雪夫 定理,我們可看出至少 0.75 或至少75% 的觀察值 與平均數的差距必須在兩個標準差之內。因此, 100 個學生至少有75 人分數介於 60 與 80 之間。 Slide ‹#› 柴比雪夫定理實例 (2) 而分數介於 58 與 82 的人數又是多少?我們可看 出 (58-70)/5=-2.4,表示58 是小於平均數 2.4 個標準差;而 (82-70)/5=+2.4,表示 82 大於平 均數 2.4 個標準差。利用柴比雪夫定理 z=2.4,我 們可得到 至少有82.6%的學生的分數必須介於58與82。 Slide ‹#› 假定從一批產品隨機抽出20個量測其長度(公分),記錄如下: 1.8,1.9,2.0,2.1,2.3,2.4,2.5,2.5,2.5,2.7,2.8,2.9,3.0,3.2,3.2,3.3, 3.7,3.8 試利用Chebyshev定理求出,有多少比例的觀測值 落於(1.495,3.835)的區間內。 利用Chebyshev定理 至少有75%落於(1.495,3.835)區間 即至少75% 20 15個 先求mean & std 利用經驗法則 再求 k 代入Chebyshev定理 有95%落於(1.495,3.835)區間 即95% 20 19個 x ks x x ks 1.495 2.665 3.835 1.495 2.665 k 0.585 3.835 2.665 k 0.585 k 2 1 1 1 1 75% k2 22 實際上則有20個觀測值 落於此區間 利用經驗法則 有 68% 落於( 2.08,3.25)區間 即68% 20 13.6 13個 實際上則有13個觀測值 當資料分配愈近似對稱分配,則經驗法則更精確。 Slide ‹#› 隨堂練習 某學期統計學期末成績,陳老師打算當掉6%的 修課學生,若期末成績的全班平均分數為52分, 標準差6分,且呈鐘形分配。 (1)試依Chebyshev定理,計算及格分數。 (2)試依經驗法則,計算及格分數。 (3)哪一方法較適合? Slide ‹#› Chebyshev定理 1 1 2 0.88 k 1 0.12 2 k 2 k 8.33 k 2.89 pass score 52 2.89 6 34.66 Slide ‹#› 經驗法則 內插法 x 1.5 0.88 0.8664 2 1.5 0.9544 0.8664 k 1.5 kx k2 0.8664 0.88 0.9544 pass score 52 (1.5772) 6 42.54 x 1.5772 Slide ‹#› 3.4 探究性資料分析 五數彙總 箱形圖 Slide ‹#› 五數彙總(five-number summary) 1 最小值 2 第一四分位數 (Q1) 3 中位數 (Q2) 4 第三四分位數 (Q3) 5 最大值 Slide ‹#› 五數彙總(five-number summary)實例 表 3.1 中 12 位商業學校畢業生的薪資若以遞增順 序排列的話可以得到下列資料。 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 Q1=2865 Q2=2905 Q3=3000 (中位數) 由3.1節已知中位數為2905,Q1=2865且Q3=3000。 再回顧此資料集之最小值為2710,而最大值為 3325。因此,此資料集之五數彙總為2710, 2865, 2905, 3000, 3325。大約有1/4或25% 的資料值會介 於這五數的兩兩間隔之間。 第3章敘述統計II:數值方法 第102頁 Slide ‹#› 箱形圖 • 箱形圖(box plot)是根據五數彙總而繪製的圖形。 • 繪製箱形圖的關鍵在中位數與四分位數(Q1與Q3), 也用到四分位數距 IQR=Q3-Q1。 • 箱形圖是另一種辨別離群值的方法。但是這種 方法不見得會與用 z 分數找出的離群值相同。 運用兩種方法或只用任一種方法皆可行。 Slide ‹#› 箱形圖 圖3.5為月薪資料的箱形圖以及上、下界線。 第3章敘述統計II:數值方法 第103頁 圖3.5 Slide ‹#› 箱形圖 繪製箱形圖的步驟如下: 1. 2. 3. 箱形的製作以第一四分位數、第三四分位數為前後邊。 以起薪資料為例,Q1=2865, Q3=3000,箱形包含中 間50% 的資料值。 箱形中的垂直線位置為中位數 (以起薪資料而言是 2905)。因此,中位數位置的直線將所有資料分割成兩 等分。 使用四分位數距 IQR=Q3-Q1 時,必須設定界限 (limits),箱形圖的界限分別位於 Q1 之下1.5(IQR)或 Q3 之上1.5(IQR)。對起薪資料而言,IQR= Q3-Q1 = 3000-2865=135。因此,界限為 2865-1.5(135)= 2662.5 與 3000+1.5(135)=3202.5。在界限之外的值 為離群值。 Slide ‹#› 箱形圖 4. 5. 圖 3.5 的虛線稱之為鬚 (whiskers)。鬚的畫法是從步驟 3 中箱形的兩邊至界限內最大值與最小值,以圖 3.5 為例,分別是 2710 與 3130。 最後,以 * 表示離群值的位置;在圖 3.5 中,可看到 一個離群值 3,325。 圖 3.5 中有標示上、下界限的直線。這些線用來 標示資料的範圍,雖然我們會算出這些數值,但 在箱形圖中通常不會顯示出來。圖 3.6 是起薪資 料的箱形圖的一般形式。 Slide ‹#› 3.5 兩變數的相關性量數 共變異數 相關係數 Slide ‹#› 共變異數 共變異數(covariance)是兩變數間線性相關的 敘述量數。 是量測兩量化變數之間線性關聯程度的量數。 共變異數為正值表示正相關。為負值表示負相關。 共變若觀察資料的序對呈現狹長的帶狀分佈, 則表示兩變數具有線性關聯,分布越集中,越有關聯。 Slide ‹#› 共變異數 樣本共變異數 sxy xy ( xi x )( yi y ) n 1 ( xi x )( yi y ) N 第3章敘述統計II:數值方法 第107頁 樣本共變異數 母體共變異數 Slide ‹#› 共變異數實例 回顧 2.4 節立體音響設備店的例子。該店的經理 有興趣研究未來幾個週末的電視廣告與銷售量的 關係,樣本資料列於表 3.7 中。 Slide ‹#› 共變異數實例 圖 3.7 為兩變數的散佈圖,其顯示出一種正向的 關係:較高的銷售量 (y) 伴隨著較高的廣告次數 (x)。 Slide ‹#› 共變異數實例 為了測量廣告次數 x 與銷售額 y 的線性關係之強 度,我們利用式(3.10)計算樣本共變異數。表3.8 是 ( xi x )( yi y ) 的計算過程。請注意 x =30/10=3且 y =510/10=51,利用式(3.10), 可得共變異數為 S xy (x i x )( y i y ) n 1 99 11 9 Slide ‹#› 共變異數實例 Slide ‹#› 共變異數的意義 以圖3.8來解釋樣本共變異數。 第3章敘述統計II:數值方法 第108頁 圖3.8 Slide ‹#› 圖3.9 樣本共變異數的解釋 第3章敘述統計II:數值方法 第109頁 圖3.9 Slide ‹#› 圖3.9 樣本共變異數的解釋 Slide ‹#› 圖3.9 樣本共變異數的解釋 第3章敘述統計II:數值方法 第109頁 圖3.9 Slide ‹#› 相關係數 相關係數(Correlation Coefficient)的範圍由−1到+1。 樣本相關係數為 1 代表兩變數 x 與 y 之間是完全 正線性相關。 一個樣本相關係數為-1 代表兩變數 x 與 y 之間 是完全負線性相關。 Slide ‹#› 相關係數 皮爾生相關係數 rxy sxy sx s y 樣本資料 xy xy x y 母體資料 第3章敘述統計II:數值方法 第110頁 Slide ‹#› 相關係數 相關係數讓我們瞭解兩個變數間線性相關的 程度,而非因果關係存在與否。 兩變數間的高度相關並不表示兩變數間必然有 因果關係。 Slide ‹#› 相關係數實例 以立體音響設備店的資料為例,求其樣本相關係數。利用 表3.8的資料,我們便能計算兩變數的樣本標準差。 因為 sxy=11,可得到樣本相關係數為 我們的結論是:廣告次數與銷售量之間存在強大正的線性 關係。更明確地說,廣告次數增加時,銷售量也增加。 Slide ‹#› 相關係數實例 假設某一特定資料集顯示 x 與 y 間有正線性相 關但不是完全正線性相關,rxy 之值將會小於1, 表示在散佈圖上的點並非全部落在一條直線上。 當資料點愈來愈偏離完全正線性相關, rxy的 值會愈變愈小。 rxy之值等於零表示 x 與 y 之間沒有線性關係, 且 rxy之值接近零表示一種微弱的線性相關。 第3章敘述統計II:數值方法 第112頁 Slide ‹#› 3.6 加權平均數與群組資料的處理 加權平均數 群組資料的樣本平均數 群組資料的樣本變異數 群組資料的標準差 第3章敘述統計II:數值方法 第114-118頁 Slide ‹#› 加權平均數 加權平均數(weighted mean)是在某些情況為了 反映個別觀察值的重要性,計算平均數時要對 每一觀察值加上權重,以此方式計算而得到的值 wx x w i i i 其中: xi = 第 i 個觀察值 wi = 第 i 的觀察值的權重 第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁 Slide ‹#› 加權平均數實例 以下是一個加權平均數的例子,我們以過去3個月 所做的5次採購來做說明。 第3章敘述統計II:數值方法 第115頁 Slide ‹#› 加權平均數實例 我們可以由資料中觀察到,每磅成本由 $2.80至 $3.40不等,而且採購數量在500至2,750磅之間, 假設經理想要瞭解原料每磅的平均成本,由於訂 購數量各有不同,所以我們必須應用加權平均數 的觀念。資料顯示5筆原料每磅成本分別為 x1= 3.00, x2=3.40, x3 =2.80, x4=2.90,以及 x5=3.25, 則每磅成本的加權平均成本等於每項成本乘上其 對應採購量加權而得。 第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁 Slide ‹#› 加權平均數實例 所以,本例的權重分別為 w1=1200, w2=500, w3 =2750, w4=1000,以及w5 =800,應用式(3.15),我們可以求得加 權平均數: 因此,由加權平均數的計算,可以得到原料的每磅平均成 本等於 $2.96。值得注意的是,若我們使用式 (3.14) 而非 加權平均數的公式,將誤導結果。因為,(3.00+3.40+ 2.80+2.90+3.25)/5=15.35/5=$3.07。這個結果高估了每 磅平均採購成本。 第3章敘述統計II:數值方法 Part B (3.3~3.6) 第115頁 Slide ‹#› 群組資料 • 在大部分的案例中,位置與離散量數都是利用個 別資料計算而得。 • 有時僅有群組資料(grouped data)或是次數分配 形式的資料。 • 為了計算群組資料的平均數,我們視每組中點為 此分組所有數值的代表。 • 應用加權平均數的式(3.15) ,而且以Mi作為資料 值,次數fi作為權重。 第3章敘述統計II:數值方法 第116-117頁 Slide ‹#› 群組資料的平均數 • 群組資料的樣本平均數 fM x i i n • 群組資料的母體平均數 fM i i N 其中: fi = 第 i 組的次數 Mi = 第 i 組的組中點 第3章敘述統計II:數值方法 第116.118頁 Slide ‹#› 群組資料的變異數 • 群組資料的樣本變異數 2 f ( M x ) i i s2 n 1 2 • 群組資料的母體變異數 2 f ( M ) i i 2 N 第3章敘述統計II:數值方法 第117.118頁 Slide ‹#› 群組資料的實例 在2.2節中,我們做出Sanderson and Clifford會計事 務所完成年度稽核時間(天)的次數分配,並以20 家公司為樣本,做出稽核時間的次數分配如表 3.11。 第3章敘述統計II:數值方法 第116頁 表3.11 Slide ‹#› 群組資料的實例 五個分組的組中點與加權平均數的計算在表 3.12 中,如表所示,樣本平均稽核時間為 19 天。 Slide ‹#› 群組資料的實例 根據表 3.11 稽核時間的群組資料,將樣本變異數 的計算過程列在表 3.13,計算結果可知樣本變異 數為30。 第3章敘述統計II:數值方法 第117頁 表3.13 Slide ‹#› 群組資料的實例 群組資料的標準差即是變異數的平方根。以稽核 時間而言,樣本標準差 s 30 5.48 第3章敘述統計II:數值方法 第117頁 Slide ‹#› 評註 在計算群組資料的敘述統計量時,組中點用來近 似該分組的資料值,結果是群組資料的敘述統計 量只會近似於直接使用原始資料所得到的敘述統 計量。因此,我們建議儘可能從原始資料而不是 群組資料來計算敘述統計量。 第3章敘述統計II:數值方法 第118頁 Slide ‹#› End of Chapter 3 Slide ‹#›