Transcript 描述統計
社會統計 第二講 描述統計 ©Ming-chi Chen 社會統計 Page.1 如何描述一組為數眾多的數值? • 開學第一堂課填答問卷的同學其身高如下:160、 168、169、160、171、181、169、170、163、 170、168、180、175、162、160、175、172、 161、161、155、153、163、161、160、178共25 位同學。 • 請問我們怎麼從中看出什麼意義? ©Ming-chi Chen 社會統計 Page.2 以枝葉圖表示 15 3 15 5 16 0000111233 16 8899 17 0012 17 558 18 01 ©Ming-chi Chen 社會統計 Page.3 以直方圖表示 次數 社會統計同學身高 12 10 8 6 4 2 0 頻率 5 <1 5 6 <1 0 6 <1 5 7 <1 0 7 <1 5 8 <1 0 80 1 >= 身高 ©Ming-chi Chen 社會統計 Page.4 你看出了什麼? • 分配的形狀 • 集中於何處?平均在哪裡? • 分散有多廣?* ©Ming-chi Chen 社會統計 Page.5 Summation Notation 基本運算複習 N x i 1 i x1 x2 x3 xN ©Ming-chi Chen 社會統計 Page.6 基本運算複習 N N N i 1 i 1 ( x y ) ( xi ) ( yi ) i 1 x 2 3 4 2 1 12 ©Ming-chi Chen y 3 4 6 2 1 16 i i x+y 5 7 10 4 2 28 12+16=28 社會統計 Page.7 基本運算複習 N ( cx cx cx ) ( c x ) 1 2 N i i 1 c( x1 x2 xN ) N c xi i 1 ©Ming-chi Chen 社會統計 Page.8 基本運算複習 N c c c c c i 1 N times N c ©Ming-chi Chen 社會統計 Page.9 基本運算複習 N ( x c) i 1 i N N i 1 i 1 xi c N xi n c i 1 ©Ming-chi Chen 社會統計 Page.10 基本運算複習 N ( x ) i 1 i N 2 是否等於 ( xi ) i 1 N ( x ) ( x ) i i N 2 i 1 ©Ming-chi Chen 2 2 i 1 社會統計 Page.11 基本運算複習 N ( x c) i 1 N i N 2 ( xi 2cxi c ) 2 2 i 1 xi 2c xi nc 2 2 i 1 ©Ming-chi Chen 社會統計 Page.12 母體平均數population mean x1 x2 xN xi u N N 大N通常代表母體的個數 ©Ming-chi Chen 社會統計 Page.13 樣本平均數sample mean x1 x2 xN x n x i n 小n通常代表母體的個數 ©Ming-chi Chen 社會統計 Page.14 次數分配(frequency distribution) • 次數分配表呈顯落在各個不同組(class)裡 面觀察到的數量,在第i 組裡的次數稱為組次 數,以fi來表示。 ©Ming-chi Chen 社會統計 Page.15 次數分配(frequency distribution) • 社會變遷基本調查資料中,每一名受訪者皆被要求 提供月薪資訊: • 第一位受訪者 月薪2.4萬 • 第二位受訪者 月薪4.5萬 …….. • 第1813位受訪者 月薪5.2萬 • 此時我們可以透過次數分配表來整理資料,以便瞭 解台灣地區民眾收入的分佈情形。 ©Ming-chi Chen 社會統計 Page.16 次數分配(frequency distribution) Class組數 class boundary組界 class frequency 組次數(f i ) B0 ~ B1 B1 ~ B2 f1 f2 1 2 3 4 k f3 下組界 Lower limit Bk-1~Bk fk Width of class組距= Bk- Bk-1 組中點=(Bk+Bk-1)/2 ©Ming-chi Chen 上組界 Upper limit 社會統計 Page.17 次數分配(frequency distribution) 您現在這個工作,每個月月入多少元? 組數 組界 1 1萬元以下 2 1-2萬元 3 2-3萬元 4 3-4萬元 5 4-5萬元 6 5-6萬元 7 6-7萬元 8 7-8萬元 9 8-9萬元 10 9-10萬元 11 10-11萬元 12 19-20萬元 13 20萬元以上 ©Ming-chi Chen Total 組次數 百分比 累積百分比 Frequency Percent Cumulative Percent 88 4.85 4.85 330 18.20 23.06 430 23.72 46.77 341 18.81 65.58 239 13.18 78.76 163 8.99 87.76 71 3.92 91.67 43 2.37 94.04 18 0.99 95.04 25 1.38 96.41 22 1.21 97.63 28 1.54 99.17 15 0.83 100.00 社會統計 1813 100 組上界=2萬 組下界=1萬 組寬=1萬 組中點 = 1.5萬 Page.18 選擇組界的兩個原則(two rules for selecting classes) • 互斥性mutually exclusive:各組的組界不得 重疊,即每有任何一個觀察值可以被同時分 類至不同的兩個組中。 – 一般以「不含組上界值」為規範,如組上界為2萬, 僅將2萬元以下的觀察值歸入該組,2萬元整及以 上的觀察值歸入下一組。 • 周延性Exhaustive:所有的觀察值皆能被歸入 某一組中。 ©Ming-chi Chen 社會統計 Page.19 分組的其他原則 • • • • • • 究竟要分幾組才恰當? 視情況而定,一般以5-20組為原則。 或者可採用下列公式及算組數: 組數=1+3.322 ×log(n樣本數) 組寬要多大? 最好能設等距的組寬,但如果部分觀察值的分佈情 形非常集中,另一部份非常分散,則有時候會採用 不等距的分組方式。 ©Ming-chi Chen 社會統計 Page.20 分組的其他原則 • 組界的選擇 • 最好能夠選擇組的上下界,使組中點接近該 組觀察值的平均數。因為我們在計算全體總 平均時,會以組中點來代表該組的平均值, 因此組中點越接近該組的平均值,估計的總 平均數會越準確。 ©Ming-chi Chen 社會統計 Page.21 分組的其他原則 Midpoint 100元 50元 ©Ming-chi Chen 200元 Midpoint 社會統計 150元 Page.22 Relative Frequency Distributions 相對次數 • 相對次數為第i組的次數,佔全體的比率。 f(第 i組的次數) f(第 i組的次數) i i 或 n(樣本數) N(母體數) ©Ming-chi Chen 社會統計 Page.23 相對次數(Relative frequency) 您現在這個工作,每個月月入多少元? 組數 組界 1 1萬元以下 2 1-2萬元 3 2-3萬元 4 3-4萬元 5 4-5萬元 6 5-6萬元 7 6-7萬元 8 7-8萬元 9 8-9萬元 10 9-10萬元 11 10-11萬元 12 19-20萬元 13 20萬元以上 ©Ming-chi Chen Total 組次數 百分比 累積百分比 Frequency Percent Cumulative Percent 88 4.85 4.85 330 18.20 23.06 430 23.72 46.77 341 18.81 65.58 239 13.18 78.76 第二組的相對次 數為: 163 8.99 87.76 330/1813 = 0.182 71 3.92 91.67 43 2.37 94.04 18 0.99 95.04 25 1.38 96.41 22 1.21 97.63 28 1.54 99.17 15 0.83 100.00 社會統計 Page.24 1813 100 Frequency Histogram直方圖 500 430 400 341 330 300 組 200次 數 100 239 163 88 0 1萬元以下 ©Ming-chi Chen 1-2萬元 2-3萬元 社會統計 3-4萬元 4-5萬元 5-6萬元 Page.25 相對次數直方圖 • 與直方圖相同,為其縱軸改以相對次數表達 0.237 0.250 組 相 對 次 數 0.132 0.150 0.090 0.100 0.050 0.000 ©Ming-chi Chen 0.188 0.182 0.200 0.049 1萬元以下 1-2萬元 社會統計 2-3萬元 3-4萬元 4-5萬元 5-6萬元 Page.26 分組資料的算數平均數 f x x , 其中 x i i i n xi 3 4 5 6 fi 34 13 24 32 103 為觀察值 xi× fi 102 52 120 192 466 f x i f x x i n ©Ming-chi Chen i 社會統計 n i 466 103 Page.27 連續性資料的算數平均數 f m x , 其中 m 為組中點,f 為組次數 i i i n 組下界 組上界 3 4 4 5 5 6 6 7 fi 34 13 24 32 103 mf x i n ©Ming-chi Chen i i 組中點m i 3.5 4.5 5.5 6.5 mi× fi 119 58.5 132 208 517.5 517 .5 103 社會統計 Page.28 算數平均數 • 各個觀察值與平均數差的總和為0 n ( x x) 0 i 1 證明 i n x x x n x i 1 i i x x i n n f (m x ) 0 i 1 i ©Ming-chi Chen xi n x i 社會統計 Page.29 算數平均數 • 各個觀察值與平均數差的平方和為最小 n n i 1 i 1 2 2 ( x x ) ( x ) 其中為任意數 i i n 2 2 ( x ) [( x x ) ( x )] i i i 1 常數 2 2 ( x x ) ( x ) 2( xi x )( x ) i 大於等於0 ©Ming-chi Chen 社會統計 等於0 Page.30 算數平均數 • 設x1, x2, x3, …xn 之算數平均數為x-bar 若 yi xi b y x b 若 yi a xi b y a x b ©Ming-chi Chen 社會統計 Page.31 算數平均數 每位員工皆加薪5000元 Name Income Raise New income A 3 0.5 3.5 B 4 0.5 4.5 C 5 0.5 5.5 D 3 0.5 3.5 E 4 0.5 4.5 Average 3.8 ©Ming-chi Chen 4.3 社會統計 Page.32 算數平均數 每位員工皆加薪5% Name Income Raise New income A 3 1.05 3.15 B 4 1.05 4.2 C 5 1.05 5.25 D 3 1.05 3.15 E 4 1.05 4.2 Average 3.8 ©Ming-chi Chen 3.99 社會統計 Page.33 算數平均數 • 平均值容易受到極端值 的影響,若資料中有過 大或過小的觀察值時, 不要以平均值來代表集 中趨勢。 ©Ming-chi Chen 社會統計 Name Income A 3 B 4 C 5 D 3 E 60 Average 15 Page.34 算數平均數 • 分組資料中若有開放式 的組界,由於該組的組 中點無法決定,因此其 平均數亦無法計算。 Name 社會統計 f A 3 ~ 4 23 B 4 ~ 5 12 C 5 ~ 6 34 D 6 ~ 7 12 E 7以上 Average ©Ming-chi Chen Income 32 ?? Page.35 Median •將一組數字由大排至小,位居中間的數值為 該組數字的中衛數。一般以Md來表示 ©Ming-chi Chen 社會統計 Page.36 Median中位數 • 如果一組數列有奇數個觀察值,則中位數為排序後 數列的中間值 • 12 13 14 15 16 17 18 • 如果一組數列有偶數個觀察值,則中位數為排序後 數列的中間兩個觀察值的算數平均數 • 12 13 14 15 16 17 18 19 Md = 15.5 ©Ming-chi Chen 社會統計 Page.37 Median中位數 •未分組資料求中位數: •將n個數值由小至大排序 •決定中位數所在的位置n/2+1/2。 •若n為偶數,則取第n/2與第n/2+1個之數值的 平均數為代表。 ©Ming-chi Chen 社會統計 Page.38 Median中位數 •求下列數值的中位數: • 66 70 71 76 80 84 92 •n=7, 所以中位數所在的位置為第(7+1)/2=4 第4個數值(76). • 66 70 71 76 80 84 92 96 •n=8, 中位數所在的位置為第(8+1)/2=4.5 個,取第n/2(第4個)值與第n/2+1(第五個) 值的平均數 • =(76+80)/2 = 78 ©Ming-chi Chen 社會統計 Page.39 Median中位數 • 1. 2. 3. 4. 列舉式分組資料求中位數的步驟: 將資料由小至大排序。 計算累加次數。 決定中位數所在的位次(n+1)/2。 如果中位數的位次剛好在組內,則取該組的 數值x為中位數。如果位次落在兩組中間, 則取兩組的平均值。 ©Ming-chi Chen 社會統計 Page.40 Median中位數 • 中位數的位次=94/2+1/2=47.5 • Median = 82 分數 77 78 80 82 84 86 90 ©Ming-chi Chen 人數 6 12 15 22 21 16 2 累加人數 6 18 33 55 76 92 94 社會統計 Page.41 Median中位數 • 中位數的位次=94/2+1/2=47.5 • Median = (82+84)/2 分數 人數 77 6 6 78 12 18 80 15 33 82 14 47 84 21 68 86 16 84 90 10 94 ©Ming-chi Chen 累加人數 社會統計 Page.42 分組資料中位數的推估 • 分組資料(連續資料)求中位數的步驟: 1. 計算累加次數。 2. 根據中位數所在的位次n/2+1/2,找出中位 數所在的組別。 3. 以下列公式求出中位數: ©Ming-chi Chen 社會統計 Page.43 分組資料中位數的推估 n 設Fi 第i組的累積次數,若 Fi 1 Fi 2 n C m edian BL ( Fi 1 ) 2 f BL 為該組的組下界 C為中位數所在的組的組距 f為中位組所在組的次數 ©Ming-chi Chen 社會統計 Page.44 分組資料中位數的推估 Class組數 Cumulative boundary frequency frequency 組界 組次數(f i ) 累積次數 1 B0 ~ B1 f1 F1 2 B1 ~ B2 f2 F2 3 4 … f3 F3 i fi Fi fk Fk k (1) 先將各組次數加 總求出總次數,再用 n/2的公式找到中位 數的 F i-1 Bk-1~Bk ©Ming-chi Chen f i n 社會統計 Page.45 分組資料中位數的推估 Class組數 Cumulative boundary frequency frequency 組界 組次數(f i ) 累積次數 1 B0 ~ B1 f1 F1 2 B1 ~ B2 f2 F2 f3 F3 3 4 … F i-1 i Bi-1~Bi fi Fi k Bk-1~Bk fk Fk f ©Ming-chi Chen i (2)如果中位數的位 次n/2介於Fi-1與Fi之 間。 (3) 用C= Bi-Bi-1求 得組距C 則中位數= n C Bi 1 ( Fi 1 ) 2 f n 社會統計 Page.46 分組資料中位數的推估 • 這個公式看起來有點複雜,其實很好理解。 我們已知第n/2的數值落於該組中,我們想要 找出最接近第n/2的位置的一個推估數值。 Fi-1 n C Bi 1 ( Fi 1 ) 2 f n/2 組距為C,組次數為f, C/f可以看成每個觀察值 之間的單位距離 從第n/2個觀察值到本組的 下界之間共有幾個觀察值 ©Ming-chi Chen 社會統計 Page.47 分組資料中位數的推估 請問你每星期大約工作幾小時? 0-10小時 27 11-20小時 35 21-30小時 57 31-40小時 172 41-50小時 1001 51-60小時 251 61-70小時 87 71-80小時 71 81-90小時 50 91-100小時 35 1786 ©Ming-chi Chen 社會統計 請找出台灣地區成 年人每週工時的中 位數。 Page.48 分組資料中位數的推估 請問你每星期大約工作幾小時? f F累積次數 0-10小時 27 27 11-20小時 35 62 21-30小時 57 119 31-40小時 172 291 41-50小時 1001 1292 51-60小時 251 1543 61-70小時 87 1630 71-80小時 71 1701 81-90小時 50 1751 91-100小時 35 1786 1786 ©Ming-chi Chen 社會統計 步驟一:先算出累 積次數 步驟二:找出中位 數所在的組 (n/2+1/2)。 n/2=1786/2=893 Page.49 分組資料中位數的推估 請問你每星期大約工作幾小時? f F累積次數 0.5-10.5小時 27 27 10.5-20.5小時 35 62 20.5-30.5小時 57 119 30.5-40.5小時 172 291 40.5-50.5小時 1001 1292 50.5-60.5小時 251 1543 60.5-70.5小時 87 1630 70.5-80.5小時 71 1701 80.5-90.5小時 50 1751 90.5-100.5小時 35 1786 1786 ©Ming-chi Chen 社會統計 步驟三:將組界調整 成為不間斷 步驟四:套入公式求 組中位數: Median = 40.5+ (1786/2 – 291) * (50.540.5)/1001 = 46.51 Page.50 中位數的特性 • 各觀察值與中位數差異的絕對值總和為最小。 令α為任意數,則: n x M i 1 i n d xi i 1 別忘了: n n i 1 i 1 2 2 ( x x ) ( x ) 其中為任意數 i e i ©Ming-chi Chen 社會統計 Page.51 眾數Mode • 未分組或列舉式資料:找出出現最多次數的 觀察值,即為眾數Mo。 ©Ming-chi Chen 社會統計 Page.52 分組資料求眾數Mode • 先再次數表中找出次數最多的那一組,稱為 「眾數組」。 • 若取眾數組的組中點為眾數,則稱為「粗眾 數」 ©Ming-chi Chen 社會統計 Page.53 分組資料求眾數Mode- King插補法 • King差補法 f 1 Mo B C f 1 f 1 500 430 400 330 300 f-1 200 100 眾 數 組 341 f+1 239 163 88 0 1萬元以下 ©Ming-chi Chen 1-2萬元 Mo B2-3萬元 3-4萬元 社會統計 4-5萬元 5-6萬元 Page.54 分組資料求眾數Mode- King插補法 • King差補法 f 1 Mo B C 組 f f 1 1 眾 組 數 組 ©Ming-chi Chen 下 界 社會統計 距 前 一 組 次 數 後 一 組 次 數 Page.55 分組資料求眾數Mode- King插補法 25 23 23 21 19 17 17 15 13 13 11 10 14 眾 數 組 當f-1>f+1時, 眾數較靠近 「組中點」 的左方 14 f-1 12 f+1 11 9 7 5 ©Ming-chi Chen 社會統計 Page.56 分組資料求眾數Mode- King插補法 25 當f-1<f+1時, 眾數較靠近 「組中點」的 右方 23 23 21 18 19 17 15 12 13 11 10 9 13 14 12 f-1 11 f+1 7 5 ©Ming-chi Chen 社會統計 Page.57 分組資料求眾數Mode- Czuber插補法 1 Mo B C 1 2 1 f f 1 2 f f 1 f為眾數組的次數 f 1為前一組的次數 f 1為後一組的次數 C為組距 ©Ming-chi Chen 社會統計 Page.58 分組資料求眾數Mode- Czuber插補法 1 Mo B C 1 2 25 23 23 2 f f 1 21 19 17 1 f f 1 15 12 13 11 10 13 14 12 f f 1 9 18 11 f 1 7 5 ©Ming-chi Chen 社會統計 Page.59 分組資料求眾數Mode- Pearson 經驗法 • Pearson發現在單峰微偏的次數分配中,平均數至眾 數的距離,為平均數至中位數距離的三倍。 X Mo 3( X Md ) Mo X 3( X Md ) Mo M d X ©Ming-chi Chen 社會統計 Page.60 例題:用三種方法求眾數 請問你每星期大約工作幾小時? f F累積次數 0.5-10.5小時 27 27 10.5-20.5小時 35 62 20.5-30.5小時 57 119 30.5-40.5小時 172 291 40.5-50.5小時 1001 1292 50.5-60.5小時 251 1543 60.5-70.5小時 87 1630 70.5-80.5小時 71 1701 80.5-90.5小時 50 1751 90.5-100.5小時 35 1786 1786 ©Ming-chi Chen 社會統計 • 粗眾數 = 45.5 • King’s Mo = 40.5 +251/(172+251) ×10 = 46.43 • Czuber: 40.5 + (1001-172) ×10/[(1001172)+(1001-251)]= 45.75 • Pearson: Mo=48.38 –3(48.3846.51) = 42.77 Page.61 中央趨勢統計測量數之比較 統計測量數 優 點 缺 點 算算術平均數 1.資料的重心。資料無極端值或 1.若有極端值存在時則不具代表性 偏態時,具代表性。 中位數 眾數 2.適合代數演算 2.資料如為偏態,則代表性較差。 3.考慮所有觀察值,敏感度高。 4.觀察值與平均數差平方和最小 5.適合統計推論的工作 1.適用於有極端值的資料 1.不適合代數演算 2.適用於偏態資料 2.對觀察值敏感性低 3.觀察值與中位數絕對差和最小 3.不易進行母數統計推論 4.可做無母數統計推論 1.適用於有極端值的資料 1.可能不止一個或不存在 2.適用於偏態資料 2.敏感性低 3.適用於質的資料 3.不能做統計推論 ©Ming-chi Chen 社會統計 Page.62 分配的形狀 • 次數分配圖是否對稱? • 如非對稱則為偏態 • 如果分配的右尾很長超過左尾時,稱為右偏 ©Ming-chi Chen 社會統計 Page.63 Common Shapes of Distributions • When a distribution is unimodal(單峰) and symmetric(對 稱) like the bell-shaped normal distribution, the mean median, and the mode all coincide. 單峰對稱: 相 對 次 數 Mean = Median =Mode Mean Median Mode ©Ming-chi Chen 社會統計 Page.64 Common Shapes of Distributions 右偏分配(skewed to the right): 相 對 次 數 Mean > Median >Mode Mode Mean Median ©Ming-chi Chen 社會統計 Page.65 Common Shapes of Distributions 左偏分配(skewed to the left): 相 對 次 數 Mean < Median <Mode Mode Median Mean ©Ming-chi Chen 社會統計 Page.66 分位數 • 中位數又稱為二分位數,即將數字資料由小 至大排序後,切成二部分。大於及小於中位 數者剛好各佔所有數字資料的一半。 • 除了將資料作半切割外,我們也可以將資料 切成四等分、十等分、或一百等分。 • 四分位數(Quartiles): Q1, Q2, Q3, Q4, • 十分位數(Deciles): D1, D2, D3, … D10 • 百分位數(Percentiles): P1, P2, P3, … P100 ©Ming-chi Chen 社會統計 Page.67 百分位數 Q1 = P25 Q3 =P75 Me = Q2=D5 =P50 ©Ming-chi Chen 社會統計 Page.68 百分位數 X1 X2 X3 Xp p% Xn (1-p)% • Xp為第p個百分位數,則「小於XP的觀察值佔 所有觀察值的p%」。 • 基測的PR值 ©Ming-chi Chen 社會統計 Page.69 未分組資料求百分位數 X1 X2 X3 Xp Xn • 先將資料由小之大排序。 • 以p為所求之百分位,n為樣本數,計算出百分位數 的位置i。 i = (p × n)/100 • 如果i是一個整數,第p個百分位數是i和(i + 1)的數 值的平均。 • 如果i不是一個整數,第p個百分位數是(i + 1)的數值。 ©Ming-chi Chen 社會統計 Page.70 未分組資料求百分位數 X1 1 i X2 X3 Xp p 100 整數,則p分位數= 第i與第(i+1)個觀 察值的平均值 非整數,則p分位數= i下一個觀察值 ©Ming-chi Chen 社會統計 Xn p i 100 n 在一百個中間 的第p個,相當 於在n中間的第 幾個? Page.71 例題:求下列數列的70th 80th percentiles • 18 14 45 32 65 43 25 41 83 51 26 36 40 55 20 • 重組: • 14 18 20 25 26 32 36 40 41 43 45 51 55 65 83 • i =(70 ×15)/100 = 10.5 (not an integer非整數) • 第11個觀察值為70th percentile (70分位數) ©Ming-chi Chen 社會統計 Page.72 例題:求下列數列的70th 80th percentiles • 14 18 20 25 26 32 36 40 41 43 45 51 55 65 83 • i =(80 ×15)/100 = 12 (an integer) • 第12個觀察值為51,第13th觀察值為55 • 所以80 分位數 = (51+55)/2=53 ©Ming-chi Chen 社會統計 Page.73 分組資料求百分位數 • 有些統計學家認為分組資料應該用 interpolating內插法的方法來求 p 分位數: pn C B( Fi 1 ) 100 f B=組下界 Fi-1=小於該組的各組次數和 f = 該組次數 C = 組距 ©Ming-chi Chen 社會統計 Page.74 四分位數(Quartiles) • Q1 :25百分位數(25th percentile)又稱之為下四 分位(lower quartile)或第一個四分位數(first quartile),25%的觀察值在此數之下,75%的 觀察值在此數之上。 • Q3 : 75百分位數(75th percentile)又稱之為上 四分位(upper quartile)或第三個四分位數 (third quartile),75%的觀察值在此數之下, 25%的觀察值在此數之上。 ©Ming-chi Chen 社會統計 Page.75 Measures of Dispersion 分散量數、離差量數、差異量數 • 測量群體中各個觀察值之差異或離中程度的表徵數, 即為離差量數。 • 離差小,表示各數值間的差異小,平均數較能代表 群體中的各個數值,離差大,表各數值之間的變動 很大,較為分散。 • EX) In many financial problems, risk is measured by the amount of variability in the potential returns from an investment ©Ming-chi Chen 社會統計 Page.76 Range全距 • The range of a set of observations is the difference between the largest value and the smallest value. • 未分組資料 R = Xmax – Xmin(最大觀察值-最小值) • 分組資料 R = Umax – Lmin(最大組之上界 –最小組 之下界) ©Ming-chi Chen 社會統計 Page.77 Interquartile Range四分位距 • • • • • IQR = Q3 – Q1 Semi-interquartile Range四分位差 QD = (Q3 – Q1) /2 ,即IQR的一半為四分位差。 Q3 - Md = Md – Q1 QD = Q3 - Md=Md - Q1 Q1 Md Q3 IQR ©Ming-chi Chen 社會統計 Page.78 Deviation from the mean平均差 ( x u) or ( x x ) • 各個觀察值與平均數之間的距離為衡量此組 資料分散程度的良好指標,但如果將所有平 均差加總,則: n ( x x ) 0 i i 1 ©Ming-chi Chen 社會統計 Page.79 Mean Absolute Deviation 平均絕對差 • The mean absolute deviation (M.A.D.) is calculated using the following formula: x1 x x2 x xn x M . A.D. n xi x n ©Ming-chi Chen 社會統計 Page.80 Mean Absolute Deviation 平均絕對差 • 分組資料算M.A.D.: f m x M . A.D. i i n mi為組中點,fi為組次數 ©Ming-chi Chen 社會統計 Page.81 Population Variance σ2 Population Standard Deviation σ • 母體變異數與母體標準差 2 2 ( x ) i N (x ©Ming-chi Chen i ) 2 N 社會統計 Page.82 Sample Variance s2 Sample Standard Deviation s • 樣本變異數與標準差 s 2 x (x x) 2 i n 1 Degree of freedom ©Ming-chi Chen 社會統計 Page.83 Sample Variance s2 Sample Standard Deviation s • 樣本變異數與標準差 sx2 ( xi x ) 2 n 1 2 2 ( x 2 x x x ) i i xi2 2x xi x 2 xi2 2x nx nx 2 s 2 x 2 2 x n x i xi2 nx 2 i n 1 ©Ming-chi Chen x x n 社會統計 n x xi Page.84 例題:求下列數列的標準差 • 樣本變異數與標準差 Xi 3 4 5 6 6 7 7 4 3 ©Ming-chi Chen s 2 x (x x) i n 1 s 2 x 2 2 2 x n x i 社會統計 n 1 Page.85 例題:求下列數列的標準差 Xi 3 4 5 6 6 7 7 4 3 5 Xi - mean (3-5)= -2 (4-5)= -1 (5-5)= 0 (6-5)= 1 (6-5)= 1 (7-5)= 2 (7-5)= 2 (4-5)= -1 (3-5)= -2 ©Ming-chi Chen • 步驟一: • 修求平均數 x • 步驟二:計算 x x 平均數 社會統計 Page.86 例題:求下列數列的標準差 Xi 3 4 5 6 6 7 7 4 3 5 2 Xi - mean (3-5)= (4-5)= (5-5)= (6-5)= (6-5)= (7-5)= (7-5)= (4-5)= (3-5)= ©Ming-chi Chen -2 -1 0 1 1 2 2 -1 -2 (Xi-mean) 4 1 0 1 1 4 4 1 4 20 • 步驟三: • 計算 (x s 2 x (x x) x) 2 2 i n 1 = 20/(9-1) = 2.5 s 2.5 1.5811 社會統計 Page.87 另解:求下列數列的標準差 Xi 3 4 5 6 6 7 7 4 3 x 5 ©Ming-chi Chen Xi2 9 16 25 36 36 49 49 16 9 245 x 2 i 245 n x 9 5 225 2 x 2 2 i n x 245 225 20 2 20 /(9 1) 2.5 s 2 社會統計 Page.88 分組資料求變異數及標準差 2 x f (m x ) 2 x fm s s i 2 i n 1 i ©Ming-chi Chen i 2 n x n 1 2 f i mi x f i mi2 2mi x x 2 fm fm i 2 i i 2 i 2 2 x f i mi nx 2 2 x nx nx 2 f i mi2 nx 2 社會統計 Page.89 例題:求下列分組資料之變異數及標準差 請問你每星期大約工作幾小時? f 0.5-10.5小時 27 10.5-20.5小時 35 20.5-30.5小時 57 30.5-40.5小時 172 40.5-50.5小時 1001 50.5-60.5小時 251 60.5-70.5小時 87 70.5-80.5小時 71 80.5-90.5小時 50 90.5-100.5小時 35 ©Ming-chi Chen 社會統計 Page.90 例題:求下列分組資料之變異數及標準差 請問你每星期大約工作幾小時? f mi 0.5-10.5小時 27 5.5 10.5-20.5小時 35 15.5 20.5-30.5小時 57 25.5 30.5-40.5小時 172 35.5 40.5-50.5小時 1001 45.5 50.5-60.5小時 251 55.5 60.5-70.5小時 87 65.5 70.5-80.5小時 71 75.5 80.5-90.5小時 50 85.5 90.5-100.5小時 35 95.5 1786 mean = 86403/1786= ©Ming-chi Chen 社會統計 f*mi 148.5 542.5 1453.5 6106 45545.5 13930.5 5698.5 5360.5 4275 3342.5 86403 48.37794 步驟一:先求出 算數平均數 Page.91 例題:求下列分組資料之變異數及標準差 請問你每星期大約工作幾小時? f 0.5-10.5小時 27 10.5-20.5小時 35 20.5-30.5小時 57 30.5-40.5小時 172 40.5-50.5小時 1001 50.5-60.5小時 251 60.5-70.5小時 87 70.5-80.5小時 71 80.5-90.5小時 50 90.5-100.5小時 35 1786 mean = ©Ming-chi Chen mi (mi-mean) (mi-mean)2 f*(mi-mean)2 5.5 -42.878 1838.518 49640.0 15.5 -32.878 1080.959 37833.6 25.5 -22.878 523.400 29833.8 35.5 -12.878 165.841 28524.7 45.5 -2.8779 8.283 8290.8 55.5 7.12206 50.724 12731.7 65.5 17.1221 293.165 25505.4 75.5 27.1221 735.606 52228.0 85.5 37.1221 1378.047 68902.4 95.5 47.1221 2220.489 77717.1 391207.39 48.38 14.804175 社會統計 391207 1786 1 Page.92 另解:求下列分組資料之變異數及標準差 請問你每星期大約工作幾小時? f 0.5-10.5小時 27 10.5-20.5小時 35 20.5-30.5小時 57 30.5-40.5小時 172 40.5-50.5小時 1001 50.5-60.5小時 251 60.5-70.5小時 87 70.5-80.5小時 71 80.5-90.5小時 50 90.5-100.5小時 35 1786 mean = ©Ming-chi Chen mi 5.5 15.5 25.5 35.5 45.5 55.5 65.5 75.5 85.5 95.5 48.38 2 mi 30.25 240.3 650.3 1260 2070 3080 4290 5700 7310 9120 2 f*mi 816.75 8408.75 37064.25 216763 2072320.25 773142.75 373251.75 404717.75 365512.5 319208.75 4571206.5 4179999.11 14.80418 社會統計 2 f m n x i i 2 sx2 sx n 1 f i mi n x 2 2 n 1 Page.93 變異數與標準差之性質 S2≧0, 只有在所有觀察值皆相同時,等號才會 成立。 yi xi a s s 2 y 2 x yi a xi s a s 2 y 2 2 x 2 x 2 xi s 2 yi s y a a ©Ming-chi Chen 社會統計 Page.94 變異數與標準差之性質 • 一群資料分成N1, N2, …Nk等k部分,各 部分的相對平均數及變異數分別為 μ1,σ12, μ2,σ22… μk,σk2 N1 N2 μ1 σ12 … … μ2 σ22 Nk μk σk2 k 則全體N N i 之平均數及標準差為: i 1 ©Ming-chi Chen 社會統計 Page.95 變異數與標準差之性質 • 平均數: N1 μ1 σ12 k N1u1 N 2u2 N k uk u N1 N 2 N k N2 … … μ2 σ22 N u i i i 1 N Nk μk σk2 各組平均數的加權平均數 ©Ming-chi Chen 社會統計 Page.96 變異數與標準差之性質 • 變異數: Ni k 2 ( x i 1 j 1 k 2 ij Ni 2 k ( x i 1 j 1 ( x k N Ni ij i 1 j 1 該組平均數與整體 平均數之差 ui ) (ui u ) 2 N Ni k Ni 2 2 u ) ( u u ) 2 ( xij ui )(ui u ) ij i i i 1 j 1 觀察值與 平均數之 差為零 i 1 j 1 N k u) 觀察值與該組 平均數之差 k N N (u i 1 i 2 i i 1 i i Ni k u) 2 2 2 N [ ( u u ) ] i i i i 1 j 1 ij ui )2 Ni N N ©Ming-chi Chen i2 ( x 社會統計 Page.97 變異數與標準差之性質 •例題:已知人社系全體同學有以下的統計量: •男生40人,學期平均成績83分,標準差4分 •女生200人,平均成績85分,標準差5分 •請問全班的平均成績為何?標準差為何? ©Ming-chi Chen 社會統計 Page.98 變異數與標準差之性質 •N男=40人,μ男=83分, σ男=4分 •N女=200人,μ女=85分, σ女=5分 • 全班平均分數: k u N u i i i 1 N N 男男 N 女女 N 40 83 200 85 84.67 240 ©Ming-chi Chen 社會統計 Page.99 變異數與標準差之性質 •N男=40人,μ男=83分, σ男=4分 •N女=200人,μ女=85分, σ女=5分 • 全班分數標準差: k 2 2 N [ ( u u ) ] i i i i 1 N 40[42 (83 84.67)2 ] 200[52 (85 84.67)2 ] 40 200 ©Ming-chi Chen 社會統計 Page.100 Chebyshëv’s Theorem 徹比雪夫定理 • Let c be any number greater than 1. For any sample or population of data, the proportion of observations that lie fewer than c standard deviations from the mean is at least (1 - 1 /c2). • 令 c為任意大於1的常數,若一母體(或樣 本)的平均數及標準差分別為μ及σ,則 介於(μ-cσ, μ+cσ)內之觀察值至少為(1 - 1 /c2)。 ©Ming-chi Chen 社會統計 Page.101 Chebyshëv’s Theorem 徹比雪夫定理 介於兩紅線之間 的觀察值至少有 (1-1/c2) μ-cσ μ μ+cσ 當c=2時,至少75% (1-1/4)的觀察值落在平均數左右兩個標準差的 範圍內。 當c=3時,至少89% (1-1/9)的觀察值落在平均數左右三個標準差的 範圍內。 當c=4時,至少93% (1-1/16)的觀察值落在平均數左右四個標準差的 範圍內。 社會統計 ©Ming-chi Chen Page.102 The Empirical Rule 經驗法則 • Chebyshëv’s Theorem是一個較保守的估計,如果 我們知道確切的分佈,則能更精準的估算出落於某 範圍的機率。 • When the distribution of a population or sample of data is approximately bell shaped, • approximately 68% of the values will fall within 1 standard deviation of the mean, • approximately 95% of the values will fall within 2 standard deviations of the mean, and • approximately 99.7% of the values will fall within 3 standard deviations of the mean. ©Ming-chi Chen 社會統計 Page.103 The Empirical Rule 經驗法則 • 若資料呈現鐘形分配,則: ( , )約佔68% ( 2, 2)約佔95% ( 3, 3)約佔99.7% ©Ming-chi Chen 社會統計 Page.104 The Empirical Rule 經驗法則 • 若資料呈現鐘形分配,則: μ μ-σ μ-2σ μ-3σ ©Ming-chi Chen 68% μ+σ 95% 99% 社會統計 μ+2σ μ+3σ Page.105 The Empirical Rule 經驗法則 • Consider a bell-shaped distribution approximately ______ percentage of the values lies between μ-2σand μ+σ. 68% ÷2= 34% 95% ÷2= 47.5% μ μ-σ 68% 95% μ-2σ ©Ming-chi Chen μ+σ μ+2σ 社會統計 Page.106 Standardized Score 標準化分數 • 有時候我們會想要知道一個觀察值在整組資 料中的相對位置。 • 某位同學在班上的成績為85分,這個分數本 身所傳遞的訊息很有限,我們通常想要進一 步知道85分究竟是高還是低?也就是說,我 們想知道這個分數離一般平均數多遠? ©Ming-chi Chen 社會統計 Page.107 Standardized Score 標準化分數 • 標準化分數(standardized score)可以告訴我 們觀察值在所有資料中的位置,又稱之為Z score,表示該觀察值與平均數之間,間隔多 少個標準差。 xu z xx z s ©Ming-chi Chen X與平均數之間 的實際距離 以標準差來表達 社會統計 Page.108 例題 • 如果全班同學的統計學平均分數為85分,標 準差為5分,請將將下列三位同學的分數改成 標準化分數: • 80, 70, 90 80 85 z1 1 5 70 85 z2 3 5 90 85 z3 1 5 ©Ming-chi Chen 社會統計 Page.109 例題 • • • • 如果根據經驗法則來看, 分數低於80分的同學佔全班的______%? 有多少___%的同學分數低於70? 高於90分的同學佔______%? 85 70 ©Ming-chi Chen 社會統計 80 90 Page.110 Detecting Outliers 用標準化分數找出偏離值 • An outlier is an observation that falls far out in the tail of a distribution. • Sometimes an outlier can be an indication of a faulty or incorrectly recorded observation. • A Z score can be helpful in detecting an outlier. If the data are approximately normally distributed, then fewer than .3% of the observations have Z scores less than-3 or greater than + 3. ©Ming-chi Chen 社會統計 Page.111 Coefficient of Variation 變異係數 • The coefficient of variation, also called the relative standard deviation, expresses the standard deviation as a percentage of the mean. s CV 100 % x The CV allows us to consider the dispersion as a proportion of the mean, that is, the dispersion in proportion to the average magnitude of the data. ©Ming-chi Chen 社會統計 Page.112 Coefficient of Variation 變異係數 • A股票過去一年的平均價格為$100,標準差為 $5。 • B股票過去一年的平均價格為$50,標準差為 $4。 • 請問哪一支股票的價格波動較厲害? • A股票的CV = 5/100 =5% • B股票的CV=4/50 = 8% ©Ming-chi Chen 社會統計 Page.113 Box Plot(箱型圖) Max Q3 Median IRQ Q1 Min ©Ming-chi Chen 社會統計 Page.114 Extreme Outer fence Box Plot(箱型圖) Inner fence Extremes: Cases with values more than 3 box lengths from the upper or lower edge of the box. Q3 IRQ Median Q1 1.5 IRQ 3 IRQ Inner fence Outliers ©Ming-chi Chen Outer fence社會統計 Cases with values between 1.5 and 3 box lengths from the upper or lower edge of the box. The box length is the IRQ. Page.115 外籬 內籬 中位數 內籬 外籬 24,050 Q1 19,600 Q3 21,625 27,025 29,050 28,250 * IQR 15 . ( IQR ) 1.5( IQR ) 3( IQR ) 3( IQR ) 19,000 ©Ming-chi Chen 21,000 23,000 社會統計 25,000 27,000 29,000 Page.116 男女生平均工時的敘述性統計 Statistics V46 N Valid Missing Mean Median Mode Std. Deviation Variance Range Minimum Maximum Percentiles 25 50 75 Statistics 1010 0 49.06 48.00 48 13.12 172.10 83 7 90 44.00 48.00 56.00 V46 N Mean Median Mode Std. Deviation Variance Range Minimum Maximum Percentiles 男性 ©Ming-chi Chen Valid Missing 25 50 75 741 0 47.92 48.00 48 13.16 173.18 88 2 90 44.00 48.00 50.00 女性 社會統計 Page.117 100 outlier 60 40 20 0 N= ©Ming-chi Chen ©Ê§O 1010 741 ¨k ¤k 社會統計 ½Ð°Ý±z¥-§¡¨C¬P´Á¤j¬ù¤u§@¦h¤Ö¤p®É 80 extreme Page.118 描述統計之為用:台灣歷年出生性比 表1-1 我國歷年出生嬰兒性別比例按胎次統計 單位:% 胎次別 (100名女嬰相對男嬰人數) 年別 合計 第一胎 第二胎 第三胎 第四胎 五胎及以上 1987 1988 1989 108.4 108.2 108.6 107.2 107.3 107.0 108.2 106.9 106.9 110.2 111.6 113.3 113.7 111.5 120.6 109.8 118.0 116.3 1990 1991 ∫ 110.3 110.4 106.8 107.4 108.7 108.5 118.7 118.2 128.5 129.5 126.7 124.4 2000 109.4 106.9 107.7 118.9 135.0 120.2 2001 108.7 106.9 105.8 120.8 135.0 121.2 2002 109.8 106.9 109.1 121.5 138.7 123.0 2003 110.2 107.7 108.9 123.6 139.7 122.2 2004 110.7 108.7 109.4 122.6 134.1 122.8 2005 109.0 107.7 107.1 122.0 124.3 121.9 2006 109.6 107.2 108.2 126.7 136.6 113.3 資料來源:內政部「中華民國人口統計年刊」。 社會統計 ©Ming-chi Chen Page.119 描述統計之為用:台灣歷年出生性比 趨勢圖 歷年嬰兒出生數 出 生 數 (萬 人 ) 性比例 (%) 111 45 嬰兒性比例 40 110 35 109 30 108 25 20 107 女嬰出生數 15 106 10 105 男嬰出生數 5 0 104 70 71 72 73 74 ©Ming-chi Chen 75 76 77 78 79 80 81 82 83 84 社會統計 85 86 87 88 89 90 91 92 93 94 95年 Page.120 統計之為用:我國人口金字塔 ©Ming-chi Chen 社會統計 Page.121 人口金字塔 ©Ming-chi Chen 社會統計 Page.122 中國人口金字塔,1990普查 ©Ming-chi Chen 社會統計 Page.123 中國人口金字塔的變遷 ©Ming-chi Chen 社會統計 Page.124