變異數與標準差 變異數:離差(資料值與期望值的差異)平方和的平均 標準差:變異數的平方根 變異數的單位是原資料單位的平方 標準差的單位同原資料的單位 母體變異數: ( xi ) 2 N 樣本變異數: s (x x) i n 1 計算樣本變異數時,分母取(n-1)而非(n)的原因: 實務上,母體變異數通常未知,須以樣本變異數估計之,而樣本變異數會隨所 抽選樣本的不同而有變動(非固定),若考慮很多次抽樣,每次都以” (n 1) ”的 公式計算樣本變異數,則有些樣本變異數會高於母體變異數,有些則低於母體 變異數,但平均而言會與母體變異數很接近;反之,若計算樣本變異數時均除 以n,則平均而言會偏向低於母體變異數.
Download ReportTranscript 變異數與標準差 變異數:離差(資料值與期望值的差異)平方和的平均 標準差:變異數的平方根 變異數的單位是原資料單位的平方 標準差的單位同原資料的單位 母體變異數: ( xi ) 2 N 樣本變異數: s (x x) i n 1 計算樣本變異數時,分母取(n-1)而非(n)的原因: 實務上,母體變異數通常未知,須以樣本變異數估計之,而樣本變異數會隨所 抽選樣本的不同而有變動(非固定),若考慮很多次抽樣,每次都以” (n 1) ”的 公式計算樣本變異數,則有些樣本變異數會高於母體變異數,有些則低於母體 變異數,但平均而言會與母體變異數很接近;反之,若計算樣本變異數時均除 以n,則平均而言會偏向低於母體變異數.
變異數與標準差 變異數:離差(資料值與期望值的差異)平方和的平均 標準差:變異數的平方根 變異數的單位是原資料單位的平方 標準差的單位同原資料的單位 母體變異數: ( xi ) 2 2 N 樣本變異數: s 2 (x x) 2 i n 1 計算樣本變異數時,分母取(n-1)而非(n)的原因: 實務上,母體變異數通常未知,須以樣本變異數估計之,而樣本變異數會隨所 抽選樣本的不同而有變動(非固定),若考慮很多次抽樣,每次都以” ( n 1) ”的 公式計算樣本變異數,則有些樣本變異數會高於母體變異數,有些則低於母體 變異數,但平均而言會與母體變異數很接近;反之,若計算樣本變異數時均除 以n,則平均而言會偏向低於母體變異數 變異數(或標準差)與期望值一樣,容易受極值的影響 例:(起薪的資料) (x x) 2 301,850 s 27,440.91($ 2 ) n 1 11 s 27,440.91 165.65($) 2 i 若將最大值改為10,000,則 x 3,496 s 2 4,209,566.6 s 2,051.723 起薪的資料 Salary 2850 2950 3050 2880 2755 2710 2890 3130 2940 3325 2920 2880 2940 Avg 2940 2940 2940 2940 2940 2940 2940 2940 2940 2940 2940 2940 Dev -90 10 110 -60 -185 -230 -50 190 0 385 -20 -60 Dev^2 Salary^2 8100 8122500 100 8702500 12100 9302500 3600 8294400 34225 7590025 52900 7344100 2500 8352100 36100 9796900 0 8643600 148225 11055625 400 8526400 3600 8294400 301850 104025050 27440.91 301850 變異係數(Coefficient of Variation) 變異係數定義為 CV s 100(%) x CV是量測相對(於期望值)分散程度的量數,表示標準差佔 期望值的百分比,通常小於1 例:(起薪的資料) 165.65 CV 100(%) 5.6% 2,940 表示薪資的分散程度約為期望值的5.6% 變異係數在財務分析上可用來計算相對的風險 變數變換對期望值與標準差的影響 設變數Y為變數X的函數:y=g(x) 變數Y之觀察值的期望值通常無法直接以X變數之 期望值的相同函數計算,但線性函數則例外 若 y ax b 則 y ax b 但對標準差的影響則為 s y a sx x x sx sx / x y=ax+b ax b y=ax ax a sx a sx a sx /( ax b) a sx /( ax ) y=x+b x b sx sx /( x b) 例: 假設成本(C) 是產量(x)的線性函數, c 變動成本+固定成本 5 x 1,000,000 若每月平均產量為 x 300,000 標準差 sx 15,000 c 5 300,000 1,000,000 2,500,000 則 sc 5 15,000 75,000 而產量與成本的變異係數則分別為 cv x 15,000 / 300 ,000 5% cvc 75,000 / 2,500 ,000 3% Z分數(z-score) 是一個特殊的線性變數變換: z ax b ( x ) / , 未知時以 x, s 代之,而常另稱之為t分數(t-score) 正的Z分數表示變數值比期望值大z個標準差 負的Z分數表示變數值比期望值小|z|個標準差 變數變換後的Z分數是無單位的,所以適用於比較不同資 料集之資料值在各自資料集裡的相對位置,例如:林同學 身高的z分數為0.6,而體重的z分數為0.2;表示比班上平 均身高高0.6個標準差,而比平均體重重0.2個標準差;所 以在班上是屬於中等個子,但稍微高一些 經驗法則(Empirical Rule) 若原資料呈對稱如吊鐘型的分佈,則經變 數變換後的Z分數會變為對稱於零的吊鐘型 分配,且分配的型態固定(不因標準差的大 小而有不同),此通稱為標準常態分配 (Standard Normal Distribution) 大約有68%的z分數會對稱分佈在+1之間, 大約有95%的z分數會對稱分佈在+ 2之間, 而幾乎所有的z分數會對稱分佈在+ 3之間 保齡球成績的資料 Score 182 168 184 190 170 174 178 Avg 178 178 178 178 178 178 Dev 4 -10 6 12 -8 -4 Dev^2 16 100 36 144 64 16 376 75.2 8.671793 Z-Score 0.461266 -1.15316 0.691898 1.383797 -0.92253 -0.46127 99.7% 95% 68% 3 2 1 0 1 2 3 謝比契夫(Chebyshev) 不等式 若原資料的分佈非對稱,則至少有 100(1 1 / z 2 )% 的資料會落在 期望值+z倍標準差 之間, 但z須大於1 2 Z 1 1/ z 2 75% 3 89% 4 94% 例:(起薪的資料) 若起薪分配的期望值=2,940,標準差=165.65, 則至少有 75%畢業學生的起薪會在 2,940+2(165.65)=(2,608.7, 3,105.65) 之間 89%畢業學生的起薪會在 2,940+3(165.65)=(2,443.05, 3,436.95) 之間 94%畢業學生的起薪會在 2,940+4(165.65)=(2,277.40, 3,602.60) 之間 離群值(Outliers) Z分數可用來檢查資料集裡是否有離群值: 一般而言,若Z分數的絕對值大於3,則稱對應的 資料值為離群值 離群值可能是錯誤的資料,也可能是較特殊的資 料 如果是錯誤的資料,須訂正或移除後,才進行統 計分析 如果是特殊的資料,則可比較移除與不移除下的 兩種分析結果,折衷或採其中之一較合理的結果 箱型圖(Box Plot) 五個統計量: Min, Q1, Q2, Q3, Max 繪製圖型的步驟: ―由Q1, Q3劃一個箱型 ―以Q2將箱型分成兩部分 ―由箱型兩邊各劃一條平行直線,向外延伸到Min與Max ―在箱型兩邊向外 1.5倍IQR 處,各劃一條垂直直線 ―在箱型兩邊向外 3倍IQR 處,各劃一條垂直直線 Q1, Q2, Q3大約將所有資料平分成四份 .5 起薪資料的箱型圖 Min=2,710 Q1=2,865 Q2=2,905 Q3=3,000 Max=3,325 IQR=135 Q1-1.5 IQR=2,663 Q3+1.5 IQR=3,203 1330 1662.5 1995 2327.5 2660 2992.5 3325 共變異數(Covariance)與相關係數 (Correlation Coefficient) 量測兩量化變數之間線性關聯程度的量數 例如: 廣告次數 vs. 銷售金額 溫度 vs. 餅乾的脆度 若觀察資料的序對( x1 , y1 ), , ( xn , yn ) 呈現狹長的帶狀分佈, 則表示兩變數具有線性關聯,分布越集中,越有關聯 計算公式: – 母體共變異數: – 樣本共變異數: – 母體相關係數: – 樣本相關係數: xy s xy (x x )( yi y ) i N (x i xy xy x y rxy s xy sx s y x )( yi y ) n 1 (x i x )( yi y ) (x ) ( y ) ( x x )( y y ) (x x) ( y y) 2 i x i i i 2 i x 2 i 2 例: 廣告次數(x) vs. 銷售金額(y) xi yi x i x 2 5 1 3 4 1 5 3 4 2 30 50 57 41 54 54 38 63 48 59 46 510 -1 2 -2 0 1 -2 2 0 1 -1 0 y i y -1 6 -10 3 3 -13 12 -3 8 -5 0 ( x i x )( y i y ) 1 12 20 0 3 26 24 0 8 5 99 sx sy rxy 2 ( x x ) i n 1 ( y y) i n 1 s xy sx s y 20 1.491 9 566 7.930 9 2 99 9 .93 1.491 7.930 相關係數是無單位的,且係數值一定會介於 +1與-1之間;正的係數表示正向的相關,負 的係數表示負向的相關,係數值越接近+1, 相關程度越高 係數值接近零 ,表示無明顯的線性相關, 但並不表示無其他非線性函數的關係, 例如: x -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 y 6.00 4.25 3.00 2.25 2.00 2.25 3.00 4.25 6.00 相關係數等於0,但兩變數有拋物線的關係 相關係數高並不必然有因果關係 例如: 人事需求 vs 新增公司數目 如同平均數與標準差一樣,相關係數也易 受極值的影響,在廣告次數 vs 銷售金額的 例子中,若其中(5,57)的資料點改為(5,157), 則相關係數降為0.644