變異數與標準差 變異數:離差(資料值與期望值的差異)平方和的平均 標準差:變異數的平方根 變異數的單位是原資料單位的平方 標準差的單位同原資料的單位 母體變異數: ( xi   ) 2   N 樣本變異數: s (x  x)   i n 1 計算樣本變異數時,分母取(n-1)而非(n)的原因: 實務上,母體變異數通常未知,須以樣本變異數估計之,而樣本變異數會隨所 抽選樣本的不同而有變動(非固定),若考慮很多次抽樣,每次都以”  (n  1) ”的 公式計算樣本變異數,則有些樣本變異數會高於母體變異數,有些則低於母體 變異數,但平均而言會與母體變異數很接近;反之,若計算樣本變異數時均除 以n,則平均而言會偏向低於母體變異數.

Download Report

Transcript 變異數與標準差 變異數:離差(資料值與期望值的差異)平方和的平均 標準差:變異數的平方根 變異數的單位是原資料單位的平方 標準差的單位同原資料的單位 母體變異數: ( xi   ) 2   N 樣本變異數: s (x  x)   i n 1 計算樣本變異數時,分母取(n-1)而非(n)的原因: 實務上,母體變異數通常未知,須以樣本變異數估計之,而樣本變異數會隨所 抽選樣本的不同而有變動(非固定),若考慮很多次抽樣,每次都以”  (n  1) ”的 公式計算樣本變異數,則有些樣本變異數會高於母體變異數,有些則低於母體 變異數,但平均而言會與母體變異數很接近;反之,若計算樣本變異數時均除 以n,則平均而言會偏向低於母體變異數.

變異數與標準差
變異數:離差(資料值與期望值的差異)平方和的平均
標準差:變異數的平方根
變異數的單位是原資料單位的平方
標準差的單位同原資料的單位
母體變異數:
( xi   ) 2

2
 
N
樣本變異數:
s
2
(x  x)


2
i
n 1
計算樣本變異數時,分母取(n-1)而非(n)的原因:
實務上,母體變異數通常未知,須以樣本變異數估計之,而樣本變異數會隨所
抽選樣本的不同而有變動(非固定),若考慮很多次抽樣,每次都以”
 ( n  1) ”的
公式計算樣本變異數,則有些樣本變異數會高於母體變異數,有些則低於母體
變異數,但平均而言會與母體變異數很接近;反之,若計算樣本變異數時均除
以n,則平均而言會偏向低於母體變異數
 變異數(或標準差)與期望值一樣,容易受極值的影響
 例:(起薪的資料)
(x  x)


2
301,850
s

 27,440.91($ 2 )
n 1
11
s  27,440.91  165.65($)
2
i
若將最大值改為10,000,則
x  3,496 s 2  4,209,566.6 s  2,051.723
起薪的資料
Salary
2850
2950
3050
2880
2755
2710
2890
3130
2940
3325
2920
2880
2940
Avg
2940
2940
2940
2940
2940
2940
2940
2940
2940
2940
2940
2940
Dev
-90
10
110
-60
-185
-230
-50
190
0
385
-20
-60
Dev^2
Salary^2
8100
8122500
100
8702500
12100
9302500
3600
8294400
34225
7590025
52900
7344100
2500
8352100
36100
9796900
0
8643600
148225 11055625
400
8526400
3600
8294400
301850 104025050
27440.91
301850
變異係數(Coefficient of Variation)
 變異係數定義為 CV  s 100(%)
x
 CV是量測相對(於期望值)分散程度的量數,表示標準差佔
期望值的百分比,通常小於1
 例:(起薪的資料)
165.65
CV 
100(%)  5.6%
2,940
表示薪資的分散程度約為期望值的5.6%
 變異係數在財務分析上可用來計算相對的風險
變數變換對期望值與標準差的影響
 設變數Y為變數X的函數:y=g(x)
變數Y之觀察值的期望值通常無法直接以X變數之
期望值的相同函數計算,但線性函數則例外
若 y  ax  b 則 y  ax  b
但對標準差的影響則為 s y  a sx

x
x
sx
sx / x
y=ax+b
ax  b
y=ax
ax
a sx
a sx
a sx /( ax  b) a sx /( ax )
y=x+b
x b
sx
sx /( x  b)
 例: 假設成本(C) 是產量(x)的線性函數,
c  變動成本+固定成本
 5 x  1,000,000
若每月平均產量為 x  300,000 標準差 sx  15,000
c  5  300,000  1,000,000  2,500,000
則
sc  5 15,000  75,000
而產量與成本的變異係數則分別為
cv x  15,000 / 300 ,000  5%
cvc  75,000 / 2,500 ,000  3%
Z分數(z-score)
 是一個特殊的線性變數變換:
z  ax  b  ( x   ) / 
 ,  未知時以 x, s 代之,而常另稱之為t分數(t-score)
 正的Z分數表示變數值比期望值大z個標準差
負的Z分數表示變數值比期望值小|z|個標準差
 變數變換後的Z分數是無單位的,所以適用於比較不同資
料集之資料值在各自資料集裡的相對位置,例如:林同學
身高的z分數為0.6,而體重的z分數為0.2;表示比班上平
均身高高0.6個標準差,而比平均體重重0.2個標準差;所
以在班上是屬於中等個子,但稍微高一些
經驗法則(Empirical Rule)
若原資料呈對稱如吊鐘型的分佈,則經變
數變換後的Z分數會變為對稱於零的吊鐘型
分配,且分配的型態固定(不因標準差的大
小而有不同),此通稱為標準常態分配
(Standard Normal Distribution)
大約有68%的z分數會對稱分佈在+1之間,
大約有95%的z分數會對稱分佈在+ 2之間,
而幾乎所有的z分數會對稱分佈在+ 3之間
保齡球成績的資料
Score
182
168
184
190
170
174
178
Avg
178
178
178
178
178
178
Dev
4
-10
6
12
-8
-4
Dev^2
16
100
36
144
64
16
376
75.2
8.671793
Z-Score
0.461266
-1.15316
0.691898
1.383797
-0.92253
-0.46127
99.7%
95%
68%
3
2
1
0
1
2
3
謝比契夫(Chebyshev) 不等式
 若原資料的分佈非對稱,則至少有 100(1  1 / z 2 )%
的資料會落在
期望值+z倍標準差
之間, 但z須大於1
2

Z
1 1/ z
2
75%
3
89%
4
94%
 例:(起薪的資料)
若起薪分配的期望值=2,940,標準差=165.65,
則至少有
 75%畢業學生的起薪會在
2,940+2(165.65)=(2,608.7, 3,105.65) 之間
 89%畢業學生的起薪會在
2,940+3(165.65)=(2,443.05, 3,436.95) 之間
 94%畢業學生的起薪會在
2,940+4(165.65)=(2,277.40, 3,602.60) 之間
離群值(Outliers)
 Z分數可用來檢查資料集裡是否有離群值:
一般而言,若Z分數的絕對值大於3,則稱對應的
資料值為離群值
 離群值可能是錯誤的資料,也可能是較特殊的資
料
 如果是錯誤的資料,須訂正或移除後,才進行統
計分析
 如果是特殊的資料,則可比較移除與不移除下的
兩種分析結果,折衷或採其中之一較合理的結果
箱型圖(Box Plot)
 五個統計量:
Min, Q1, Q2, Q3, Max
 繪製圖型的步驟:
―由Q1, Q3劃一個箱型
―以Q2將箱型分成兩部分
―由箱型兩邊各劃一條平行直線,向外延伸到Min與Max
―在箱型兩邊向外 1.5倍IQR 處,各劃一條垂直直線
―在箱型兩邊向外 3倍IQR 處,各劃一條垂直直線
 Q1, Q2, Q3大約將所有資料平分成四份
.5
起薪資料的箱型圖
Min=2,710 Q1=2,865 Q2=2,905 Q3=3,000 Max=3,325
IQR=135 Q1-1.5 IQR=2,663 Q3+1.5 IQR=3,203
1330
1662.5
1995
2327.5
2660
2992.5
3325
共變異數(Covariance)與相關係數
(Correlation Coefficient)
 量測兩量化變數之間線性關聯程度的量數
例如: 廣告次數 vs. 銷售金額
溫度
vs. 餅乾的脆度
 若觀察資料的序對( x1 , y1 ),  , ( xn , yn ) 呈現狹長的帶狀分佈,
則表示兩變數具有線性關聯,分布越集中,越有關聯
 計算公式:
– 母體共變異數:
– 樣本共變異數:
– 母體相關係數:
– 樣本相關係數:
 xy 
s xy
 (x
  x )( yi   y )
i
N
(x


i
 xy
 xy 

 x y
rxy 
s xy
sx s y

 x )( yi  y )
n 1
 (x
i
  x )( yi   y )
 (x   )  ( y   )
 ( x  x )( y  y )
 (x  x)  ( y  y)
2
i
x
i
i
i
2
i
x
2
i
2
例: 廣告次數(x) vs. 銷售金額(y)
xi
yi x i  x
2
5
1
3
4
1
5
3
4
2
30
50
57
41
54
54
38
63
48
59
46
510
-1
2
-2
0
1
-2
2
0
1
-1
0
y
i
 y
-1
6
-10
3
3
-13
12
-3
8
-5
0
( x i  x )( y i  y )
1
12
20
0
3
26
24
0
8
5
99
sx 
sy 
rxy 
2
(
x

x
)
 i
n 1
 ( y  y)
i
n 1
s xy
sx s y


20
 1.491
9

566
 7.930
9
2
99  9
 .93
1.491 7.930
相關係數是無單位的,且係數值一定會介於
+1與-1之間;正的係數表示正向的相關,負
的係數表示負向的相關,係數值越接近+1,
相關程度越高
係數值接近零 ,表示無明顯的線性相關,
但並不表示無其他非線性函數的關係,
例如:
x -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0
y 6.00 4.25 3.00 2.25 2.00 2.25 3.00 4.25 6.00
相關係數等於0,但兩變數有拋物線的關係
相關係數高並不必然有因果關係
例如: 人事需求 vs 新增公司數目
如同平均數與標準差一樣,相關係數也易
受極值的影響,在廣告次數 vs 銷售金額的
例子中,若其中(5,57)的資料點改為(5,157),
則相關係數降為0.644