Transcript Comments on

數據分析及表達
楊良河博士
香港大學統計及精算學系
香港統計學會
展開統計研究的主要步驟
大功告成
撰寫報告,
數據分析 製作海報
資料搜集
確立主題
選擇研究主題的要訣
腦震蕩(brainstorming)得出一些有興趣的
題材
 同學分組或個別搜集可能有用的數據
 對每個題材,同學提出批評及比較

 數據足夠嗎?
 題目太廣泛?
 題目太高深?
擬定研究主題及目的
 擬定工作時間表及分工

數據分析

將所得的數據以統計數字、圖表的形
式表達出來。

統計數字、圖表亦可利用文字加以綜
合分析。
製作圖表
利用不同的圖表,找出資料之間的關係:

棒形圖:易於看出各部分頻數之間的差異
折線圖:顯示數據的變化情況,幫助推測變化
趨勢


圓形圖:較清晰的表明部分佔整體的百分數
堅尼系數
Gini Coefficient
按行業劃分的工作人口百分比分布
來源:香港的發展(1967-2007)-統計圖表集
人口金字塔
來源:香港的發展(1967-2007)
-統計圖表集
折線圖
俱小學/學位程度佔十五歲以上人口百分比
25%
20%
15%
10%
5%
學位課程
小學
0%
2002
2003
2004
來源:香港統計年刊 2008年版
2005
2006
2007
誤導性的統計圖
誤導性的統計圖
3.5
Frequency
3
2.5
2
1.5
1
0.5
Temperature
12
Frequency
10
8
6
4
2
0
0
30
60
Temperature
More
More
60
56
52
48
44
40
36
32
28
24
20
16
12
8
4
0
圓形圖
按年齡組別劃分的年中人口
2008
2036
15 歲以下
13%
13%
15 歲以下
12%
15–34 歲
35–64 歲
65 歲及以上
15–34 歲
35–64 歲
26%
65 歲及以上
23%
28%
46%
39%
簡單的數據描述方法
數據描述方法
集中趨勢
其他位置
Mean
Median
Mode
離散程度
Range
Percentiles
Interquartile Range
Quartiles
Variance
Standard Deviation
集中趨勢
集中趨勢
平均值
Mean
中位數
Median
n
x
x
i1
i
n
N

x
i1
N
i
眾數
Mode
分布形狀
Shape of a Distribution

描述數據如何分布

對稱(symmetric) 或偏歪(skewed)
Left-Skewed
Symmetric
Right-Skewed
Mean < Median
Mean = Median
Median < Mean
(Longer tail extends to left)
(Longer tail extends to right)
其他位置測量
Other Location Measures
其他位置測量
百分位數
Percentiles
The pth percentile in a data array:


p% are less than or equal to this
value
四分位數
Quartiles

1st quartile = 25th percentile (Q1)

2nd quartile = 50th percentile (Q2)
= median

3rd quartile = 75th percentile (Q3)
(100 – p)% are greater than or
equal to this value
(where 0 ≤ p ≤ 100)
框線圖
Box and Whisker Plot
Left-Skewed
Q1
Q2 Q3
Symmetric
Q1 Q2 Q3
Right-Skewed
Q1 Q2 Q3
框線圖
Box and Whisker Plot
離散程度
離散程度
Range
Interquartile
Range
Variance
Standard Deviation
Population
Variance
Population
Standard
Deviation
Sample
Variance
Sample
Standard
Deviation
離散程度

測量數據的變異
四分位數間距
Interquartile Range
例子:
X
minimum
Q1
25%
12
Median
(Q2)
25%
30
25%
45
X
Q3
maximum
25%
57
Interquartile range
= 57 – 30 = 27
70
小心運用統計數據

例如根據香港撒瑪利亞防止自殺會2008年報,在
2008年,香港的自殺死亡數字總數是1001人,
其中的319人年齡是在60歲或以上。

若果我們單從上述數字作表面分析,超過三成
的自殺者是60歲或以上的老人,很可能會認為
老人自殺的情況已到了非常嚴重的地步!

若以「年齡組別自殺率」來看,在該年齡組別
的自殺人數只是每萬名人口中約有2.6個,並非
如數字表面般嚇人。當然,老人自殺的情況仍
是值得關注。
小心合併兩組數據


假設今有甲、乙兩所高中,甲校參加大學入學考試
的學生中,文科生有400人、理科生100人;乙校參
加大學入學考試的學生中,文科生有100人、理科
生400人。
考慮兩校的大學取錄率,
甲校的大學取錄率文、理科生依序為40%、60%
 乙校的大學取錄率文、理科生依序為30%、50%


乍看之下,乙校整體的大學取錄率似乎較低,但經
過仔細計算:
甲校的大學取錄率為 (400x0.4 + 100x0.6)/500 = 44%
 乙校的大學取錄率為 (100x0.3 + 400x0.5)/500 = 46%
 反而乙校整體的大學取錄率比甲校高。

小心合併兩組數據

那麼讀那學校入大學最好呢?

辛普森悖論(Simpson's Paradox)
 即在某個條件下的兩組數據,分別討論時都會滿足
某種性質,可是一旦合併考慮,卻可能導致相反的
結論。
Garbage In Garbage Out
No Copy!!!
Talent wins games, but teamwork and intelligence wins championships
記住參加中學生統計習作比賽