Transcript Comments on
數據分析及表達
楊良河博士
香港大學統計及精算學系
香港統計學會
展開統計研究的主要步驟
大功告成
撰寫報告,
數據分析 製作海報
資料搜集
確立主題
選擇研究主題的要訣
腦震蕩(brainstorming)得出一些有興趣的
題材
同學分組或個別搜集可能有用的數據
對每個題材,同學提出批評及比較
數據足夠嗎?
題目太廣泛?
題目太高深?
擬定研究主題及目的
擬定工作時間表及分工
數據分析
將所得的數據以統計數字、圖表的形
式表達出來。
統計數字、圖表亦可利用文字加以綜
合分析。
製作圖表
利用不同的圖表,找出資料之間的關係:
棒形圖:易於看出各部分頻數之間的差異
折線圖:顯示數據的變化情況,幫助推測變化
趨勢
圓形圖:較清晰的表明部分佔整體的百分數
堅尼系數
Gini Coefficient
按行業劃分的工作人口百分比分布
來源:香港的發展(1967-2007)-統計圖表集
人口金字塔
來源:香港的發展(1967-2007)
-統計圖表集
折線圖
俱小學/學位程度佔十五歲以上人口百分比
25%
20%
15%
10%
5%
學位課程
小學
0%
2002
2003
2004
來源:香港統計年刊 2008年版
2005
2006
2007
誤導性的統計圖
誤導性的統計圖
3.5
Frequency
3
2.5
2
1.5
1
0.5
Temperature
12
Frequency
10
8
6
4
2
0
0
30
60
Temperature
More
More
60
56
52
48
44
40
36
32
28
24
20
16
12
8
4
0
圓形圖
按年齡組別劃分的年中人口
2008
2036
15 歲以下
13%
13%
15 歲以下
12%
15–34 歲
35–64 歲
65 歲及以上
15–34 歲
35–64 歲
26%
65 歲及以上
23%
28%
46%
39%
簡單的數據描述方法
數據描述方法
集中趨勢
其他位置
Mean
Median
Mode
離散程度
Range
Percentiles
Interquartile Range
Quartiles
Variance
Standard Deviation
集中趨勢
集中趨勢
平均值
Mean
中位數
Median
n
x
x
i1
i
n
N
x
i1
N
i
眾數
Mode
分布形狀
Shape of a Distribution
描述數據如何分布
對稱(symmetric) 或偏歪(skewed)
Left-Skewed
Symmetric
Right-Skewed
Mean < Median
Mean = Median
Median < Mean
(Longer tail extends to left)
(Longer tail extends to right)
其他位置測量
Other Location Measures
其他位置測量
百分位數
Percentiles
The pth percentile in a data array:
p% are less than or equal to this
value
四分位數
Quartiles
1st quartile = 25th percentile (Q1)
2nd quartile = 50th percentile (Q2)
= median
3rd quartile = 75th percentile (Q3)
(100 – p)% are greater than or
equal to this value
(where 0 ≤ p ≤ 100)
框線圖
Box and Whisker Plot
Left-Skewed
Q1
Q2 Q3
Symmetric
Q1 Q2 Q3
Right-Skewed
Q1 Q2 Q3
框線圖
Box and Whisker Plot
離散程度
離散程度
Range
Interquartile
Range
Variance
Standard Deviation
Population
Variance
Population
Standard
Deviation
Sample
Variance
Sample
Standard
Deviation
離散程度
測量數據的變異
四分位數間距
Interquartile Range
例子:
X
minimum
Q1
25%
12
Median
(Q2)
25%
30
25%
45
X
Q3
maximum
25%
57
Interquartile range
= 57 – 30 = 27
70
小心運用統計數據
例如根據香港撒瑪利亞防止自殺會2008年報,在
2008年,香港的自殺死亡數字總數是1001人,
其中的319人年齡是在60歲或以上。
若果我們單從上述數字作表面分析,超過三成
的自殺者是60歲或以上的老人,很可能會認為
老人自殺的情況已到了非常嚴重的地步!
若以「年齡組別自殺率」來看,在該年齡組別
的自殺人數只是每萬名人口中約有2.6個,並非
如數字表面般嚇人。當然,老人自殺的情況仍
是值得關注。
小心合併兩組數據
假設今有甲、乙兩所高中,甲校參加大學入學考試
的學生中,文科生有400人、理科生100人;乙校參
加大學入學考試的學生中,文科生有100人、理科
生400人。
考慮兩校的大學取錄率,
甲校的大學取錄率文、理科生依序為40%、60%
乙校的大學取錄率文、理科生依序為30%、50%
乍看之下,乙校整體的大學取錄率似乎較低,但經
過仔細計算:
甲校的大學取錄率為 (400x0.4 + 100x0.6)/500 = 44%
乙校的大學取錄率為 (100x0.3 + 400x0.5)/500 = 46%
反而乙校整體的大學取錄率比甲校高。
小心合併兩組數據
那麼讀那學校入大學最好呢?
辛普森悖論(Simpson's Paradox)
即在某個條件下的兩組數據,分別討論時都會滿足
某種性質,可是一旦合併考慮,卻可能導致相反的
結論。
Garbage In Garbage Out
No Copy!!!
Talent wins games, but teamwork and intelligence wins championships
記住參加中學生統計習作比賽