描述資料特徵的統計量及圖表

Download Report

Transcript 描述資料特徵的統計量及圖表

1

基礎生物統計方法(作者:鄭光甫、陳錦華、蔡政安、
陳弘家)
2
第一章 描述資料特徵的統計量及圖表
第二章 基礎機率及分配、抽樣分配
第三章 估計及假設檢定
第四章 單樣本及雙樣本檢定
第五章 平均數檢定:多組樣本
第六章 兩個類別變數之檢定
第七章 相關和廻歸分析(一)
第八章 相關和廻歸分析(二)
第九章 卜瓦松迴歸模型
第十章 多變項迴歸分析
第十一章 檢定力及樣本數
第十二章 存活資料分析
第十三章 調查研究
第十四章 診斷工具之判斷準則
第十五章 研究設計及整合分析
3

作業(30%)

期中考、期末考(各30%)

出席(10%)
4
5





樣本
平均數
比例
總數
眾數




中位數
全距
四分位距
標準差(變異數)
6



為雲端分析系統,利用google chrome連結至
http://www.r-web.com.tw/
在網路上分析,並以視窗點選,處理及分析資料無負擔
北醫為雲端計算聯盟之一,一校三院教職員及師生,皆可
免費使用。請由北醫生統中心網站予以連結
http://biostat.tmu.edu.tw/
7
1.
2.
3.
請至班代那填寫個人之姓名、學號、經常使用之
email帳號
系統管理者將建立您帳號並分派一組密碼寄至您
的信箱,登入系統即可使用
若有任何問題,可至生統中心詢問,或將問題寄
至此信箱 [email protected]
8
~~請各位同學配合事項~~
9/24(一)前交回生統中心
9



這一章,我們主要討論的是如何應用一些統計量或
圖表來呈現資料的基本特徵。
這些方法我們通稱為描述性統計(descriptive
statistics) 。
描述性統計有別於推論性統計(inferential
statistics), 後者應用有限的樣本(sample)資料去作
推論。
10


例如, 由500位第4期的大腸癌病人使用新舊藥的
結果(樣本),去推論是否新的藥是否比舊的藥在治
療第4期的大腸癌病人(是一種母群體,population)
方面較有效?
前者方法則可應用於樣本資料或母群體資料的統計。
11

資料特徵值的表達相當重要,它可以整合傳遞母群
體或樣本資料所帶來的訊息,讓我們可以從這些特
徵值的描述認識所研究族群的特色。
下面的例子是內政部社會司針對99年時單親家庭
狀況調查的一些統計結果:
"……我國因離婚、喪偶或未婚生育及收養而形成
之單親家庭,由90 年之24 萬8,299 戶(男性占
42.19%,女性占57.81%)增至 99 年之32 萬
4,846 戶(男性占43.32%,女性占56.68%),十
年間計增加7 萬6,547 戶,或增加30.83% 。"

12



"99 年單親家庭的單親成因主要以「離婚」者占
82.45%最多,較90 年之65.77%提高16.68
%。……"
"……單親父(母)雖多數有工作,惟收入偏低,高
達72%的單親 家庭每月平均收入在三萬元以內,超
過七成的家庭入不敷出,而能得到政府福利津貼或
補助者僅近40% 。"
"約50%的單親家庭有貸款或債務,平均貸款或債務
的金額為148 萬元,其中以房屋貸款、信用卡卡債
較多,經濟狀況普遍不佳。…… "
13
14
這些統計結果陳述了一些特徵值,包括:
 總數 (例如表1中說明99年時共有324,846人屬單親
父母親)。
 比例 (例如單親家庭中父親比例為43.32%,母親比
例為56.68%)。
 平均數 (例如72%的單親家庭中平均每月收入少於3
萬,50%的單親家庭中平均債務為148萬元)。

這些數都是描述性統計方法中經常使用的特徵數。
這些統計數除了讓我們很快可以掌握資料的特質外,
也可以讓我們比較時使用。例如男女單親家長人數
相比較約為1.3(56.68% ÷ 43.32%) 比1。
15
以下是以圖形來表達資料的集中特徵。是種長條圖(bar chart),
顯示單親家長的受教育的年數集中於10~12年。
圖1的資料中,假如要使用一個數值
來代表各種教育程度的話,使用平
均教育年數(計算方式如下):
10.2=(3×22241+8×89132+11×15
9371+13.5×34392+15.5×16617+1
8×3093)÷(22241+89132+159371+
34392+16617+3093);
公式=(∑xf)/(∑f)
x代表資料
f是此資料發生的次數
16



若資料是像圖1的區間資料,則x是取區間的"中間值"
是一種理想的做法。
使用"眾數(mode)"也是另一種做法;眾數是資料中
出現最多次的數值。
以圖1來看,雖然我們看不到原始數據,但我們知
道單親父母的教育程度最多在10~12年。因此,我
通常取(10+12)/2=11年為眾數,我們的解釋是:
最多人受教育的年數集中於10~12年(或11年附近)。
17
中位數(median)是統計方法中另一種用來描
述資料集中趨勢的統計量。


若是我們將資料依大小排序,資料數值在中間的數
即是中位數,因此我們知道有50%的資料其數值大
(小)於中位數。
表2中報告台北市的人口在於97年時癌症死因死亡
年齡的平均數和中位數。
18
19


死亡年齡的中位數全部大於死亡年齡的平均數。這
是因為得癌症者在高齡死去的人比較多,在低齡死
去的人較少,表示我國醫療水準是不錯的。
若是年齡中位數低於平均數,則表示得癌症在低齡
死去的比例相對較高,醫療水準有需要改善。
20
表3. 肺癌病人的年齡特徵
無抽菸史
樣本數
平均數
中位數
標準差
全距
最小值
最大值
第一四分位數
第三四分位數
IQR
53
66.1698
67
10.8659
49
38
87
60
74
14
過去抽過菸
(現在沒有)
289
64.3391
65
9.759
50
35
85
58
72
14
現在有抽菸習慣
35
63.4571
64
10.3394
46
36
82
58
70.5
12.5
21



表3所顯示的年齡特徵是由美國4個研究肺癌的醫學
中心整合出來的樣本資料中分析得來的。部份樣本
因資料不完整而遭受排除,最終分析的樣本數為
377。
所分析的變數包括:研究中心、年齡、性別、化療、
放療、抽菸史、第一次腫瘤惡化時間、存活狀態…
等。
表3除了計算集中趨勢的特徵值外,也計算了標準
差、最大值、最小值、全距、第一、三個四分位數
及IQR等統計值。後面這些統計值都是用來描述資
料的分散程度。
22


理念上來看,若是所有的資料值都是相同時,則分
散程度應為零;若是資料間差異程度越大,則我們
分散度應該越大。統計分析上我們用不同的方式來
表達資料間的分散程度。其中全距(range)是一種
最簡單的方式,定義為資料中最大值和最小值的差
異量。
另一種方式是四分位距( interquartile rang,IQR),
四分位距是第三個四分位數(Q3)和第一個四分位數
(Q1)的差異量(Q3- Q1),而第一(三)個四分位數則
是中位數以下(上)所有資料的"中位數"。全體資料
本身的中位數又稱為第二個四分位數(Q2)。基本上
這三個四分位數Q1、Q2、Q3將資料切割成四塊,
每一塊所包含的資料量佔全體資料量的1/4。
23


IQR有別於全體資料的全距,只表達了中間50% 資
料的的"全距"。表3顯示"無抽菸歷史"或"曾抽菸現
在不抽"的病人中,其年齡差異程度較類似 (全距或
四分位距相似)。至於在"目前抽菸"的病人中, 他們
年齡的差異程度相對較小。
表3中另一種表達資料分散程度的方法是計算資料
的標準差( standard deviation )。標準差的平方又
被稱為變異數( variance ),假如我們用平均數𝑥表
示資料的集中趨勢,則任一資料 𝑥 和集中趨勢值 𝑥
間變異的平方為(𝑥 − 𝑥)2 ,而變異數就是這些變異
平方的平均 :
(𝑥−𝑥)2 𝑓
𝑓
。
24


通常,若是資料為母體全部的資料則變異數經常以
𝜎 2 表達;若資料僅是樣本資料,則變異數攻式中
的分母經常改為 ( 𝑓) − 1 ,而(樣本)變異數(標準
差)改以 S 2 (S)表達。
由於我們經常無法觀察到全體的資料,我們會應用
樣本資料去計算 S 2 ,並用 S 2 去代表不知道的 "參
數" 𝜎 2 ,且稱 S 2 是參數𝜎 2 的一種"估計"。表3中的
標準差是樣本的標準差 S ,是由樣本資料計算取得
的。
25


樣本平均數 𝑥 和樣本標準差 S 經常搭配在一起使用,
前者表達資料的集中趨勢,後者則表示資料間分散
差異的程度。
理論顯示, 在”常態” 的母體資料(見第二章)下,我們
發現 “約有95%母體資料會落在𝑥 ± 1.96S 的範圍
內”. 因此, 即使我們沒有母群體的所有資料,我們仍
然可以使用χ和S分別來表示母群體資料的集中趨勢
及分散程度。
26


由以上的討論來看, 在計算三種資料的分散度: 全距,
四分位距,或標準差時, 我們首先必須將資料排序,加
總或相減, 因此,量性的資料較適合 。
連續型的量性資料都可以應用於所有分散度的計算,
但通常, 𝛘和S 搭檔使用, 中位數 (Q2)則和IQR(或全
距)搭檔使用。
27

統計量的計算或圖表的製作經常必須借由統計軟體
的應用來完成. 本書所有的分析和圖表全部使用 Rweb (雲端資料分析暨導引系統) 完成。請參考網址:
www.r-web.com.tw。
28
在資料檔 (lung cancer study)上傳到www.rweb.com.tw後, 以點選方式選用路徑: ”分析方法
摘要統計”

步驟一 (資料匯入): 使用個人資料檔

步驟二(參數設定): 選擇變數: AGE(年齡),
SURVIVAL_MONTHS(存活時間) 進階選項:選擇
分組變數: GENDER(性別) 開始分析
29
變數名稱 Variable
樣本數 Count
總和 Sum
平均數 Mean
中位數 Median Q2
眾數 Mode
標準差 Std. Dev.
變異數 Variance
全距 Range
最小值 Minimum
最大值 Maximum
第一四分位數 Q1
第三四分位數 Q3
內四分位距 IQR
年齡
存活時間(月)
GENDER = Female
234
229
GENDER = Male
244
240
GENDER = Female
14940
12217.44
GENDER = Male
15862
12068.68
GENDER = Female
63.8462
53.3513
GENDER = Male
65.0082
50.2862
GENDER = Female
64
48
GENDER = Male
66
43
GENDER = Female
68
36
GENDER = Male
62
66
10.6248
35.6806
9.5353
35.8671
112.8861
1273.1053
90.9217
1286.4522
GENDER = Female
54
203.47
GENDER = Male
47
175.87
GENDER = Female
33
0.53
GENDER = Male
35
0.03
GENDER = Female
87
204
GENDER = Male
82
175.9
GENDER = Female
57
27.1
59.75
20.965
GENDER = Female
72
73.22
GENDER = Male
72
72.78
GENDER = Female
15
46.12
12.25
51.815
GENDER = Female
GENDER = Male
GENDER = Female
GENDER = Male
GENDER = Male
GENDER = Male
30
若選路用徑: 圖表繪製 盒鬚圖(Box and Whisker
Plot)
 步驟一 (資料匯入) 使用個人資料檔
 步驟二(參數設定) 選擇繪製盒鬚圖之變數:
SURVIVAL_MONTHS,選擇分類變數:SITE 開始
分析
 則得以存活時間為分析變數,研究地點為分類變數
的盒鬚圖。
31
32



盒鬚圖又稱為箱型圖,是一種檢視(比較)資料分散
程度時相當實用的一種統計圖。
盒鬚圖中會顯示資料的最大值、最小值、中位數、
第一四分位以及第三四分位數等統計量。
盒子的下界高度為Q1, 中線高度為Q2, 上界高度為
Q3, 因此盒子的長為IQR。
33



最高實線的高度是資料中小於 (Q3+1.5xIQR) 的
最大數值, 又稱為上端點值; 最低實線的高度是資料
中大於 (Q1-1.5xIQR) 的最小數值, 又稱為下端點
值。
連結上下端點的線稱為“鬚線”. 在“常態”母群體的資
料下(Q1-1.5xIQR)和(Q3+1.5xIQR)的範圍內包含
99%以上的資料量, 因此鬚線以外的資料通常以 “o”
表示, 稱為界外資料 (outlier) 。
樣本資料若排除界外資料,則剩餘資料的全距就是鬚
線的長度!
34
圖表繪製 直方圖(Histogram)依照以下路徑:

步驟一 (資料匯入) 使用個人資料檔

步驟二(參數設定) 選擇變數: SURVIVAL_MONTHS
開始分析”點選後所得的直方圖(Histogram).
直方圖是一種將連續型數值資料分組後,依各組次
數分配或相對次數分配數據以長方形矩形連接而成
的統計圖, 可以了解資料大小分配比例的情形, 也可
以知道眾數的位置。
35
36
圖表繪製 長條圖(Bar Chart),依照以下路徑:


步驟一 (資料匯入) 使用個人資料檔
步驟二(參數設定) 選擇繪製長條圖的變數: SITE; 分
組變數:GENDER 開始分析,點選後所得的長條圖。
長條圖的功能和直方圖類似, 用於表現類別資料之次數
分佈情形。選定繪製長條圖的變數後,以長條狀圖形表
示各組次數分配情形,長條圖表示法中各長方矩形不相
連。
37
38
最後是2D的散佈圖(Scatter Plot). 將兩個可能相關
之數值變數分別置於座標圖上的X與Y軸,用圖點標
示各資料點的位置,可初步觀察兩變數間的相關性。
下面散佈圖是探討年齡及存活時間關係的散佈圖。


紅色散佈圖是沒有接受放射性治療病人的散佈圖,
淺藍色是接受放射性治療病人的散佈圖。
散佈圖顯示50歲以上的病人接受放療的比例較高;
年齡大的病人存活時間較短,其中也顯示年齡大
且接受放療的病人較沒接受放療的病人存活時間
更短。
39
40
圖表繪製 散佈圖 ,2D散佈圖之路徑為:

步驟一 (資料匯入) 使用個人資料檔

步驟二(參數設定) 選擇繪製散佈圖的變數: AGE,
SURVIVAL_MONTHS; 分組變數: 放射性治療 進階
選項 圖點符號 開始分析。
41

Upton, G., Cook, I.(2006). Oxford Dictionary of
Statistics, OUP. ISBN 978-0-19-954145-4

本章節使用之資料檔檔名:lung_cancer_study

所有資料檔均可在生統中心網頁找到
42
1. PPHN資料檔中包含嬰兒出生懷胎的週期及體重等資料。
(1) 請計算懷胎週期及體重的平均數,中位數,變異數及IQR。
(2) 接續第(1)小題,請分別以男女嬰兒的結果呈現。
(3) 接續第(1)小題,請針對懷胎週期小於平均數以下的小孩,
計算他們體重的平均數,中位數,變異數及IQR。
2. 資料總結的五數(five-number summary)通常以極小、極
大數、中位數、第一和第三個四分位數來表達。由五數的結構我
們通常可以約略的認識資料"分佈"的狀態。使用CVD_All的資
料,(1) 計算收縮壓資料的五個總結數; (2) 計算空腹血糖資料的五
個總結數;(3) 計算三酸甘油酯資料的五個總結數;(4) 前面五個
總結數,以男女分別呈現;(5) 從(4)中五個總數的比較,你有什
麼結論?
43
The End
35