Course introduction / Descriptive statistics

Download Report

Transcript Course introduction / Descriptive statistics

生物統計學
Biostatistics
Introduction & Descriptive statistics
Sep 21, 2010
藍祚鴻
Tsuo-Hung Lan MD, PhD
Institute of Brain Science, Yang-Ming University
Department of Psychiatry, Taichung Veterans General Hospital
林志榮 著
Course Objectives
Answer a scientific question about the dependence of
a response on explanatory variables which represent
scientific interest.
Design a display to reveal the association between
explanatory variables and the response.
Choose a specific and appropriate model to address a
scientific question.
Perform tests of relevant null hypotheses
Check fitness of a model on a dataset
Summarize in a table the results of analyses and
write a description of the statistical methods, results,
and main scientific findings.
Grading
40%: Based on homework
60%: Final Examination or Final Project
Report
Suggested Statistical Software
STATA
SAS
SPSS
STATISTICA
S-PLUS
R
大綱
1.母群體 / 樣本與抽樣方法
2.集中趨勢量數
3.差異量數
4.平均數與標準差的應用
5.偏態量數、峰態量數
6.變數與資料型態
6.探索性資料分析
母群體與樣本
Population and Sample
林志榮 著
母體與樣本
母群體(population):

是由具有某些共同特質的觀測值或元素(人或
事物)所組成的群體,也是研究人員所要研究
觀察對象的全體。
樣本(sample):

是由母群體中抽取部份觀測值或元素而組成的
個體或觀測值,是母群體的一小部份觀測值。
母群體的種類:
1.有限母群體(finite population)
2.無限母群體(infinite population)
3.假設母群體(hypothetical
population)
4.研究母群體(study population)
林志榮 著
樣本種類
1.隨機樣本(random sample)
2.非隨機樣本(nonrandom sample)
林志榮 著
母體與樣本的關係圖
樣本
母群體
平均數
比 例
變異數
抽樣
樣本平均數
樣本比例
樣本變異數
推論
母數
統計值
樣本的選擇
隨機樣本:樣本要能夠代表母體的性質,因此必須使
母體的每個個體獨立且機會均等地被選為樣本,此
樣本稱為隨機樣本。
而此隨機樣本必須能反映出母體的性質。
非隨機樣本(立意取樣):依取得方法的不同,也有
非隨機樣本,
這類樣本全憑抽樣者主觀判斷及經驗,不是依據機率
理論或隨機原則所獲得的。
挑選隨機樣本的方法
最常用的為:簡單隨機抽樣(simple random
sampling:SRS)。
其他有:
系統抽樣(systematic sampling:SYS)。
分層隨機抽樣(stratified random
sampling:STRS)。
集群抽樣(cluster sampling:CS)。
常用的抽樣方法
Type
Type of
of
Sample
Sample
Non
Non
Probability
Probability
Probability
Probability
Simple
Simple
Random
Random
JudgJudgment
ment
Quota
Quota
Chunk
Chunk
Systematic
Systematic Stratified
Stratified
Cluster
Cluster
簡單隨機抽樣
1. 母體中每一個樣本點均有相同機率被
抽中
2. 抽出某個樣本後不影響另一個樣本抽
出的機率(獨立性)
3. 經常先列樣本名冊後用電腦產生隨機
數或隨機表抽選
簡單隨機抽樣
優點
簡單、容易執行
不需要高深的學問
缺點:
母體太大時執行不易
母體內資料特性不均勻時易有誤差
系統抽樣
系統抽樣
Systematic
Sample
Systematic
Sample
1. 將所有樣本列冊
以序號排列,先隨機
抽取第一個樣本,接
著每隔K個樣本抽取
下一個樣本

2. K的求法
Population size
Sample size
 3. 常用於電話抽樣
分層隨機抽樣法
(Stratified Sampling)
將母體區分為數個層



各層中所包含的個體互不重疊
層內性質相近
層與層之間差異明顯
各層中以簡單隨機抽樣抽出
各層的簡單隨機樣本,然後
將各層隨機樣本合併起來即
成一組分層隨機樣本
All Samples
Group A
Group B
Sample
集群抽樣
Cluster Sample
1.將母群體區分為多個集群
clusters
母體 (集群)
集群間互斥且周延
 集群與集群間差異小
 集群內與母群體

樣本
2.隨機抽取數個集群
3.將抽中的集群內每個
樣本均調查
不歸還抽樣法
不歸還抽樣法(Sampling without Replacement)
 抽出的元素不歸還母體後再抽取下一個元素
母體
所有可能樣本
{A,B}
{A,B,C}
{A,C}
{B,C}
歸還抽樣法
歸還抽樣法(Sampling with Replacement)
 抽出的元素歸還族群後再抽取下一個元素
母體
所有可能樣本
{A,A} , {B,A} , {C,A}
{A,B,C}
{A,B} , {B,B} , {C,B}
{A,C} , {B,C} , {C,C}
機率
抽取機率
元素
樣本
不歸還抽樣法
1/3
1/3
歸還抽樣法
1/3
1/9
精密度與準確度
Precision and Accuracy
準確度(Accuracy):
抽樣所得樣本中觀測值靠近族群真值的程度
精密度(Precision):
抽樣所得樣本中觀測值的集中或分散的程度
樣本A
樣本B
精密度與準確度比較圖
樣本A:精密度高但準確度低
樣本B:精密度與準確度均低
樣本C:精密度與準確度較高
樣本C
抽樣誤差:
系統誤差與隨機誤差
系統誤差(Systematic Error):
也稱偏差(Bias),是測量物體時偏離族群真值
的誤差,是一種有原因與方向的誤差。
隨機誤差(Random Error):
測量每個物體觀測值時皆不盡相同,原其因不
明,是偶然發生的誤差。
變項與資料的類型
自變數(independent) vs. 依變數
(dependent )
連續(continuous)變數 vs. 間斷(discrete)
變數
名義(nominal)變數、次序(ordinal)變數、
等距(interval)變數,和比率(ratio)變數
(Stevens, 1951),依測量尺度(scale of
measurement)的精密度分。
測量的尺度
我們可以根據測量規則的特性,將測量
規則分成四類。換言之,即是四種尺度
(scale):
 名目尺度(nominal scale)
 順序尺度(ordinal scale)
 等距尺度(interval scale)
 比率尺度(ratio scale)
名目尺度
 將資料依據不同的觀點區分成若干類別,每
一類別皆賦予不同的數字。
 例如:
性別:男=1, 女=2。
 地區別:台北=1, 台中=2,高雄=3
 學號

 名目尺度中,數字只代表代號或類別,但其
大小順序、差值大小、比率皆無意義。
順序尺度
 資料被賦予的數字,其大小順序有意義。
 順序尺度除了具有前述之類別特性外,其最
大的特點是資料被賦予的數字,可以用來排
序。
 例如:
班上同學的成績,由高至低分成五個等級,優等
=1,甲等=2,乙等=3,丙等=4,丁等=5。
 台北牛肉麵節排名前25名之最具人氣牛肉麵店。

 順序尺度中,數字的順序有意義,但差值、
比率皆無意義。
等距尺度
 資料被賦予的數字,不僅順序有意義,其差
值也有意義。
 等距尺度除了前述類別特性與順序特性外,
最大特色是具有equal intervals property—如
果A與B兩個數字之間距是一單位,C與D兩
個數字之間距也是一單位,則這兩個間距是
相等的。
 例如:華氏溫度(F)、攝氏溫度(C)。
 等距尺度中,數字的大小順序與差值皆有意
義(因等距),但比率並無意義(因為只有
相對零點,無絕對零點)
比率尺度
 資料被賦予的數字,不僅順序與差距有意義,
其比率也有意義。
 比率尺度除了前述類別特性、順序特性、及
等距特性外,最大特色是具有absolute zero
property—當觀察值為零的時候,代表你要
測的東西是不存在的。在比率尺度下,不可
能出現小於0的數值。
 例如
身高體重(物理屬性)
 絕對溫度(凱氏溫度) (物理屬性)
 一個社區之婦女罹患子宮頸癌的人數(計數)

 比率尺度中,數字的大小順序、差距、比率
皆有意義。
你累了嗎?來罐蠻牛吧!!!
次數分配 (distribution)
統計學的內容與種類
敘述統計學
敘述統計學包括蒐集、整理、表現、分析與解
釋資料。意即它係討論如何蒐集資料,以及將
所獲得的資料,加以整理表現解釋與分析。
推論統計學
推論統計學是將敘述統計中由樣本資料所獲得
的結果,將之一般化推論至母體,或是由樣本
統計量推論到母體參數的方法。它又稱為歸納
統計學(inductive statistics)。
Step 1. 蒐集資料
母體
抽樣
樣本
推論
Step 2. 組織資料
Step 4. 進行推論
Step 3. 分析資料
集中量數
(measures of central location)
平均數
中位數
眾數
百分位數
百分位數與中位數、四分位數、十分位數
集中量數的特性與優缺點比較
集 中 量 數
測量層次
眾數
中位數
名義

順序


等距/比率


優點
缺點
平均數

不受偏離值的影響, 對數值變化不敏感,較 測量最為精密,考慮
不受極端值影響,計算 到每一個樣本,具有
計算方法簡便。
代表性。
方法尚稱簡便
測量過於粗糙,無法 無法反應所有樣本的狀 易受偏離極端值的影
響。
況。
反應所有樣本
三種集中量數與分配形狀的關係
平均數 中位數 眾數
(a)
眾數 中位數 平均數
(b)
平均數=中位=眾數
(c)
變異量數
(measures of variation)
全距
四分位差
變異數與標準差
變異量數
(measures of variation)
用來描述觀察值在某一個變項上的分
數分散情形的統計量數
描述統計中,集中量數必須搭配變異
量數,才能反應一組數據的分佈特徵
常用的變異量數包括全距、四分差、
變異數及標準差
全距 (range) R  X max  X min
f (x )
全距
x
四分差(quartile deviation, Q)
是一組數據當中的第3四分位數(區隔
高分端的前25%的分數,簡稱Q3)與
第1四分位數(區隔低分端的後25%的
分數,簡稱Q1)距離的一半
平均數與標準差的應用
變異係數
Z分數
Chebyshev定理
變異係數(coefficient of variation)
變異係數(coefficient of variation)去
除單位對於變異量數放大作用
CV值是把標準差除以平均數,是一個
沒有單位的比值,也稱為相對差或相
對差異係數(coefficient of relative
variability)
Z分數
Xi  x
Xi  
Zi 
或 Zi 
s

Z i  第i 項觀測值的Z 分數
x 或  樣本(或母體 )平均數
s或  樣本(或母體 )標準差
Chebyshev定理
在任何的資料分配中,觀測值落於平
均數左右k個標準差的區間內之比例,
至少為  1  12 。

k 
Chebyshev定理
當資料分配呈鐘形形狀(bell-shaped)時,亦即
為對稱分配,則
 約有68%的觀測值落於 ( x  s, x  s ) 的區間
內。
 約有95%的觀測值落於 ( x  2 s, x  2 s ) 的區間
內。
 約有99.7%的觀測值落於 ( x  3 s, x  3 s ) 的區
間內。
Chebyshev定理與經驗法則
區間
Chebyshev定理
經驗法則
( x  s, x  s )
至少0%
約68%
( x  2 s, x  2 s )
至少75%
約95%
( x  3 s, x  3 s )
至少89%
約99.7%
偏態量數、峰態量數與動差
偏態量數
峰態量數
動差
偏態量數
(1)對稱分配
X  M0  Me
(2)左偏分配
XMe M0
(3)右偏分配
M0 Me X
(1)曲線為對稱分配,此時中心位置就是平均數、中位數與
眾數的所在,三者為同一點,呈現三點合一的情形。
(2)曲線為左偏分配,此時平均數最小,中位數則介於平均數
與眾數之間。
(3)曲線為右偏分配,此時平均數為最大,且呈現與左偏分
配相反之位置分布。
Pearson偏態量數
當SK=0時,由於 X =Me,表示資料的分配
會近似對稱分配。
當SK<0時,由於 X <Me,表示資料的分配
會近似左偏分配。
當SK>0時,由於 X >Me,表示資料的分配
會近似右偏分配。
峰態量數
高狹峰
常態峰
低闊峰
N
1 
4
(
X

)
N
 i
i 1
4
M4
4
 2 2 4
( )

探索性資料分析--盒形圖
最小值
52.0
最大值77.1
Q1=57.2
Me=60.9
Q3=64.6
盒形圖與函數分配
(a)
對稱分配
(b)
左偏分配
(c)
右偏分配
(d)
均勻分配
盒形圖與資料值
外圍
內圍
Q1
平穩界外值
極
端
界
外
值
中位數
最小值
1.5IQR
3IQR
IQR
內圍
Q3
最大值
1.5IQR
3IQR
外圍
平穩界外值
極
端
界
外
值
~The End~