第一單元:統計學基本概念介紹
Download
Report
Transcript 第一單元:統計學基本概念介紹
第一單元:
統計學基本概念介紹
生活中的統計學
• 54%民眾認為應由政府制訂《XX法》…..以上數據
於12月24至25日委託決策調查公司針對台灣地區
22縣市1072位20歲以上民眾進行電訪調查,在95%
信心水準下,抽樣誤差為正負3%。
• 某証券分析師:近10年來新春總是開紅盤…,今
天由各上市股票每天成交的數量與交易的價格來
看,價量背離應……。
• 對某工廠供應的一批產品做檢驗以決定接受或拒
收。
統計學的定義與流程步驟
統計學(Statistics):統計學為蒐集、整理、
展示、分析、解釋資料,並由樣本推論群體,
使在不確定的情況下做成決策的方法。
如何選擇個案
如何蒐集資料
如何分
類整理data
用電腦檢核data
描述
data型態(敘述統計)
推論data (推論統
計學)
做決策
統計學的定義與流程步驟(續)
問題定義
資料蒐集
找出要調查的對象
挑選抽樣方法
越複雜的抽樣方法越random
繪成圖表
資料整理
資料分析
結論與決策
目的 : 找離群值
算出各常用統計量 or 信
賴區間 or 假說檢定 or 變
異數分析 or 迴歸分析 等
要可信度(或叫信賴水準 or誤差
水準)否則為不可信
名詞定義
群體/母體(population):由具有共同特性個體
所組成的整體,為統計要調查的對象,數量很龐
大。
樣本(sample):群體的一部份(subset)。
例:要從本校學生中隨機抽樣200人測量血壓值
200個血壓值= 1個樣本
pop
200=樣本大小(sample size)
sample
參數:由群體資料所計算出來的表徵值。
統計量:由樣本資料所計算出之樣本表徵值。
統計學的目的
• 由樣本來推論群體的參數
抽樣(sampling)
Population
(具有表徵值μ)
Sample
(具有表徵值x)
目的就是由x推導μ,通常μ永遠也得不到。Why?
表徵值(指標)
• 例:μ稱之為群體平均數
群體
平均數
變異數
標準差
紅字為計量型指標
樣本
案例
某晶圓製造公司,欲由100片隨機抽出的晶圓來估計
工廠所生產晶圓之厚度。請說明所欲研究之『群體』、
『樣本』、 『參數』及『統計量』各為何?
Ans:
群體 :
樣本 :
參數 :
統計量 :
晶圓厚度的資料檔
晶圓厚度的資料檔
晶圓”厚度的平均數”
晶圓”厚度的標準差”
晶圓”厚度的平均數”
晶圓”厚度的標準差”
為何需抽樣?
何不做普查? (普查=全部測量,每個個案都不放過)
某天衛生署要研究國人的血壓值(BP),台灣
有2300萬人…
普查做不到的原因:
1、pop太大,μ無法得到。
2、pop有時無法明確界定或執行,即符合資格的名冊範圍
不見得都能配合。以研究高血壓患者為例,嚴重患者可能無
法接受普查。
3、觀察有時涉及破壞。以塑化劑食品調查為例,普查就
要把所有飲料都打開化驗,被打開的飲料就不能賣了。
為何需抽樣?(續)
普查做不到的原因(續)
4、經濟因素(廣義的)。廣義的經濟因素包括人力、財力、
物力、時間等的浪費。
5、研究深度。研究深度太深,是無法做普查的。 Why?
高血壓研究與全國人口普查的不同。
抽樣可以克服上述困難!!
隨機變數(Random
Variable, R.V)
即研究者對所欲研究之群體(依本案例為國人)的一
項或多項特質(依本案例為血壓值),稱之。
分類:
1、質變數,或稱定性變數(Qualitative R.V)
隨機變數的結果不是以數量表示,變數值是一種類別(Category)
Ex: 性別(Sex)分男/女2類,職別分工程師/研究員/經理…等多類,
造成產品變異的可能原因(管理4M)分為Man, Machine,
Material, Method
男/女、工程師/研究員/經理 都不是”數值”
質變數又稱類別變數(Categorical Variable)
隨機變數(續)
2、量變數 (Quantitative R.V)
隨機變數的結果是以數量表示,又分2型
1、離散型(Discrete) :經由”計數”(或稱累加)方式取得的資料
Ex: 不良產品的個數、公司員工個數、晶片中缺陷數
2、連續型(Continuous) :經由”測量”方式取得的資料
Ex: 重量、長度、血壓值
離散型可為0或整數
連續型可為任何實數
案例
決定下列隨機變數為定性或定量,若為定量則決定其屬離散型或連
續型。
a)一片玻璃上的瑕疵點數目
b)薄膜之厚度
c)一包速食麵的淨重
d)影響某化學製程好壞之可能因素
自變項 V.S 依變項
自變項(income)
又叫獨立變項,數學中稱自變數,公衛領域稱危險因
子,工程領域稱輸入變數
依變項(outcome)
又叫結果變項,數學中稱函數,公衛領域稱疾病別,
工程領域稱輸出變數
統計學也可是做自變項與依變項的因果關係證明與計算
案例
決定下列研究的自變項與依變項,順便分析該項為定性或定量,若
為定量則決定其屬離散型或連續型。
a)想研究血型不同,血壓是否不同
b)想研究性別不同,血壓是否不同
c)是否常抽菸,與支氣管炎的關聯
d)想研究體重與血壓的關係
第一單元之二:
常用統計量或指標
敘述統計
敘述統計=描述data型態
原始數據(或是量測數據)分析之型態可分為以下四大
類:
a)集中趨勢(Central Tendency)
b)離中趨勢(Dispersion Tendency)
c)偏態(Skewness)
d)峰態(Kurtosis)
集中趨勢
集中趨勢是
,也就是一組數據中央點位
置所在的一個指標。
例:某校A、B兩班的血壓平均值都是110。
描述資料要包
括集中與離散2
大訊息
A彼此接近
B彼此離散
B班比A班離散
集中趨勢
集中趨勢
最常用的集中趨勢指標:
a)算數平均數【 Mean (M) 】
b)中位數【 Median (Md) 】
c)眾數【 Mean (M) 】
較少聽到卻有優點的、修飾過的平均數
d)截尾平均值
e)溫莎化平均值
f)幾何平均值
算數平均數
母體的符號規定用希臘字,樣本的符號用英文字
算數平均數
算術平均數=一組資料的重心,是最爛最不穩健的
統計值。
不穩健=易受極端值的影響而失真。
以下情形,平均值也都是110。
沒有極端值的情
形下,平均值才
有能力代表集中
趨勢
中位數
中位數(median):將資料由小排到大,位於中間
的數值,是一組資料的中心。
資料數n=奇數,就是中間那一個。n=偶數,就是
中間那2個平均。
案例1: 6位病患的血壓:86、88、100、102、110、
440,中位數等於
結論:當data有極端值時,中位數能夠表達多數
data的特性。有離群值,不用平均值。
眾數
眾數(mode):將一組資料出現最多次的特徵。
不一定每組data都有某數值出現最多次,所以眾數
有可能沒有、1個或多個。更且,數值有眾數,質
變數的變數值也可以有眾數。
為何是特徵?
例1: 3、3、2、1、4、2、3的眾數 = 3
例2: 3、1、4、2的眾數 = null (每種數值都只出現一次)
例3: 90、100 、 100 、 110 、 110 、 120 、 130 、 140的眾數 = 100 、 110
例4: 某班100人,血型分布A型:20人、 B型:40人、 O
型:20人、 AB型:20人,眾數?
20? 40?
截尾平均數
• 把某個極端值剔除,用剩餘的個案算平均
值。
• 例: 某班30人,血壓值:100、101、 100、
101 、100、101、 100、101、 100、
101 、………..、500,截尾平均數?
把怪胎500剔除,用剩餘的個案算平均值
• 截尾的精神:
• 例: 某班1000人,有1人的血壓值500,要剔
除?
溫莎化平均數
• 研究者認為把某個極端值以正常值的最大
值取代,再算平均值,可展現原sample size。
• 例: 某班15人,血壓值:100、101、 102、
103 、104、105、 106、107、 108、109 、
110、 111、112 、113 、 500,溫莎化平均
數?
把怪胎500以113取代,再算平均值
• 溫莎化使用時機:
。
• 例: 某班1000人,有1人的血壓值500,要取代?
幾何平均數
幾何平均數(續)
HW1-1
• 某學生研究所入學口試,各口試委員的給
分 : 80、94、78、81、82、78、81,校方為
避免某口試委員個人主觀偏好或人情壓力
等,應如何規定並計算成績?
離中趨勢
最常用的離中趨勢指標(離散指標):
a)全距【Range】
b)內四分位距【 IQR】
c)平均差【 Mean Deviation】
d)標準差【 Standard Deviation】
由標準差衍生出
c)變異數【Variance】
d)變異係數【 C.V】
全距
全距(range):就是最大值減最小值(MaxMin)。
Ex : 6位個案的血壓:86、88、100、102、110、
240,全距等於
和平均值的特性一樣:是常用但不穩健的統計
值。(不穩健=易受極端值或特殊情形的影響而失真)
Ex : 全班血壓全距等於0 (大家血壓都一樣)
Ex : 全班血壓全距非常大 (全距被最大值與最小值
所遮蔽)
內四分位距
內四分位距iInterquartile range (IQR):資料由
小排到大,剔除左右各25%的資料後。
內四分位距(續)
• 四分位數Q1~Q3 (Quartile)
• 第一四分位數 (Q1),又稱「較小四分位數」,
等於該樣本中所有數值由小到大排列後第
25%的數字。
• 第二四分位數 (Q2),就是「中位數」,等於
該樣本中所有數值由小到大排列後第50%的
數字。
• 第三四分位數 (Q3),又稱「較大四分位數」,
等於該樣本中所有數值由小到大排列後第
75%的數字。
內四分位距(續)
IQR優點 :
1)剔除的個案容易包含極端值,相對全距而言比較穩健。
2)Q2-Q1與Q3-Q2有差異,可用於檢驗平均值是否不適用
了。
3) Q2-Q1與Q3-Q2可用於檢驗左偏(negative)或右偏
(positive)。有偏態,平均值不適用了。
如何找Q1、Q3
• 左右夾擊法
Ex : 10、40 、 50 、 60 、 80 、 120 、 160 、 180 、
180 、 800(已由小到大排列)
會遇到多少夾擊的情況?
如何找Q1、Q3(續)
• 夾擊的情況
小到大
大到小
小到大
大到小
2數取平均
小到大
大到小
小到大
大到小
內四分位距的衍生概念
平均差
標準差
以上指標的計算步驟
HW1-2
例1:求樣本數據5、8、1、2、4的平均數、變異數、標準差?
平
變異係數
變異係數(續)
偏態
單峰分配有三種型態的偏態
1)對稱:平均數=中位數
2)右偏:平均數>中位數
3)左偏:平均數<中位數
統計圖
前面說過敘述統計=描述data型態,統計圖是資料整
理後的呈現,常見的統計圖可分為以下幾種:
a)直方圖
b)次數多邊圖
c)圓餅圖
d)直方圖
e) 莖葉圖
f) 盒鬚圖
直方圖
直方圖(histogram):適用於等比、等距資料,橫軸為資料數值,
縱軸為資料數值出現次數。因此直條的高度或面積表示資料
設值佔所有觀察次數的累積,容易觀察極端值。
30位病患之血壓分佈圖
次數多邊圖
次數多邊圖(frequency polygon) 適用於等比、等距資料,與直
方圖相似,表達資料數值的分佈情形。不同的地方是此圖不
以長條形狀出現,而是將直條的中點連在一起把直方圖中各
組中心點用線連起來,適於做多組比較。
長條圖
長條圖(bar chart):直條的高度或面積也表示資料設值佔所有觀
察次數的累積。
你能分辨直方圖(histogram)與長條圖(bar chart)的不同嗎?
長條圖用以表達類別資料的次數分配表
圓餅圖
圓餅圖(PieChart):以一圓餅圖代表資料的全部,各數值出現
次數多寡佔整個圓形的百分比來表示。
圖:30位病患之血壓圓餅圖,高血壓(收縮壓140 mmHg)及正常(80 mmHg~110
mmHg)
莖葉圖
•
•
•
主要是可以提供差異性之間的比較,這比直方圖好的優點在於實際確實的
數字仍然保留在圖中。
以資料為二位數34為例,十位數3為莖,個位數4為葉,所有數字經莖與葉
的分析後,才依大小排成莖葉圖。
二位數以上的數字,莖與葉的位置可依研究當時的需求決定。
• 例:原始資料54 56 57 59 63 64 66 68 68 72 72 75 76 81 84 88 106
• 圖表形成:
1|
2|
3|
4|
5|4679
6|34688
7|2256
8|148
9|
10 | 6
•
再把此圖繪成直方圖
莖葉圖(續)
莖葉圖優點在於除具有直方圖的優點,也可保持原有資訊
(直方圖失去原始數據資訊),更可在數據遭誤植或遺漏時,
可以立即追蹤檢查,不必全部重做。
缺點只適用於數量有限的資料,大量的資料會有太多莖與
葉,也是數不完。
盒鬚圖
盒鬚圖不繪製實際的觀察值,而顯示分配的總計統計量
(summary-statistics),
其可用以檢驗資料的極端量數及分配的型態。
盒鬚圖主要以Q1、Me、Q2、min、 max(5數綜合,five
numbers summary)來表現資料的分布狀態。
盒鬚圖(續)
繪製方式:
盒子的長度即是代表內四分位數的範圍(interquartile range),
亦即是第3四分位數與第1四分位數之差值(IQR=Q3-Q1)。
由盒子兩側所延伸出的線,即稱之為鬚(whisker),連接資
料的最大值與最小值,是用以表示資料的分散情形。
盒鬚圖特性:
*由盒鬚圖箱子的大小位置及界外值,我們可以衡量資料的
集中與分散情形。
*盒鬚圖可容易比較兩組資料的形態及分散情形。
*當資料是偏態分布時,以最大值、最小值、中位數、第1四
分位數、第3四分位數等5個數值來描述資料的特質較為恰
當。若資料是對稱而又沒有離群值(常態)時以平均數和
標準差來描述資料的特質。
盒鬚圖(續)
繪製方式:
盒子的長度即是代表內四分位數的範圍(interquartile range),
亦即是第3四分位數與第1四分位數之差值(IQR=Q3-Q1)。
由盒子兩側所延伸出的線,即稱之為鬚(whisker),連接資
料的最大值與最小值,是用以表示資料的分散情形。
盒鬚圖特性:
*由盒鬚圖箱子的大小位置及界外值,我們可以衡量資料的
集中與分散情形。
*盒鬚圖可容易比較兩組資料的形態及分散情形。
*當資料是偏態分布時,以最大值、最小值、中位數、第1四
分位數、第3四分位數等5個數值來描述資料的特質較為恰
當。若資料是對稱而又沒有離群值(常態)時以平均數和
標準差來描述資料的特質。
HW1-3
林小姐每天開車上班,路線有省道與高速公路2種,他每天隨便選
擇走哪一條,研究者根據他這些年來的行車紀錄抽樣,各抽了5個
樣本(單位:分)
A
B
C
D
E
省道
37
34
39
38
42
高速公路
44
23
37
31
55
請問林小姐走哪條路好?(Hint:考慮平均數、變異數、標準差)
平