第一單元：統計學基本概念介紹

Transcript 第一單元：統計學基本概念介紹

第一單元：
統計學基本概念介紹
生活中的統計學
• 54%民眾認為應由政府制訂《XX法》…..以上數據
於12月24至25日委託決策調查公司針對台灣地區
22縣市1072位20歲以上民眾進行電訪調查，在95%
信心水準下，抽樣誤差為正負3%。
• 某証券分析師：近10年來新春總是開紅盤…，今
天由各上市股票每天成交的數量與交易的價格來
看，價量背離應……。
• 對某工廠供應的一批產品做檢驗以決定接受或拒
收。
統計學的定義與流程步驟
統計學(Statistics)：統計學為蒐集、整理、
展示、分析、解釋資料，並由樣本推論群體，
使在不確定的情況下做成決策的方法。
如何選擇個案
如何蒐集資料
如何分
類整理data
用電腦檢核data
描述
data型態(敘述統計)
推論data (推論統
計學)
做決策
統計學的定義與流程步驟(續)
問題定義
資料蒐集
找出要調查的對象
挑選抽樣方法
越複雜的抽樣方法越random
繪成圖表
資料整理
資料分析
結論與決策
目的 : 找離群值
算出各常用統計量 or 信
賴區間 or 假說檢定 or 變
異數分析 or 迴歸分析等
要可信度(或叫信賴水準 or誤差
水準)否則為不可信
名詞定義
 群體/母體（population）：由具有共同特性個體
所組成的整體，為統計要調查的對象，數量很龐
大。
 樣本（sample）：群體的一部份(subset)。
例:要從本校學生中隨機抽樣200人測量血壓值
200個血壓值= 1個樣本
pop
200=樣本大小(sample size)
sample
 參數：由群體資料所計算出來的表徵值。
 統計量：由樣本資料所計算出之樣本表徵值。
統計學的目的
• 由樣本來推論群體的參數
抽樣(sampling)
Population
(具有表徵值μ)
Sample
(具有表徵值x)
目的就是由x推導μ，通常μ永遠也得不到。Why?
表徵值(指標)
• 例：μ稱之為群體平均數
群體
平均數
變異數
標準差
紅字為計量型指標
樣本
案例
某晶圓製造公司，欲由100片隨機抽出的晶圓來估計
工廠所生產晶圓之厚度。請說明所欲研究之『群體』、
『樣本』、『參數』及『統計量』各為何?
Ans:
群體 :
樣本 :
參數 :
統計量 :
晶圓厚度的資料檔
晶圓厚度的資料檔
晶圓”厚度的平均數”
晶圓”厚度的標準差”
晶圓”厚度的平均數”
晶圓”厚度的標準差”
為何需抽樣?
何不做普查? (普查=全部測量，每個個案都不放過)
某天衛生署要研究國人的血壓值(BP)，台灣
有2300萬人…
普查做不到的原因:
1、pop太大，μ無法得到。
2、pop有時無法明確界定或執行，即符合資格的名冊範圍
不見得都能配合。以研究高血壓患者為例，嚴重患者可能無
法接受普查。
3、觀察有時涉及破壞。以塑化劑食品調查為例，普查就
要把所有飲料都打開化驗，被打開的飲料就不能賣了。
為何需抽樣?(續)
普查做不到的原因(續)
4、經濟因素(廣義的)。廣義的經濟因素包括人力、財力、
物力、時間等的浪費。
5、研究深度。研究深度太深，是無法做普查的。 Why?
高血壓研究與全國人口普查的不同。
抽樣可以克服上述困難!!
隨機變數(Random
Variable, R.V)
即研究者對所欲研究之群體(依本案例為國人)的一
項或多項特質(依本案例為血壓值)，稱之。
分類:
1、質變數，或稱定性變數(Qualitative R.V)
隨機變數的結果不是以數量表示，變數值是一種類別(Category)
Ex: 性別(Sex)分男/女2類，職別分工程師/研究員/經理…等多類，
造成產品變異的可能原因(管理4M)分為Man, Machine,
Material, Method
男/女、工程師/研究員/經理都不是”數值”
質變數又稱類別變數(Categorical Variable)
隨機變數(續)
2、量變數 (Quantitative R.V)
隨機變數的結果是以數量表示，又分2型
1、離散型(Discrete) :經由”計數”(或稱累加)方式取得的資料
Ex: 不良產品的個數、公司員工個數、晶片中缺陷數
2、連續型(Continuous) :經由”測量”方式取得的資料
Ex: 重量、長度、血壓值
離散型可為0或整數
連續型可為任何實數
案例
決定下列隨機變數為定性或定量，若為定量則決定其屬離散型或連
續型。
a）一片玻璃上的瑕疵點數目
b）薄膜之厚度
c）一包速食麵的淨重
d）影響某化學製程好壞之可能因素
自變項 V.S 依變項
自變項(income)
又叫獨立變項，數學中稱自變數，公衛領域稱危險因
子，工程領域稱輸入變數
依變項(outcome)
又叫結果變項，數學中稱函數，公衛領域稱疾病別，
工程領域稱輸出變數
統計學也可是做自變項與依變項的因果關係證明與計算
案例
決定下列研究的自變項與依變項，順便分析該項為定性或定量，若
為定量則決定其屬離散型或連續型。
a）想研究血型不同，血壓是否不同
b）想研究性別不同，血壓是否不同
c）是否常抽菸，與支氣管炎的關聯
d）想研究體重與血壓的關係
第一單元之二：
常用統計量或指標
敘述統計
敘述統計=描述data型態
原始數據(或是量測數據)分析之型態可分為以下四大
類：
a）集中趨勢(Central Tendency)
b）離中趨勢(Dispersion Tendency)
c）偏態(Skewness)
d）峰態(Kurtosis)
集中趨勢
集中趨勢是
，也就是一組數據中央點位
置所在的一個指標。
例:某校A、B兩班的血壓平均值都是110。
描述資料要包
括集中與離散2
大訊息
A彼此接近
B彼此離散
B班比A班離散
集中趨勢
集中趨勢
 最常用的集中趨勢指標：
a）算數平均數【 Mean (M) 】
b）中位數【 Median (Md) 】
c）眾數【 Mean (M) 】
 較少聽到卻有優點的、修飾過的平均數
d）截尾平均值
e）溫莎化平均值
f）幾何平均值
算數平均數
母體的符號規定用希臘字，樣本的符號用英文字
算數平均數
 算術平均數=一組資料的重心，是最爛最不穩健的
統計值。
 不穩健=易受極端值的影響而失真。
 以下情形，平均值也都是110。
沒有極端值的情
形下，平均值才
有能力代表集中
趨勢
中位數
 中位數（median)：將資料由小排到大，位於中間
的數值，是一組資料的中心。
 資料數n=奇數，就是中間那一個。n=偶數，就是
中間那2個平均。
 案例1: 6位病患的血壓：86、88、100、102、110、
440，中位數等於
 結論:當data有極端值時，中位數能夠表達多數
data的特性。有離群值，不用平均值。
眾數
 眾數（mode)：將一組資料出現最多次的特徵。
 不一定每組data都有某數值出現最多次，所以眾數
有可能沒有、1個或多個。更且，數值有眾數，質
變數的變數值也可以有眾數。
 為何是特徵?
例1: 3、3、2、1、4、2、3的眾數 = 3
例2: 3、1、4、2的眾數 = null (每種數值都只出現一次)
例3: 90、100 、 100 、 110 、 110 、 120 、 130 、 140的眾數 = 100 、 110
例4: 某班100人，血型分布A型:20人、 B型:40人、 O
型:20人、 AB型:20人，眾數?
20? 40?
截尾平均數
• 把某個極端值剔除，用剩餘的個案算平均
值。
• 例: 某班30人，血壓值:100、101、 100、
101 、100、101、 100、101、 100、
101 、………..、500，截尾平均數?
把怪胎500剔除，用剩餘的個案算平均值
• 截尾的精神:
• 例: 某班1000人，有1人的血壓值500，要剔
除?
溫莎化平均數
• 研究者認為把某個極端值以正常值的最大
值取代，再算平均值，可展現原sample size。
• 例: 某班15人，血壓值:100、101、 102、
103 、104、105、 106、107、 108、109 、
110、 111、112 、113 、 500，溫莎化平均
數?
把怪胎500以113取代，再算平均值
• 溫莎化使用時機:
。
• 例: 某班1000人，有1人的血壓值500，要取代?
幾何平均數
幾何平均數(續)
HW1-1
• 某學生研究所入學口試，各口試委員的給
分 : 80、94、78、81、82、78、81，校方為
避免某口試委員個人主觀偏好或人情壓力
等，應如何規定並計算成績?
離中趨勢
 最常用的離中趨勢指標(離散指標)：
a）全距【Range】
b）內四分位距【 IQR】
c）平均差【 Mean Deviation】
d）標準差【 Standard Deviation】
 由標準差衍生出
c）變異數【Variance】
d）變異係數【 C.V】
全距
全距（range)：就是最大值減最小值(MaxMin)。
Ex : 6位個案的血壓：86、88、100、102、110、
240，全距等於
和平均值的特性一樣:是常用但不穩健的統計
值。(不穩健=易受極端值或特殊情形的影響而失真)
Ex : 全班血壓全距等於0 (大家血壓都一樣)
Ex : 全班血壓全距非常大 (全距被最大值與最小值
所遮蔽)

內四分位距
內四分位距iInterquartile range (IQR)：資料由
小排到大，剔除左右各25%的資料後。
內四分位距(續)
• 四分位數Q1~Q3 (Quartile)
• 第一四分位數 (Q1)，又稱「較小四分位數」，
等於該樣本中所有數值由小到大排列後第
25%的數字。
• 第二四分位數 (Q2)，就是「中位數」，等於
該樣本中所有數值由小到大排列後第50%的
數字。
• 第三四分位數 (Q3)，又稱「較大四分位數」，
等於該樣本中所有數值由小到大排列後第
75%的數字。
內四分位距(續)
IQR優點 :
1)剔除的個案容易包含極端值，相對全距而言比較穩健。
2)Q2-Q1與Q3-Q2有差異，可用於檢驗平均值是否不適用
了。
3) Q2-Q1與Q3-Q2可用於檢驗左偏(negative)或右偏
(positive)。有偏態，平均值不適用了。
如何找Q1、Q3
• 左右夾擊法
Ex : 10、40 、 50 、 60 、 80 、 120 、 160 、 180 、
180 、 800(已由小到大排列)
會遇到多少夾擊的情況?
如何找Q1、Q3(續)
• 夾擊的情況
小到大
大到小
小到大
大到小
2數取平均
小到大
大到小
小到大
大到小
內四分位距的衍生概念
平均差
標準差
以上指標的計算步驟
HW1-2
例1:求樣本數據5、8、1、2、4的平均數、變異數、標準差?
平
變異係數
變異係數(續)
偏態
單峰分配有三種型態的偏態
1)對稱:平均數=中位數
2)右偏:平均數>中位數
3)左偏:平均數<中位數
統計圖
前面說過敘述統計=描述data型態，統計圖是資料整
理後的呈現，常見的統計圖可分為以下幾種：
a）直方圖
b）次數多邊圖
c）圓餅圖
d）直方圖
e) 莖葉圖
f) 盒鬚圖
直方圖
直方圖(histogram):適用於等比、等距資料，橫軸為資料數值，
縱軸為資料數值出現次數。因此直條的高度或面積表示資料
設值佔所有觀察次數的累積，容易觀察極端值。
30位病患之血壓分佈圖
次數多邊圖
次數多邊圖(frequency polygon) 適用於等比、等距資料，與直
方圖相似，表達資料數值的分佈情形。不同的地方是此圖不
以長條形狀出現，而是將直條的中點連在一起把直方圖中各
組中心點用線連起來，適於做多組比較。
長條圖
長條圖(bar chart):直條的高度或面積也表示資料設值佔所有觀
察次數的累積。
你能分辨直方圖(histogram)與長條圖(bar chart)的不同嗎?
長條圖用以表達類別資料的次數分配表
圓餅圖
圓餅圖(PieChart):以一圓餅圖代表資料的全部，各數值出現
次數多寡佔整個圓形的百分比來表示。
圖:30位病患之血壓圓餅圖，高血壓(收縮壓140 mmHg)及正常(80 mmHg~110
mmHg)
莖葉圖
•
•
•
主要是可以提供差異性之間的比較，這比直方圖好的優點在於實際確實的
數字仍然保留在圖中。
以資料為二位數34為例，十位數3為莖，個位數4為葉，所有數字經莖與葉
的分析後，才依大小排成莖葉圖。
二位數以上的數字，莖與葉的位置可依研究當時的需求決定。
• 例:原始資料54 56 57 59 63 64 66 68 68 72 72 75 76 81 84 88 106
• 圖表形成：
1|
2|
3|
4|
5|4679
6|34688
7|2256
8|148
9|
10 | 6
•
再把此圖繪成直方圖
莖葉圖(續)
 莖葉圖優點在於除具有直方圖的優點，也可保持原有資訊
(直方圖失去原始數據資訊)，更可在數據遭誤植或遺漏時，
可以立即追蹤檢查，不必全部重做。
 缺點只適用於數量有限的資料，大量的資料會有太多莖與
葉，也是數不完。
盒鬚圖
 盒鬚圖不繪製實際的觀察值，而顯示分配的總計統計量
(summary-statistics)，
其可用以檢驗資料的極端量數及分配的型態。
盒鬚圖主要以Q1、Me、Q2、min、 max（5數綜合，five
numbers summary）來表現資料的分布狀態。
盒鬚圖(續)
 繪製方式：
盒子的長度即是代表內四分位數的範圍(interquartile range)，
亦即是第3四分位數與第1四分位數之差值(IQR=Q3-Q1)。
由盒子兩側所延伸出的線，即稱之為鬚(whisker)，連接資
料的最大值與最小值，是用以表示資料的分散情形。
 盒鬚圖特性：
＊由盒鬚圖箱子的大小位置及界外值，我們可以衡量資料的
集中與分散情形。
＊盒鬚圖可容易比較兩組資料的形態及分散情形。
＊當資料是偏態分布時，以最大值、最小值、中位數、第1四
分位數、第3四分位數等5個數值來描述資料的特質較為恰
當。若資料是對稱而又沒有離群值（常態）時以平均數和
標準差來描述資料的特質。
盒鬚圖(續)
 繪製方式：
盒子的長度即是代表內四分位數的範圍(interquartile range)，
亦即是第3四分位數與第1四分位數之差值(IQR=Q3-Q1)。
由盒子兩側所延伸出的線，即稱之為鬚(whisker)，連接資
料的最大值與最小值，是用以表示資料的分散情形。
 盒鬚圖特性：
＊由盒鬚圖箱子的大小位置及界外值，我們可以衡量資料的
集中與分散情形。
＊盒鬚圖可容易比較兩組資料的形態及分散情形。
＊當資料是偏態分布時，以最大值、最小值、中位數、第1四
分位數、第3四分位數等5個數值來描述資料的特質較為恰
當。若資料是對稱而又沒有離群值（常態）時以平均數和
標準差來描述資料的特質。
HW1-3
林小姐每天開車上班，路線有省道與高速公路2種，他每天隨便選
擇走哪一條，研究者根據他這些年來的行車紀錄抽樣，各抽了5個
樣本(單位:分)
A
B
C
D
E
省道
37
34
39
38
42
高速公路
44
23
37
31
55
請問林小姐走哪條路好?(Hint:考慮平均數、變異數、標準差)
平

第一單元：統計學基本概念介紹

Transcript 第一單元：統計學基本概念介紹

Directory