Transcript 順序尺度
Chapter 1 統計概論
1.1 統計學的意義
1.2 母體與樣本
1.3 抽樣方法
1.4 資料型態
1.5 用統計圖表呈現資料之分布
1.1 統計學的意義
•統計是用來處理數據的,數據由數字組成且數據是有內
容的數字。
•統計是從數據中找出訊息並且做成結論。
•統計概念分成四部份呈現
1. 數據的產生 (抽樣)
2. 資料分析
3. 機率
4. 統計推論
(敘述統計)
Question
1. 本班有多少同學?
2. 男生多一點,還是女生多一點?
3. 平均身高大概幾公分? 平均體重大約多少?
假設男性同學佔班上人數60%、平均身高165公分、平
均體重60公斤,就可以知道本班男性居多,且體格較
為壯碩。
通常一個班級內會有男有女、有高有瘦。對於每一個
人而言身高體重的數據都未必相同,此時數據才會形
成一種變數。換言之,統計的數據不是固定的。在統
計學上,個人或單一物體稱為個體、2人或2人以上的
集合稱為群體。統計學的應用對象並非個體而是群體
,而統計學的目的在表現出群體的特色或傾向。
1.2 母體與樣本
母體(population): 要調查求取資訊的對象
全體。母體成員總數通常以N表示。
樣本(sample):是母體的一部份,藉由研
究分析這一小部分個體以便對整個母體
做某些結論。樣本個數通常以n表示。
普查(census):是企圖把整個母體納入樣
本的抽樣調查。
個體(individual): 就是一組數據描繪的對象。
個體也許是人也可以是產品或動物。
變數(variable): 是指一個個體的任意「特質」,
同一個變數對於不同個體,可能有不同的值。
Ex.
姓名
小迪
小萍
小妮
小凱
小忠
系別
企管
資管
國貿
企管
財稅
性別
男
女
女
男
男
分數
92
85
80
65
70
等第
A
B
B
C
C
Ex .一位商學院研究學者想知道,是哪些因素影
響小型企業的存活與成功。他從大城市的分類電
話簿中,選出150家餐飲業。
Ex. 蓋洛普民意調查,探詢人民對某些議題的意
見。此時變數就是人們對相關問題的回答,這類
民意調查通常經由電話訪談,其人數為1500人。
Ex.某信用卡銀行舉辦『刷卡滿500元就有機會獲
得20萬元』活動。活動方式:只要在100年8月份
單次刷卡滿500元,就有機會參加抽獎,由電腦
隨機選出符合條件的5位幸運得主,每人獨得20
萬元。
母體參數與樣本統計量
母體參數(population parameter):是指
用以描述母體特性的特徵數,簡稱參數
或母數(parameter)。
樣本統計量(sample statistics):是指用
以描述樣本特性的特徵數,其為樣本的
函數,簡稱統計量(statistics)。
母體參數與樣本統計量對照表如下:
特 徵
參
數
平均數
變異數
統計量
統計量的值
X
x
2
S2
s2
標準差
S
s
比例
p
P
p
1.3 抽樣方法
非機率抽樣
1.方便抽樣法(convenience sampling):調查
人員以方便取得資料的方式來抽取樣本。
2.自發性回應樣本(voluntary response
sample):是經由對某一訴求的回應而自然
形成的。如: call-in。
3.判斷抽樣法:調查人員依自己的專長、知
識來選取代表性的樣本。
機率抽樣
1.簡單隨機抽樣(SRS, simple random sample)
母體中每一個體可能被選為樣本的機會相同
◆
抽籤式
◆
利用亂數表
2. 分層隨機抽樣(stratified sampling)
先將母體內的個體依其特性或調查目的有關
的性質分成幾個類或組,每個類組稱為一層,
然後自各層中選取特定數量的個數形成樣本。
◆
等量分層隨機抽樣
◆
比例分層隨機抽樣
3.部落(叢集)抽樣法(clustered sampling)
先將母體個體依自然標準或人為標準合成若
干部落,而以部落為最小抽樣單位,每一部
落有同等被抽中的機會,而以抽中的一或數
個部落形成樣本。
Remark:部落抽樣主要被應用於地理區域或產業抽樣,因部落內的樣本較
為集中,調查範圍較小,可以節省人力時間與經費。例如響調查農家所
得,可先隨機抽取鄉鎮,再調查抽中的整個鄉鎮。經濟部辦理的「工商
企業營業概況調查」即採部落抽樣法。
4.系統抽樣(systematic sampling)
自母體自然排列的資料中,每隔一定間格選
取一個樣本,直至抽滿個n樣本為止。
Remark:95年「臺灣地區家庭收支調查」即採系統抽樣法。
抽樣誤差
明年總統大選逐漸逼近,依據自由時報9/8最新
民調,國民黨參選人馬英九支持度36.87%,民
進黨參選人蔡英文支持度33.92%,馬英九領先
2.95%。與七月底本報調查時,馬英九領先2.1%
相比,雙方持續在誤差範圍內纏鬥。
這次調查是自由時報民意調查中心於九月五、六
、七日三天晚間,以台灣地區住宅電話為母體,
作尾數兩位隨機抽樣進行。成功訪問1424人,在
95%信心水準下,抽樣誤差為正負2.6%。
這樣的抽樣調查,常在報上見到,但其中所表
示的意義是甚麼?其中較引人注目的36.87%表
示甚麼?而較不受重視的抽樣誤差率2.6%,又
表示甚麼?
1424則是有效樣本數。它所想表現的意義是:
我們對36.87%這個「滿意度」,應該有95%的機
會,落在
(36.87%-2.6% , 36.87%+2.6%)
之間。簡言之,這個報告所暗示的是,馬英九
支持度是在0.3427及0.3947中間的。蔡英文支
持度落在
(33.92%-2.6% , 33.92%+2.6%)
介於0.3132及0.3652。
抽樣誤差:是抽樣這動作所造成的誤差,抽樣
使得樣本結果與普查結果不同。
◆ 隨機抽樣誤差:在選取樣本時因機遇而產生的變
異。可藉由信賴敘述中誤差界限得知隨機抽樣誤
差的嚴重性。
◆ 涵蓋不全:在抽樣之前必須要有一清單,列出母
體所有成員,可讓我們從中抽取樣本,我們稱之
為抽樣底冊(sampling frame) 。當母體中有些成
員沒被列進抽樣底冊時,就發生涵蓋不全的問題。
非抽樣誤差:與從「母體抽取樣本」這動作無
關,在人口普查中也可能發生。例如:無回應、
處理誤差、回應誤差。
Question:
1. 如何從大量數據中,一眼就能看出要點?
2. 是不是所有數據均能求平均值?
資料需先分類再統計。
統計學使用的資料分為「可測量」及「不可測量」兩種
*可測量的資料→數量資料。例如:年齡、身高、體重
*不可測量的資料→類別資料(質的資料)。例如:性別
、血型、交通工具
大原則來看,有數字的就是數量資料,但通常是有數據
單位,而類別資料沒有。
1.4 資料型態
對一組統計資料加以彙總或描述之前,應先區分
資料的型態(type of data)。因不同型態的資料其
所採統計方法不同,統計資料一般是由一個或多
個變數之值所組成。統計資料依據其變數的特性
可分為:
1.質的資料(qualitative data):依資料的屬性或類別
之尺度來區分的資料,又稱為類別資料。
2.量的資料(quantitative data):凡可依據數字尺度
所衡量的資料。量的資料一般又可區分為間斷資
料(discrete data)與連續資料(continuous data)。
資料測量的尺度
資料蒐集到手後應進行衡量的工作。
衡量是指用數字來表示我們所測得事物或性質的量,
換言之,衡量是將類別資料或數量資料轉換成具有明
確意義的變數過程。通常為了方便統計調查結果,一
般都會把類別資料數字化,因為數字比文字更好建檔
。這些資料被轉換為數字,卻不能稱為數量資料,同
時也不能用來求平均數、最大值和最小值,例如血型
:A→1、B→2、O→3、AB→4
變數有質的變數與量的變數。
衡量的工具稱為衡量尺度。資料的衡量尺度是給與資
料一個實數值,作為比較或計算的基礎。
•資料測量的衡量尺度
名目(類別)尺度(nominal scale):只用來作為分類之用而
已,給每一個類別適當名稱,藉以辨識。例如:「性
別」 , 以數值1表示「男性」,2為「女性」。
順序尺度(ordinal scale):可以依資料的重要性、等級或
強度來做一個順序的關係。例如:證照級數。
區間(等距)尺度(interval scale):不只可以根據重要性來
衡量物體,且可以用同樣間隔的尺度來區別他們的排列
順序。可以排序及用區間瞭解距離的差異,但沒有絕對
的原點,且其比例無意義。例如: 「溫度」,無真正原
點, 而所謂無真正的原點是指當其數值為0時,並不代
表沒有溫度。
比率尺度(ratio scale):總合了前述三種尺度的性質,具
有最高的測量水準,而且具有決對原點,可作加減乘除
運算。例如:重量、長度。
Ex.婦女學歷、就業及結婚年齡與小孩數目研究抽樣資料
姓名
小孩數
學歷
是否就業 結婚年齡 生育意願 身體狀況 忙碌與否
林文月
2
大學
是
27
是
好
忙
張文貞
3
專科
是
25
是
好
很忙
李玲玉
1
研究所
是
32
否
好
非常忙
郭月貞
2
高中
否
24
是
好
正常
陳宜君
1
國中
否
22
否
好
正常
朱昭如
2
高中
是
23
否
好
忙
劉秀貞
0
大學
是
26
是
差不多
很忙
林芳如
1
大學
否
25
是
好
非常忙
許美淑
0
研究所
是
30
否
不好
非常忙
鄭淑玲
2
高中
是
28
是
好
正常
學歷:1表示國中,2表示高中,3表示專科,
4表示大學, 5表示研究所。
是否就業:0表示未就業,1表示就業。
生育意願:0表示否, 1表示是。
身體狀況:0表示不好,1表示差不多,
2表示好。
忙碌與否:1表示正常,2表示忙,3表示很忙
,4表示非常忙。
Ex.婦女學歷、就業及結婚年齡與小孩數目研究抽樣資料數值化
姓名
小孩數
學歷 是否就業 結婚年齡 生育意願 身體狀況 忙碌與否
林文月
2
4
1
27
1
3
2
張文貞
3
3
1
25
1
3
3
李玲玉
1
5
1
32
0
3
4
郭月貞
2
2
0
24
1
3
1
陳宜君
1
1
0
22
0
3
1
朱昭如
2
2
1
23
0
3
2
劉秀貞
0
4
1
26
1
2
3
林芳如
1
4
0
25
1
3
4
許美淑
0
5
1
30
0
1
4
鄭淑玲
2
2
1
28
1
3
1
將上面四種衡量尺度,以下面的例子表示。
某大專院校的姓名
衡量尺度
郭同學
何同學
高同學
許同學
名目
學號
950026
940017
960121
951123
順序
成績等第
甲
乙
乙
甲
區間
TOFEL的分數
165
160
150
180
比率
體重(公斤)
60
53
56
61
實例:所得調查
名目尺度
– 你有所得嗎?
□無
□有
順序尺度
– 你的所得水準是
□ 低所得
□ 中所得
□ 高所得
等距尺度
– 你每月的所得是
□9,999元以下
□10,000~29,999元
□30,000~49,999元
□50,000~69,999元 □70,000元以上
比例尺度
– 你每月的所得是___________元
1.5 用統計圖表呈現資料之分布
類別資料:
◆ 次數分配表
◆ 長條圖(bar graph) 、圓餅圖(pie chart)
連續型資料或當離散資料太多時 :
◆分組次數分配表
◆直方圖(histogram)、多邊圖(polygon)、
莖葉圖、盒形圖(Box plot)
Ex. 某城市成人婚姻狀況之次數分配表
人數
已婚
未婚
離婚
寡居
總數
2050
3550
1752
658
8010
百分比
25.59
44.32
21.87
8.22
100.00
長條圖
4000
3550
3500
3000
2500
2000
2050
1752
1500
1000
658
500
0
未婚
已婚
離婚
寡居
圓餅圖
未婚
已婚
離婚
寡居
658, 8%
2050, 26%
1752, 22%
3550, 44%
Ex.某公車處將5月6月的乘客投訴分類歸
納如下:
長條圖
屬量資料的分組次數分配表
建立屬量資料的分組次數分配表的步驟
1.求全距(range)
R=最大值 - 最小值
2.決定組數
取 k等於 n 的整數。
求最小的 k 值,使得 2k n。
Sturge’s formula: k = 1+3.32log10n。
3. 決定組距(class interval)
組距(d) = 全距(R)∕組數(k)
4. 決定組限(class limit)
5. 劃記並計算次數(frequency)
分組次數分配表
Ex. 期中考試成績
組限
32.5~41.5
41.5~50.5
50.5~59.5
59.5~68.5
68.5~77.5
77.5~86.5
86.5~95.5
次數
4
3
7
8
14
9
5
以下累積
4
7
14
22
36
45
50
以上累積
50
46
43
36
28
14
5
直方圖
次數 16
14
14
12
9
10
8
7
8
6
4
5
4
3
2
0
32.5 41.5 50.5 59.5 68.5 77.5 86.5 95.5
成績
肩形圖
60
50
50
45
40
36
30
22
20
14
10
7
4
0
0
32.5
41.5
50.5
59.5
68.5
77.5
86.5
95.5
直方圖在說話
畫完圖形後,我看到什麼?
型態與偏差
□分布的一般型態:找出中心與離度;檢查是否有簡單的
形狀可以描述。
□對稱及偏態:如果直方圖的右邊延伸出去比左邊遠很多
,則此分佈是右偏;反之,則為左偏。
離群值: 是指落在圖形一般型態之外的觀測值
直方圖在說話
直方圖描述資料的整體分佈型態
– 包括形狀(shape)、中心(center)及離散度
(spread)等
直方圖也呈現資料的偏差(deviation)
– 離群值(outliers) :與眾不同之個別值
資料的整體分佈
對稱資料(Symmetric Data)
– 圖例1.3
偏斜資料(Skewed Data)
– 右偏斜資料(skewed to the right):資料中線的右邊
延伸較長。
– 左偏斜資料(skewed to the left):資料中線的左邊
延伸較長。
對稱資料
Class
25 7
8
9
20 10
11
12
15 13
14
15
10 16
17
Count
2
1
3
5
12
23
11
3
4
1
2
5
0
7
8
9
10
11
12
13
14
15
16
17
右偏斜資料
letters
301
2
3
25
4
5
206
7
8
15
9
10
1011
22
percent
5
18
23
24
12
7
5.2
2.5
2
1
0.5
0.3
5
0
1
2
3
4
5
6
7
8
9
10
11
22
莖葉圖
適用於資料較少之數量變數
製作方法
– 將各資料分成莖(最右一個數字以外的所有數)及
葉(最右一個數字)。
– 將莖由小到大排成一欄並在其右畫一垂直線
– 將葉由小到大在對應莖的右排成一列
Ex. 公司有28位員工其年齡如下
40 36 32 45 29 31 33 51 47 28 32 30 42 43
34 37 36 27 58 41 45 30 35 32 33 41 37 38
莖 葉
2
3
4
5
7
0
0
1
8 9
0 1 2 2 2 3 3 4 5 6 6 7 7 8
1 1 2 3 5 5 7
8
Question: 該挑哪些產品衝業績?
麵包店產品營業額差距大,是該繼續推銷熱
賣商品?還是努力促銷銷售不佳的品項?
麵包種類
法國麵包
披薩
三名治
全麥吐司
甜甜圈
雜糧麵包
丹麥麵包
巧克力捲
菠蘿麵包
牛角麵包
合計
營業額
17
11
20
45
6
43
10
8
30
10
200(萬元/月)
Answer: 可運用帕累托分析或ABC分析
在18世紀,一位研究財務分配的義大利學者,發現80%
的財富是控制在20%的人員手上,漸漸地,這種「關鍵
的少數(vital few)和次要的多數(trivial many)」的
理論,被廣為應用在社會學和經濟學中,並被稱之為帕
累托原則(Pareto Principle)。
帕累托法則又稱80/20法則,80/20的法則認為:原因和
結果、投入和產出、努力和報酬之間本來存在著無法解
釋的不平衡。
若以數學方式測量得到的基準線是一個80/20關係;例
如,世界財富的80%為20%的人所擁有;在一個國家的
醫療體系中,20%的人口與20%的疾病,會消耗80%的
醫療資源。80/20原則表明在投入與產出、原因與結果
以及努力與報酬之間存在著固有的不平衡。
ABC分析法
一般企業80%的銷售額來自20%的產品,因此 ABC分
類法一般是將產品(市場、顧客)分成三類:
A:高貨量,高週轉產品(存貨品項少,但銷售金額
相當大)
B:中貨量產品(介於A類與C類之間,存貨品項與銷
售金額大致上佔有相當的比率)
C:低貨量,低週轉產品(存貨品項相當多,但銷售金
額卻很少)
有10-30%的商品項目,其價值約佔全部營業
價值的70-80%,此類商品通稱為A類商品
有40-60%的商品項目,其價值約佔全部營業
價值的5-15%,其則被歸為C類商品
剩餘的商品則被稱為B類商品。
ABC重點控制模式圖示
ABC分析法之分析步驟
(1)依照營業額的高低,重新排列商品順序。
(2)計算各類商品占整體營業額的比率。
(3)從營業額最高的商品,開始依序累計各商
品營業額的比率(累積比率)。
麵包種類
全麥吐司
雜糧麵包
菠蘿麵包
三名治
法國麵包
披薩
丹麥麵包
牛角麵包
巧克力捲
甜甜圈
合計
營業額
49
48
39
15
13
11
10
8
5
2
200(萬元/月)
比率
24.50%
24.00%
19.50%
7.50%
6.50%
5.50%
5.00%
4.00%
2.50%
1.00%
100%
累積比率
24.50%
48.50%
68.00%
75.50%
82.00%
87.50%
92.50%
96.50%
99.00%
100.00%
分類
在折線圖上,營業額累積比率在70%以下商品,歸類為A
;在70%~90%之間的商品歸類為B;其餘的商品歸類為C
。(分類標準的70%及90%是根據以往經驗制定,數據分析
者可依需求自由更動標準)
累積比率
120.00%
100.00%
87.50%
80.00%
68.00%
60.00%
40.00%
20.00%
0.00%
B
A
C