極端值

Transcript 極端值

資料蒐集與分析方法
2010 研究龍暑期研習營
觀光系顏家芝教授
1
大綱
量化分析的基本概念
測量理論與方法
資料檢核與數據準備
資料分析方式簡介
2
一、量化分析的基本概念
3
科學研究的特性
科學的目的
對於現象的描述、解釋、預測與控制，最終在
改善人類的生活品質。
學術的立場偏重於描述、解釋與預測；實務的
立場則著重於控制
科學的特性
系統性、客觀性、實證性
4
科學研究的特性
科學式的解決問題步驟
問題的發現
問題的界定
提出假設與解決的方法
歸納法Induction：透過觀察、紀錄等方式尋求解決問題的共
同特徵或關係，而獲得具解釋力的普遍性結論
演繹法Deduction：自一通則性現象開始根據邏輯推演而獲
得各別性的陳述
推演假設結果
考驗假設
5
科學研究的主要內容
變項Variable─表現被研究對象的某一屬性因時
地人物不同而在質（quality）或量（quantity）上
的變化
操作型定義operational definition：以舉出測
量該變項或產生該事項所做的操作活動為界定變項
的方式，而非描述變項的性質或特徵
清晰防止曖昧的陳述
減少概念與變項數目
確保研究者間溝通無誤
6
假設
假設Hypothesis─變項之間的假設性關係
條件式—A影響B，A為先決條件B為後果條件
差異式—分類變項間的差異
函數式—X是Y的函數（X自變項，Y依變項）
假說—具有實證支持的假設
定律Law─經過重複驗證的假說
理論Theory─有組織、有架構、具有邏輯關
係的假說或定律
7
主要的量化研究設計
調查法
相關法
實驗法
主要目的
由樣本推論母群
探討變項間關係
對於母體的描述與解釋建立通則與系統知識
探討因果關係
建立通則與系統知識
樣本特性
大樣本
具母群體代表性
結構化問卷
事實性問題
態度性問題
行為頻率
小樣本
隨機樣本、隨機分派
實驗設備、測驗量表
研究工具
測量題項
中型樣本
立意或配額抽樣
測驗或量表
態度性問題
心理屬性的測量
研究程序
抽樣與調查
（學理基礎）（抽樣理論）
測量尺度
類別變項為主
測驗編製與實施
（測驗理論與技術）
連續變項為主
統計分析
描述統計
常用統計技術卡方檢定
無母數統計
線性關係分析
迴歸
路徑分析
反應時間
行為頻率
心理屬性的測量
實驗操弄
（實驗設計）
類別自變項
連續依變項
平均數差異檢定
變異數分析
共變數分析
8
量化研究的內容
緒論
研究問題的介紹與說明
研究背景的整理與說明
研究目的與實務的陳述
方法
參與者或樣本
研究工具與器材
研究程序
分析方法
結果
統計分析及圖表
討論與結論
摘述研究設計與發現
詮釋主要的發現與立
場澄清
評論研究價值與意義
指出缺失與發展方向
9
統計軟體的影響
正面的意義
樣本數大，抽樣誤差降低，
增加統計推論的正確性
促成多元變數統計方法的
發展
採用運算公式替代定義公
式，節省電腦作業時間
以原始資料直接進行處理
報導統計檢定犯錯誤的機
率
負面的影響
過度依賴程式，逃避統
計理論基礎與方法的理
解，無法正確判斷統計
方法的使用時機
報表判讀的偏差與誤用
反果為因，重視分析輕
乎創意
易產生資料轉換或合併
上的錯誤
10
二、測量理論與方法
11
測量的目標
客觀性(objectivity)。測量應不受測量者的主觀因素
而影響其結果，同時其過程應有具體的步驟與操作
方法，以供他人的檢驗。
數量化(quantification)。測量的功能是提供具體的
數據來描述研究者所關心的現象。
溝通性(communication)。測量在產生具有特定格式
與具體明確的指標與數據，而能夠提供給所有的研
究者作為參考與比較。
經濟性(economy)。標準化的測量活動得以有效運
用其有限的時間與資源，專注於特定現象的測量與
分析。
科學的類化(scientific generalization)。標準化的測
量，協助研究者客觀、具體的去探索社會現象或心
12
理屬性。
變項的類型
測量的基礎：變異
變項(vs.常數)
表現被研究對象的某一屬性因時地人物不同而在
質(quality)或量(quantity)上的變化
自變項(IV)vs.依變項(DV)
陳述變項的因果關係
間斷變項(discrete variable) vs.連續變項
(continuous variable)
表現變項的有限性
類別變項(categorical variable) vs.連續變項
(quantitative variable)
表現變項的分析性
13
測量的尺度（方法）
適用於低層次資料的統計方法亦適用於高層次的資料
高層次資料適用的統計分析方式較多
數學關係
> or <
+ or -
測量層次
= or 
名義測量
順序測量



等距測量
比率測量






 or 

14
測量的格式
指問卷的整體形式
結構與非結構化測量
問卷題目的特性
開放性測量
數字型問題：如家中人口數。可反應連續性
變數的特性（線性關係的分析）
文字型問題：如繪圖反應
封閉式測量：可搭配圖表處理、易懂
15
封閉式測量方式
類別性測量：
題目的選項必須完全互斥
必須包含所有可能的選項
連續性測量：以程度區分強弱或大小
總加量表Likert scale,
等距量表Thurstone scale,
累積量表 Guttman scale,
語意差別 Semantic differenation,
強迫選擇Forced choice question,
檢核表 Checklist
16
李克特量表Likert scale
題
目
1. 小孩不打不成器。
2. 打小孩是免不了的，只是不要當著他人
的面打就是了。
3. 教養小孩應該恩威並施。
4. 即使小孩犯了大錯，應考慮講理，再考
慮輕微的體罰。
5. 打小孩不但不會有幫助，還會有反效
果。
1 非常不同意
4 同意
2 不同意
5 非常同意
3 沒所謂同意或不同意
1 2 3 4 5
1 2 3 4 5
1 2 3 4 5
1 2 3 4 5
1 2 3 4 5
同分數並不一定代表態度相同，只能區別態度的高低
17
等距量表Thurston scale
分數
評
定
題
10.2 同意 不同意 1. 小孩不打不成器。
目
9.1
同意 不同意 2. 打小孩是免不了的，只是不要當著
6.2
他人的面打就是了。
同意 不同意 3. 教養小孩應該恩威並施。
4.8
同意 不同意 4. 即使小孩犯了大錯，應考慮講理，
1.5
再考慮輕微的體罰。
同意 不同意 5. 打小孩不但不會有幫助，還會有反
效果。
完全以專家意見制定，不見得完全客觀
只容許兩種反應：同意或不同意
18
累積量表Guttman scale
評
定
題
目
同意 不同意
1. 你抽菸嗎?
同意 不同意
2. 你每天是否抽菸多於 10 支?
同意 不同意
3. 你每天是否抽菸超過一包?
同意 不同意
4. 你是否每刻不能離開菸?
製作過程複雜且費時
只能構成單項度量表unidimensional scale
19
語意差別測量
Semantic differential
評定對象: 大學教授
溫暖的
聰明的
忙碌的
吹毛求疵的
易於相處的
非常
-2
有點都不是
–1
0
有點
1
非常
2
____
____
____
____
____
____
____
____
____
____
____
____
____
____
____
____
____
____
____
____
____
____
____
____
____
冷酷的
愚蠢的
悠閒的
大而化之的
難以相處的
另有視覺類比測量visual analog法，以線段
替代數字，以去除數值的錨定效果anchor
effect，然處理上耗時費事較不普及
20
強迫選擇問題
1. □ 甲：我喜歡狂熱的，隨心所欲的聚會。
□ 乙：我比較喜歡可以好好聊天，安安靜靜的聚會。
2. □ 甲：有很多電影，我喜歡一看再看。
□ 乙：我不能忍受，看過的電影還要一看再看。
3. □ 甲：我常常希望自己能成為一位登山者。
□ 乙：我不能了解為什麼有人會冒險去登山。
缺點為量表長度比一般likert scale多出
一倍
21
形容詞檢核技術
問題: 創意的廣告人特質?
對於一個具有創意的廣告工作者，你
認為下列人格特質的重要性為何?
1 非常不重要
2 不重要
3 重要
4 非常重要
1. 熱情的
2. 理性的
1
2
3
4
1
2
3
4
3. 外向的
1
2
3
4
4. 冷靜的
1
2
3
4
5. 有耐心的
1
2
3
4
適用於探索性的測量
22
測
量
格
式
的
比
較
測量格式類型
編製應用量化精
難度價值密度
分數的運用
測量尺度
非結構式問卷
低
低
低
需經轉換
-
結構化開放式問題
1.數字型開放問題
低
高
高
連續分數
2.文字型開放問題
低
低
低
需經轉換
順序、等距
或比率量尺
-
低
高
-
個別題目
(類別次數)
名義或順序
量尺
1. Likert 量尺
中
高
高
總加法(連續分數)
等距量尺
2. Thurston 量尺
高
高
高
等距法(連續分數)
比率量尺
3. Guttman 量尺
高
高
高
累積法(連續分數)
比率量尺
4. 語意差別量尺
中
高
高
總加法(連續分數)
等距量尺
5. 強迫選擇量尺
中
高
高
總加法(連續分數)
等距量尺
6. 形容詞檢核技術
低
高
高
總加法(連續分數)
23
等距量尺
結構化封閉式問題
類別性測量
連續性測量
三、資料檢核與數據準備
24
資料查核
目的在確認研究資料的正確性(accuracy)，
確保研究資料的完整性(completion)與堪用程
度(availability)
數據查核與清理: 檢查資料的正確性
數據整備: 重新整理資料以備分析之用
資料查核方式
過程查核 ─資料未完成輸入前所進行的資料檢
查程序
終點檢核─資料完成輸入之後所進行的資料檢
查程序
25
資料備便
反向題處理
避免答題者亂填或因題目本身需要，如一個1
～4分的四點自尊量表中：
1.大體說來我對自己十分滿意
2.有時我覺得自己一無是處*
3.我覺得自己有許多優點
4.我常覺得自己是一個失敗者*
26
資料備便
遺漏值
答題疏忽、題意不明、拒答外，尚可能因資料
輸入的失誤而造成
影響：造成樣本流失，更甚者影響統計推論
遺漏值屬性
非系統性遺漏值：因答題者疏忽等原因而漏答，
其所造成的影響為隨機變異的來源
系統性遺漏：答題者一致性的漏填或拒答，容
易造成分析的偏誤
補救方式：進行遺漏項目分析，以虛擬變項將遺漏項
目歸類，以了解遺漏值是否有集中於某類屬性的趨勢
27
遺漏值處理
遺漏值的處置與估計
編製階段：發展良好的工具
鍵入階段:：立即反應。搭配編碼系統來進行
鍵入後補漏：
若原稿尚存時，對照本文補漏
若缺乏原稿時，參照相關題研判
鍵入後估計：無法獲得遺漏資料的補實時
中間數估計法
平均數估計法：或利用分層平均數估計法
迴歸估計法：當預測變項與依變項間據有相關性
時
28
偏離值的處理
偏離值(outlier)─指變項偏離常態、不尋
常的數值，也就是與多數受測者的反應數
值極端不同的狀況。
極端值(extreme)─嚴重的偏離情形
單變項偏離值的處理
次數分配與直方圖的使用
盒狀圖的運用
雙(多)變數的偏離現象
29
單變項偏離:
直方圖的使用
400
325
300
310
296
242
200
121
100
次
數
77
55
44 49
0
極端值
19
15.50
16.48
15.99
17.46
16.97
18.44
17.95
19.42
18.93
20.40
19.91
21.38
20.89
22.36
21.87
23.34
22.85
24.32
23.83
24.81
年齡
30
盒狀圖box and whisker plot
•＊表極端值（ 1.5× IQR＜觀察值＜3×IQR）
•○表偏離值（觀察值＞3×IQR）
• 當中位數兩側延伸的線愈不相等，表偏態愈明顯
Q1
Q1－IQR×1.5
median Q3
An outlier
Q3＋IQR×1.5
31
單變項偏離: 盒狀圖的使用
26
極端值（距離為盒長之 3 倍以上）
24
偏離值（距離為盒長之 1.5 倍以上）
22
非偏離值最大上限
20
第 75 百分位數數（第三四分位）
18
中位數（第二四分位數）
第 25 百分位數（第一四分位數）
16
非偏離值最低下限
14
N=
1565
<< 受試者年齡 AGE >>
32
雙變項(單類別與單連續變項)偏離檢驗
26
24
1308
22
受
試
者
年
齡
1439
1416
1424
1421
1428
1452
1454
1414
1505
1441
1436
1415
1445
1413
1410
1437
1447
1434
1451
1449
1442
1431
1417
1419
1446
1420
1411
1453
1440
1425
1423
1426
1418
1412
1448
1438
1444
1432
1443
1450
816
1497
920
560
925
94
817
700
1567
1526
839
869
1564
1499
1557
530
20
18
16
1353
1312
1376
1037
383
1154
164
1110
1221
1183
338
348
1238
1079
999
1004
224
373
1379
1266
1032
14
N=
704
657
一年級
97
三年級
二年級
受試者年級
101
6
五年級
四年級
33
三變項(單類別與單連續變項)偏離檢驗
26
受
試
者
年
齡
24
1308
22
1353
1439
1416
1424
1428
1421
1454
1452
1505 1414
1441
1415
1436
1413
1445
1434 1410
1449
1451
1437
1447
1442
1431
1417
1419
1411
1420
1446
1426
1453
1418
1425
1440
1423
1412
1438
1448
1444
1432
1443
1450
20
18
1497
560
920
925
700
869
1564
1557
1499
1526
1305
1303
1037
1460
1481
383
164
1110 1154
1221
1183 1004
348
338
1238
1079
373
224
999
998
1235
1188
268
816
16
1032
男 MALE
14
女 FEMALE
N=
393
一
311
340
二
317
59
三
42
43
四
54
5
1
五
受試者年級
34
雙變項(雙連續)偏離檢驗
24
22
受 20
試
者
年
齡 18
AGE
16
14
0
20
受試者成績
40
60
80
100
35
偏離值的處理
錯誤偵測：重新調閱文本資料以確知資料
的正確性
虛擬變項分析法：將偏離值視為一組，非
偏離值為一組，進行區別函數分析以確定
那些變項可以區分此二組，這些變項便可
能是造成多變項偏離值的變項，再以散佈
圖來描繪該數值的位置。
去除法：當資料數龐大而去除少數偏離值
不致影響分析時
合併組法：將極端值合併為一組
數學轉換法：以數學方式（log）轉換
36
基本統計假設的檢定
常態性 Normality
同質性 Homoscedasticity
線性 Linearity
常態性檢驗
常態性檢驗
觀察值必須符合常態分配的特性(normality）
SPSS: 統計分析→摘要→資料預檢
方法：
圖形分析：長條圖及機率累積散佈圖Normal
distribution plot
統計檢驗：利用峰態、偏態檢測
一般使用動差法計算：當上述值等於零則為常態、
對稱；小於零則為低闊峰、左偏（negative
skewness）；大於零則為高狹峰、右偏（positive
skewness）
利用Z檢定則可了解其偏離情形是否顯著
38
常態性Normality
 圖形分析：長條圖及機率累積散佈圖
Normal distribution plot
 統計檢驗，利用峰態、偏態檢測：一般
使用動差法計算
skewness : g1 
kurtosis : g 2 
m3
m2  m2
m4
m2
2
3
, mr 
1
 x i  x r

n
Ёь ё ХЄМ¦~ДЦЄ є±`єA Q-Q № П
°w№ п GR= ¤G ¦~ЇЕ
ґБ
±ж
¦ё
јЖ
±`
єA
Ж[№о-И
40
同質性Homoscedasticity
由自變量預測應變項時，其變異程度
或分配情況需相等。
異質性分配情況可能發生在：變項型
態；自變項之偏態造成的異質性。
檢查方式：
圖形測試其變異分佈情況
統計檢驗，單變項時利用Levene test 或
多變量時用Box’s M test
線性Linearity
最簡單可用scatter plots，或用迴歸分析檢查
其線性關係
證明非線性關係
缺乏相關性之誤差
由於重要影響因素的遺漏，以至於非相關的變項
形成類似相關之情形
解決方式：重新檢查資料，引進遺失的重要變項
資料轉換
目的：
轉換資料以符合常態性及同質性要求
加強其變項間關係
一般性原則：
單變項的平均數與標準差之比小於4.0時轉換才可能生效
當二個變項均可轉換時，取（1）中比值較小者優先轉換
轉換方式應以自變項為優先，除非違反同質性分配原則
要修正異質分配之情況只有在相依關係情況下轉換其依變項；
若異質分配下同時又呈現非線性關係則依變項與自變項均需
轉換
轉換後變項的解釋方式與原始變項不同
四、資料分析方式簡介
兩變項的關連程度
變項的假設檢定
多變量分析
44
變項間的關聯程度
 關聯程度的大小
 關聯程度的方向
 是否具有因果關係，亦即為對稱或不
對稱關係
 交叉分類與百分表，以自變項的方向
來解釋依變項變化的情形
變項間之關聯測量簡表
兩變項測量層次
可用的關聯測量法
類別vs.類別
Lamda、Goodman & Kruskal Tau-y
類別vs.順序
Lamda、Goodman & Kruskal Tau-y
順序vs.順序
G、Somers dyx
類別vs.等距
Eta
順序vs.等距
Eta
等距vs.等距
r
變項的假設檢定
檢定結果
H0 為真
真
實
情
況
H0 為真
H0為偽
正
確
犯型 II 誤差
H0 為偽
犯型 I 誤差
正
確
大樣本Ζ檢定
平均數
Z
x

n
兩母體平均差
單一母體比例
二母體比例差
pˆ 1  pˆ 2
Z
, s pˆ1  pˆ 2 
s pˆ1  pˆ 2
pˆ qˆ (
1
)
n1  n2
小樣本t檢定
 ｔ檢定公式： t  X 1  X 2
s x1  x2
 單一母體平均數檢定
 二母體平均數差的檢定
 成對資料的假設檢定：當ｎ小於30且σd
未知，配對差異近似常態
卡方檢定
2
(
O

E
)
2  
E
 適合度檢定（goodness-of-fit test）
df = k-1，ｋ為類別數，Ｏ﹦觀察次數，Ｅ﹦期
望次數
 獨立性檢定（列聯表檢定）
df = (r-1)(c-1)，r, c分別為列聯表中的行列數
多變量技術的類型 –相依關係1/2
變量間屬於自變項與依變量之相依關係（相互間的影響有
方向性者）：
多元迴歸Multiple regression：單一量化尺度之依變項
與多個量化尺度之自變項間之關係
判別分析 Multiple discriminant analysis：由單一類別
尺度（通常為2～3個）之依變項與量化尺度之多個自
變項所組成的多元迴歸。主要目的在了解類別間的差
異以便進行分類預測
多變量變異數分析及共變數分析 Multivariate analysis
of variance and covariance：同時預測分析多個類別
尺度的自變項與兩個以上量化尺度之依變項間的關係。
多變量共變數分析主要目的則為移除由非控制下的量
化自變項對依變項所造成的影響
多變量技術的類型 –相依關係2/2
聯合分析 conjoint analysis：其目的為藉由不同方案屬
性水準間的組合以了解消費者對各屬性的重視程度。類
似多元迴歸，依變項為對方案的評估分數或排序，自變
項為各項屬性水準。
典型相關分析 Canonical correlation：藉由潛在變項而
使兩組變項產生關連性，類似多元迴歸然其為多個量化
的依變項與多個量化的自變項間之關連分析
線性機率模式Linear probability models：結合多元迴
歸與判別分析，如邏吉特模式logit model，其依變項為
類別尺度如同判別分析，然其對分配的基本假設不同
多變量技術的類型—互依關係
變量間屬於互依關係（相互間的影
響無方向性者）：
主成分分析與因素分析 Principal
components and common factor
analysis
集群分析 Cluster analysis
多元尺度分析 Multidimensional
scaling

極端值

Transcript 極端值

Directory