統計套裝軟體 PASW Statistics 18.0

Download Report

Transcript 統計套裝軟體 PASW Statistics 18.0

統計套裝軟體
PASW Statistics
18.0
南榮技術學院
企業管理系
黃梅鑾
統計?
南榮技術學院
企業管理系
黃梅鑾
Benjamin Disraeli (1804-1881)
班傑明·迪斯雷利,英國首相
"There are lies,
damned lies…and
statistics."
南榮技術學院
企業管理系
黃梅鑾
GIGO
GARBAGE IN GARBAGE OUT.
南榮技術學院
企業管理系
黃梅鑾
 研究目的與對象(Define the population)
 研究方法
 抽樣與蒐集資料
 資料讀取與輸入
 分析
 結果
 結論與建議
南榮技術學院
企業管理系
黃梅鑾
SPSS Statistics 18.0中文版
工具列
資料、變數檢視和編輯
南榮技術學院
企業管理系
黃梅鑾
完整的統計流程支援
計畫
部署
Conjoint
Programmability Extension
資料蒐集
報告
Statistics Base、 Custom Tables
資料分析
Complex Samples
資料存取
Statistics Base
Statistics Base、Regression、
資料準備
Custom Tables、Advanced Statistics、
Statistics Base、
Forecasting、Exact Tests、Conjoint、
Data Preparation 、
EZ RFM、Decision Trees、Categories、
Missing Values
南榮技術學院 企業管理系 黃梅鑾
Complex Samples、Neural Networks
7
資料來源: SPSS Inc. Taiwan, 2008
問題種類
•
•
•
•
•
•
單選
複選
開放/填充
量表
子題
加權
南榮技術學院
企業管理系
黃梅鑾
單選
1. 您最常在那些地方購買烏龍茶飲料?
□販賣機 □便利超商 □超市 □雜
貨店 □其他
2. 您每週購買(或飲用)烏龍茶的數量大約
是:
□1罐 □2-3罐 □4-5罐 □6罐以上
南榮技術學院
企業管理系
黃梅鑾
量表
購買烏龍茶,您重視下列何種屬性?
重 視 程 度
低 ← . → 高
價格 □ □ □ □ □
口味 □ □ □ □ □
廠牌 □ □ □ □ □
減肥 □ □ □ □ □
南榮技術學院
企業管理系
黃梅鑾
複選題分析
2. 請問您換行動電話的主要原因:(可複選)
□1 故障
□2 遺失
□3 收訊不良
□5 電信公司服務不好
□6 有促銷活動
南榮技術學院
企業管理系
黃梅鑾
□4 新產品推出
□7 其他
複選題分析操作
建檔
資料
型態
南榮技術學院
企業管理系
黃梅鑾
複選題分析 操作
•按新增則右邊框會出現$c2
南榮技術學院
企業管理系
黃梅鑾
複選題實務上的意義
$c7 次數
$c7 a
c7m1 價格便宜
c7m2 功能齊全
c7m3 造形酷炫
c7m4 廠牌因素
c7m5 通話費率
c7m6 國際漫遊
c7m7 服務態度
c7m8 促銷活動
c7m9 申請手續方便
c7m1 0 通話品質
c7m1 1 體積小
c7m1 2 售後服務
c7m1 3 帳單可靠
c7m1 4 其他
反應值
個數
百分比
180
13.6%
163
12.3%
72
5.4%
91
6.9%
140
10.6%
22
1.7%
84
6.3%
106
8.0%
12
.9%
154
11.6%
138
10.4%
102
7.7%
51
3.9%
9
.7%
1324
100.0%
總數
a. 二分法群組表列於值 1。
南榮技術學院
企業管理系
黃梅鑾
觀察值百分比
57.7%
52.2%
23.1%
29.2%
44.9%
7.1%
26.9%
34.0%
3.8%
49.4%
44.2%
32.7%
16.3%
2.9%
424.4%
複選題深入探討
$ c 7 * g e n 交 叉表 列
$c7 a
c7m1 價格便宜
c7m2 功能齊全
c7m3 造形酷炫
c7m4 廠牌因素
c7m5 通話費率
c7m6 國際漫遊
c7m7 服務態度
c7m8 促銷活動
c7m9 申請手續方便
c7m1 0 通話品質
c7m1 1 體積小
c7m1 2 售後服務
c7m1 3 帳單可靠
c7m1 4 其他
個數
個數
個數
個數
個數
個數
個數
個數
個數
個數
個數
個數
個數
個數
總數
個數
百分比及總數是根據應答者而來的。
a. 二分法群組表列於值 1。
1 40~49
38
28
2
16
34
5
22
16
3
37
26
22
10
4
80
南榮技術學院
gen 世代
2 50~59
3 60~69
39
53
29
55
7
29
19
29
39
34
10
4
24
22
22
41
5
3
50
37
37
38
35
24
24
11
5
0
74
84
企業管理系
黃梅鑾
4 70以上
50
51
34
27
33
3
16
27
1
30
37
21
6
0
74
總數
180
163
72
91
140
22
84
106
12
154
138
102
51
9
312
檢視資料
 資料儲存檔案類型與讀取
 測量的種類
 如何測量資料的集中趨勢
 如何測量資料的離散程度
南榮技術學院
企業管理系
黃梅鑾
資料轉入SPSS
• 檔案類型
1. EXCEL(.xls)
2. 文字檔(.txt、.dat)
3. 資料庫儲存檔案(.mdb,.db…)
• 讀取的方法
南榮技術學院
企業管理系
黃梅鑾
資料的種類
•類別型資料:性別、血型
•連續型資料:身高、體重
•次序型資料:
非常滿意、滿意、普通、不滿意、非常不滿意
非常重要、重要、普通、不重要、非常不重要
南榮技術學院
企業管理系
黃梅鑾
The Mode
The Median
5
4
3
4
The Mean
4
4
4
5
5
6
3+4+4+4+4+5+5+6+8+11+12
11
南榮技術學院
企業管理系
黃梅鑾
8
11
12
6
不同資料類型選擇適合指標(1)
Mode Media Mean
n
Nominal
Ordinal


南榮技術學院
企業管理系




黃梅鑾
如何量測變異程度
 最大(高/好)與最小(低/壞)
 The Variance (s2):The spread of the
data
 Standard Deviation (s)
The average distance of all data
points from the mean
南榮技術學院
企業管理系
黃梅鑾
不同資料類型選擇適合指標(2)
Range SD / Variance
Nominal


Ordinal


Continuous 

南榮技術學院
企業管理系
黃梅鑾
描述性統計
–對資料初步的認識
–評估資料的變異範圍
–判斷異常值
–找出錯誤(誤植、定義錯誤)
南榮技術學院
企業管理系
黃梅鑾
預試
項目分析--量表處理的第一步
分析變數的鑑別力
目的--在篩選問卷量表或測驗中的題目的優劣;
改善題目的品質;提供題目計量特性的訊息。
南榮技術學院
企業管理系
黃梅鑾
預試--項目分析
• 方法
– 將評估的構面分數加總成另一個變數(轉換→計
算)
– 取27及73分位數(Kelly, 1939),將其分成
第一群及第二群(分析→敘述統計→次數分配表
→統計量→百分位數)(轉換→重新編碼→成不
同變數)
– 執行雙尾t檢定(獨立樣本t檢定)
– p-value<0.05表題目具有鑑別力,而大於
0.05者刪除
南榮技術學院
企業管理系
黃梅鑾
項目分析判讀
南榮技術學院
企業管理系
黃梅鑾
信度與效度
•一個量表的信度愈高,代表量表愈穩定,一
般常以Cronbach’s α來衡量各項目之間
的一致性程度。
•效度分析 :指測驗結果的正確性(反應),一
個有效的測量就是我們是否測量出所要測量
的東西。
南榮技術學院
企業管理系
黃梅鑾
信度 (Reliability)
•判定依據
–Cronbach Alpha
一般學者認為至少要0.7以上; 0.6以下量表應
重編;0.9~0.95表示理想。
–Item-total correlation
0.4以下刪除
–刪除後應再檢驗
南榮技術學院
企業管理系
黃梅鑾
習作(2)
–檔案合併
–資料重新架構
–項目分析(itemAnalysis)
–複選題分析
南榮技術學院
企業管理系
黃梅鑾
推論統計
從樣本推論母體
 目的:To estimate the population
parameters from the sample statistics
 原因?We may not have data about
everyone we wish to study
 問題:Would we estimate the ‘true’
value?
 Well…:At certain level of
confidence..YES!
南榮技術學院
企業管理系
黃梅鑾
字彙測驗成績
男女是否有差異
Report
Words correct
Respondent's
sex
Female
Male
Total
in vocabulary test
Std.
Mean
N
Dev.
5.99
141 2.06
6.35
112 2.20
6.15
253 2.12
南榮技術學院
企業管理系
黃梅鑾
假設檢定
• H0 The Null Hypothesis
no ‘real’ effect is present
• H1 The Alternative Hypothesis
a ‘real’ effect is present
南榮技術學院
企業管理系
黃梅鑾
Types of Errors
You are 95% sure of the Hypothesis, but
you will be wrong 5% of the times
•Type I  Reject the H0 when is true
•Type II Incorrectly accept the H0
南榮技術學院
企業管理系
黃梅鑾
雙變數的相關分析與檢定
Categorical
Categorical
Crosstab
Procedur
e
Clustered
Bar Chart
+
+
Statistic
Test ChiSquare
+
Statistic Test
T-Test
+
Statistic Test
Pearson
Categorical
Continuous
Means
Procedure
+
Bar Chart
+
Scatter
Plot
(SumFunction)
Continuous
Continuous
Bivariate
Correlatio
n
南榮技術學院
企業管理系
黃梅鑾
兩連續變數的相關
南榮技術學院
企業管理系
黃梅鑾
散佈圖
南榮技術學院
企業管理系
黃梅鑾
相關係數的特性
 線性關係的假設需成立
 相關係數可以表示線性關係的強度與方向
 強度: 由0至1表示
 方向: 由正負值表示
 相關係數的判斷:
 相關係數為一標準化係數,
相關係數絕對值
變項關聯程度
1.00
完全相關
.70至.99
高度相關
.40至.69
中度相關
.10至.39
低度相關
.10以下
微弱或無相關
不受樣本大小與兩個變項的原始分數的測量單位
的影響
 相關係數的平方稱為決定係數(coefficient of
determination),代表兩個變項中,一個變項
可被另一個變項解釋的比例
南榮技術學院 企業管理系 黃梅鑾
相關分析
•Pearson相關係數:測量兩連續變數間的線
性關係,其檢定有常態性的假設。
•偏相關(partial correlation):兩變數同時
與第三個變數有相關存在時,去除第三個變
數的影響性時,此兩個變數純相關的程度
•部份相關(part correlation):三個變數中,
當第二個變數排除了第三個變數的解釋力後,
第一個變數和第二個變數的相關程度
南榮技術學院
企業管理系
黃梅鑾
偏相關與部分相關
Y
• 零階相關(Zero-Order)
1
– Y和X1的皮爾森相關
– (2+3)/(1+2+3+4)。
4
2
3
• 偏相關(Partial Correlations )
– Y和X1的偏相關(2/1+2) ;
7
6
5
X2
Y和X2為(4/1+4)。
X1
– 如標準化迴歸係數
• 半偏相關 (Semi-Partial Correlations)
– 移去X1,X2對應變數的共同影響後, X1與應變數的相關(2/1+
2+3+4);X2與應變數的相關(4/1+2+3+4)
– 係數愈大代表該變數對Y的影響愈大。
南榮技術學院
企業管理系
黃梅鑾
類別變項相關性檢定
•Cross table
•Chi-square test:一般卡方檢定常見於同質
性檢定、獨立性檢定與適合度檢定
南榮技術學院
企業管理系
黃梅鑾
同質性檢定
•目的
–檢定不同母體,在某一變項的反應是否具有顯著
差異;亦即兩個樣本在同一變項中之分佈情形。
•適用時機
–郵寄問卷時,比較早期回收群及後期跟催回收群
之人口統計變項。
–街頭訪問時,比較主動作答群及被動作答群之人
口統計變項。
–受訪者中包含不同團體。
–網路問卷與紙本問卷的比較。
南榮技術學院
企業管理系
黃梅鑾
同質性檢定
南榮技術學院
企業管理系
黃梅鑾
適合度檢定
•目的
–研究樣本是否抽樣母群分配相符合時,以卡方
檢定進行之;每次檢定內容僅涉及一個變項。
•適用時機
–當研究者想知道樣本是否能代表母體時,用人
口統計變項與母體資料比較。(如內政部有完
整的人口統計資料)。
南榮技術學院
企業管理系
黃梅鑾
適合度檢定
南榮技術學院
企業管理系
黃梅鑾
獨立性檢定
•目的
–同時檢定兩個類別變項之間的關係是
否相關時,採用卡方檢定。
•適用時機
–例如研究者想知道收入與學歷 (或收
入與性別)之間是否有相關。
南榮技術學院
企業管理系
黃梅鑾
單因子變異數分析(ANOVA)
•使用時機:多組平均數比較(X為類別,Y為
連續)
欲比較的連續變
項:金額、身高
屬性變項
南榮技術學院
企業管理系
黃梅鑾
ANOVA
不顯著
結束
顯著
多重事後比較
F值整體考驗
南榮技術學院
企業管理系
黃梅鑾
ANOVA注意事項
•分組:所關心的Factor(如居住地、學制),是否
會造成依變數(如消費行為)的不同
•注意:ANOVA假設前提是各組變異一致,應注
意是否違反此假設(Levene test)
南榮技術學院
企業管理系
黃梅鑾
解釋報表
>0.05表示沒有違反假設
<0.05時需看最下圖(Robust
檢定)
大於0.05表示沒有差
異
南榮技術學院
企業管理系
黃梅鑾
事後比較 (Post Hoc)
•一般在整體性之F檢定達顯著後才進行,比
較方式為兩兩比較,但也可因研究目的的不
同,只做平均數的多重比較,不必考慮整體
性F檢定的結果。
•Why事後檢定:減低type Ι error,越多的
兩兩比較,則信賴區間越低。
南榮技術學院
企業管理系
黃梅鑾
事後比較 (Post Hoc)
南榮技術學院
企業管理系
黃梅鑾
迴歸基本概念與目的
• 起源於十九世紀,由Francis Galton研究父母與子女身高
相關性 ,進而發現不論父母高矮,子女身高均有傾向於平
均水準地現象,此種數學模型就是迴歸模型的前身
• 概念:是要瞭解是否能用自變數 X 來解釋依變數 Y,亦即
變數 X 和Y的關係是否密切,而足以適當地用一種線性方
程式來表示
• 目的:
– 描述
– 控制
– 預測
南榮技術學院
企業管理系
黃梅鑾
迴歸分析的原理
*求線性迴歸方程式的方法是利用最小平方法:
即是利用這 n 個點,求出未知參數 α 和 β
的估計量,分別表示為
ˆ 與ˆ
*Gauss-Markov Theorem:OLS
provides the best linear unbiased
estimate of  (BLUE)
南榮技術學院
企業管理系
黃梅鑾
模型配適度指標
• R2 = Model var/total var
– 0 R2 1
– R2 相當於總變異中可被解釋之百分比例
n
 (Yˆ
i 1
R2 
i
 Y )2
k
 (Yˆi  Yi ) 2
n
i 1
nk 1
– F test for model significance=Model Var/Error
Var
R2
F( k , n  k 1 ) 
54
南榮技術學院
k
1  R2
nk 1
企業管理系
黃梅鑾
迴歸分析常見的誤解
對R2的過度解釋(誤解)
 R2 很低,非線性關係?
 R2 很高,非線性關係?忽略信賴區間?
因果關係的闡釋
 顯著相關不代表有因果關係:與研究設計有關,橫
斷面的研究在因果關係的判斷上要非常審慎
預測的限制:不是只有Y需要預測:X
南榮技術學院
企業管理系
黃梅鑾
迴歸的基本假設與殘差分析
i
IID
N (0, s 2 )
•殘差分析的意義
–Identically Independent Distribution
•殘差分析的內容:在探討誤差項(i)是否符
合常態性、恆定性、獨立性等三項假定。
–迴歸分析乃以殘差值(ei, Residual)為誤差項
(i )之估計,等於樣本觀察值與預測值之差,
即: ei  yi  yˆi , i  1,2,, n
南榮技術學院
企業管理系
黃梅鑾