統計軟體工作坊輕鬆學會統計軟體R

Download Report

Transcript 統計軟體工作坊輕鬆學會統計軟體R

1
統計軟體工作坊
輕鬆學會統計軟體R
2013/05/23
在開始進行前….
2


請先下載並安裝R套件“Rcmdr”
請下載上課用資料“class-demo”
 靜宜大學→統計資訊學系→統計諮詢→統計資源→
教材園地

請將class-demo資料匯入Rcmdr中
學生生活型態調查








班級 ( class): (1)統資系 (2)財數系 (3)其他
性別 (sex): (1) 女生 (2)男生
身高 (high)
體重 (weight)
血型 (blood): (1)A (2)B (3)O (4) AB
住宿地 (location): (1)宿舍 (2)學校附近 (3)東海別墅附近
(4)家裡 (5) 其他
住宿費用 (rent):(1) 3000以下 (2) 3000~4000
(3)4000~5000 (4)5000~6000 (5)6000~ (6)其他
上學方式 (way): (1)走路 (2)騎機車 (3)搭校車 (4)搭公車
(5)其他
更改資料格式
4

將數值變數更改為類別變項
可以直接使用數字代替或
是重新輸入符號
新增變數
5

利用資料集中的變數運算得到新的變數
連續點滑鼠左鍵
2次選取變數
Operations and Mathematic Functions
6
Function
說明
Example
Output
+、-、*、/、^
加、減、乘、除與次方
2^2
4
log(x)
以e為底的對數函數
log(exp(1))
1
log10(x)
以10為底的對數
log10(5)
0.69897
log2(x)
以2為底的對數
log2(2)
1
logb(x,base)
可自行定義底數
logb(5, 10)
0.69897
exp(x)
指數函數
exp(1)
2.71828
sqrt(x)
開根號
sqrt(4)
2
abs(x)
對x取絕對值
abs(-1)
1
round(x, digits)
四捨五入至小數點第digits位
round(2.563,2)
2.56
floor(x)
將x的小數部分刪除
floor(2.563)
2
ceiling(x)
將x無條件進位
ceiling(2.563)
3
sin(x),cos(x),tan(x)
sin, cos, tan 三種三角函數
sin(pi)
0
asin(x),acos(x),atan(x)
arc-sin, arc-cos, arc-tan
asin(0)
0

檢定單一樣本平均數
7


對某一組樣本,想知道平均值是否大於/等於/小於μ0
EX:檢定平均身高是否為165, H0: μ=165 vs. H0: μ ≠ 165
選擇要檢
定的變數
Two sample tests (兩組樣本的檢定)
8

兩組獨立樣本:兩群樣本之間獨立
 使用兩種不同麻醉劑的病人血壓、男女的藥物反應

配對資料(paired):兩個樣本之間存在相關性、
或是為配對樣本。
 由雙胞胎的資料來測試兩種藥的效果,一群學生在
受訓前與受訓後的英文成績,或是眼科病患左眼vs.
右眼的手術恢復指數。
檢定兩組獨立樣本
9

檢定男、女平均身高是否相同
檢定兩群體變異數是否相同
10


畫圖: 盒鬚圖、直方圖
檢定
練習
11

請檢定男、女平均體重是否相同
 請先畫圖看看男、女體重的分布
 再檢定男、女體重之變異數是否相同
 根據上述結果,檢定男、女平均體重是否相同
變異數分析(Analysis of variance,ANOVA)
12


檢定 k (k2)組樣本之平均是是否相同
新光三越、大遠百、統一阪急在周年慶時的平
均營業額
 單因子變異數分析(one-way
ANOVA)
 Level: 新光三越: 台北、台中、高雄;大遠百:台北、
台中、高雄;統一阪急: 台北、高雄

不同時間點(春節、母親節、周年慶)不同百貨的
營業額
 Two-way
ANOVA
ANOVA table
13
Source of
variation
Degree of
freedom
Sum of squares
Mean square
F statistic
Between group
k-1
SSB
MSB=
SSB/(k-1)
F=MSB/MSW
Within group
N-k
SSW
MSW=
SSW/(N-K)
Total
N-1
SST
• If the null hypothesis is true, MSB and MSW would be close, and F≈1
• Reject the null hypothesis if F  Fk 1, N  k ,1
變異數分析(Analysis of variance,ANOVA)
14

檢定不同血型之身高平均是否相同
是否須進行兩兩平均數的比較
練習
15

請檢定不同居住地區之平均體重是否相同
多組樣本時的檢定
16
Two groups
Large sample
size
Paired data
Independent data
Paired t-test
Two sample t-test
(equal variance?)
Small sample
size
Wilcoxon SignedRank test
Wilcoxon
Rank-Sum test
(Mann-Whitney U test)
Multiple groups
Analysis of
variance
(ANOVA)
Kruskal-Wallis test
Check normality assumption: Q-Q plot, Shapiro-Wilk Normality Test
無母數檢定方法
17


針對小樣本的資料
不假設母體為常態分布
母體比例 p 檢定
18

單一樣本:檢定“成功”的比例
 檢定女生的比例是否為1/2
母體比例 p 檢定
19

兩個母群體:檢定不同族群中成功的比例是否相同

檢定不同班級之男女比例是否相同
想檢定的族群
想檢定的變數
卡方檢定(Chi-Square Test)
20


適用於類別資料
卡方檢定包含三種類型
 適合度檢定:檢查資料是否符合某個比例關係或某個
機率分配。
 齊一性檢定:檢查幾個不同類別中的比例關係是否一
致。
 獨立性檢定:檢查兩個分類變數之間是否互相獨立。
卡方檢定
21

血型是否會影響上學方式
卡方檢定
22

若是資料已整理成表格
頭部受傷
戴安全帽
Total
是
否
是
17
218
235
否
130
428
558
Total
147
646
793
設定行數與列數
練習
23

請檢定血型與住宿費用是否相關