Transcript 統計軟體工作坊
統計軟體工作坊
輕鬆學會統計軟體R
2013/05/16
R簡介
可進行資料處理、統計分析、科學計算與圖形繪製
適用各種作業系統:Windows, Unix, Linix, MacOS
開放原始碼的自由軟體(open source)
免費:可由the Comprehensive R Archive Network
(CRAN)下載
藉由套件(package)可不斷增加其功能
可與其他程式(C, Matlab, WinBugs,…)連結使用
超過27個國家,66個連結點
R的歷史
3
S1
1976–1980
Honeywell GCOS,
FORTRAN-based
S2
1980–1988
Unix: macros, interface
language
QPE (Quantitative
programming
environment)
general outside licensing,
books
1981–1986
1984–
S3
1988–1993
S4
R
John Chambers (2006) “A History of S and R”
C-based, S functions & objects
Programming with data
1993
First binary copies of R on
Statlib
2000
R 1.0.0 released
Kurt Hornik (2008) “The Past, Present,
and Future of the R Project”
下載R軟體
Go to this web page http://www.r-project.org/
下載R軟體
5
點選CRAN,接著選擇下載點
下載R軟體
根據作業系統選擇下載的版本
選擇“base”
下載R軟體
下載並安裝
安裝之後在桌面會出現捷徑
R視窗說明
載入工作頁面
複製及貼上
停止運算
Toolbar
R Console
主要視窗
定義新物件
9
定義一個新的變數叫temp,並且指定其值為24
紅字是輸入,藍字是輸出
大小寫代表不同物件
箭頭(<-)可用“=”代替
物件名稱必須為字母開頭,其餘位置可以是數字或
點
c, q, t, C, D, F, I, T; diff, df, pt, pi, …不可以是物件名稱
R as a calculator
可以直接輸入數值計算
若物件屬性與維度相同,
可以進行四則運算
常用的數學函數,如log,
exp, sin,..可直接計算
若不能計算,會回傳NaN
(not a number)
輸入向量
11
c(…)
可以是數值
可以是字串
還可以把每一個元
素取名字
Practice
12
Weight: 50, 62, 47, 48, 72, 81, 45, 58, 65, 55
Height: 1.58, 1.77, 1.43, 1.52, 1.84, 1.72, 1.45,
1.62, 1.70, 1.55
請計算每個人的BMI及平均BMI
查詢、移除已定義物件
13
ls()
rm(“A”)
rm(list=ls())
利用R的記事本寫指令
14
開啟記事本
儲存記事本
更改工作目錄
15
改變檔案及資料的存放位置
下載R套件
練習:請下載R
Commander套件
“Rcmdr”
載入R套件
可在R Console視窗中輸入library(“Rcmdr”)
或者由選單中點選
學生生活型態調查
班級 ( class): (1)統資系 (2)財數系 (3)其他
性別 (sex): (1) 女生 (2)男生
身高 (high)
體重 (weight)
血型 (blood): (1)A (2)B (3)O (4) AB
住宿地 (location): (1)宿舍 (2)學校附近 (3)東海別墅附近
(4)家裡 (5) 其他
住宿費用 (rent):(1) 3000以下 (2) 3000~4000
(3)4000~5000 (4)5000~6000 (5)6000~ (6)其他
上學方式 (way): (1)走路 (2)騎機車 (3)搭校車 (4)搭公車
(5)其他
資料輸入
輸入新資料
按一下var1,會出現變數編輯器,輸
入變數名稱後,再按Enter即可。
輸入資料後關
閉視窗即可
資料輸入
匯入資料
練習
請讀入EXCEL檔案“class-demo”,並將其命名為
data2
請更改data2中,變數class、sex為character
資料型態
22
類別資料
可以用數字代表類別,但數字本
身沒有意義
類別的大小次序有意義,但順序
的運算無意義
原位癌=0,癌症第一期=1,癌症第
二期=2,第三期=3,第四期=4
等級化資料
根據不同類別的觀察值排序,給
予類別不同的名次
離散型資料
男生=1,女生=0
序位資料
象、牛、熊、獅
數值為真正測量值而非
代號
每學期進圖書館次數
連續型資料
數值為真正觀測值,測
量值不限定為整數
每星期唸書的時間
資料的整理
23
初步的組織、歸納觀察到的資料
統計表:製表是整理資料最簡單且最常用的方
法
次數分配表(frequency
table)、相對次數分配表
(relative frequency table)、累積相對次數分配表
(cumulative relative frequency table)
統計圖
長條圖(bar
chart)、直方圖(histogram)、次數多邊圖
(frequency polygon)、散佈圖(scatter plot)、盒形圖
(box plot)、線圖(line graph)
統計表
次數分配表:記錄每個組
別中觀察到的個體數
相對次數分配表:記錄每
一組別人數/總觀察人數
1. 處理離散
型或連續型
資料為次數
分配表時,
需將資料區
分為一系列
沒有重疊且
明確的組別。
2. 分組之前
要先定組限
與組距,每
組組距不一
定要相同。
NOTE:一個個體只會分屬於一個類別
統計表
25
累積相對次數分配表:低於或等於該組上限的
人數/總人數
統計表
長條圖(Bar charts)
27
常用來表示類別或序位資料
高度代表組別分佈的
次數或相對次數
直方圖(Histogram)
28
用來描述離散或連續型的資料分佈
可以觀察資料的分佈狀況與集中趨勢
高度代表組別分佈的次數或相對
次數,寬度代表組距
資料是否對稱?
左偏?右偏?
散佈圖(scatter plot)
29
描述兩個不同的連續資料的關係
肺活量與FEV的關係?
盒型圖(box plot)
30
利用樣本產生之統計量(最小值minimum、第一四
分位數first quartile、中位數median、第三四分位
數third quartile、最大值maximum)來描繪資料的
分佈。
第一四分位數(25%分位數):數值高於或等於全部
觀察值的25%,低於或等於全部觀察值的75%
中位數(50%分位數):位於資料50%的數值
第三四分位數(75%分位數):數值高於或等於全部
觀察值的25%,低於或等於全部觀察值的75%
四分位數(Quartiles)
31
25th 百分位數 (之前的資料個數大約有25%的資料
總個數&之後個數75%):
例:100/4=25 (第25名+第26名)/2;第25名
例:50/4=12.5 (第12名+第13名)/2;
例:67/4=16.75 (第16名+第17名)/2;
50th 百分位數 (前後各約二分之一的個數):
例:100/2=50 (第50名+第51名)/2;第50名
例:50/2=25 (第25名+第26名)/2;第25名
例:67/2=33.5 (第33名+第34名)/2;
例:40/2=20 (第20名+第21名)/2;第20名
四分位數(Quartiles)
32
75th 百分位數 (前約四分之三、後約四分之一的
個數):
例:100/4*3=75
(第75名+第76名)/2;第75名
例:50/4*3=37.5 (第37名+第38名)/2;
例:67/4*3=50.25 (第50名+第51名)/2;
例:40/4*3=30 (第30名+第31名)/2;第30名
四分位距(Inter-quartile range, IQR):第三四分位數
減第一四分位數
Box Plot
33
Elements of a Box Plot
Outlier
o
Smallest data
point not
below inner
fence
Largest data
point not
exceeding inner
fence
X
Outer
Fence
Inner
Fence
Q1-1.5(IQR)
Q1-3(IQR)
Suspected
outlier
X
Q1
Median
Interquartile Range
Q3
Inner
Fence
*
Outer
Fence
Q3+1.5(IQR)
Q3+3(IQR)
統計圖
這裡可以
選要畫的
圖形
練習
請計算data2中居住地區之次數分配表
請data2中畫出身高與體重之散布圖
資料摘要(data summary)
36
利用數字描述資料作量的描述
測量資料的集中趨勢 (measure of central tendency)
平均值(mean)、中位數(median)、眾數(mode)
測量資料的變異情況 (measure of dispersion)
全距(range)、四分位距(IQR)、變異數(variance)和標準
差(standard deviation)
資料摘要(data summary)
練習
請計算data2中體重之平均數、標準差、中位
數、第一四分位數及第三四分位數