統計軟體工作坊

Download Report

Transcript 統計軟體工作坊

統計軟體工作坊
輕鬆學會統計軟體R
2013/05/16
R簡介







可進行資料處理、統計分析、科學計算與圖形繪製
適用各種作業系統:Windows, Unix, Linix, MacOS
開放原始碼的自由軟體(open source)
免費:可由the Comprehensive R Archive Network
(CRAN)下載
藉由套件(package)可不斷增加其功能
可與其他程式(C, Matlab, WinBugs,…)連結使用
超過27個國家,66個連結點
R的歷史
3

S1
1976–1980
Honeywell GCOS,
FORTRAN-based
S2
1980–1988
Unix: macros, interface
language
QPE (Quantitative
programming
environment)
general outside licensing,
books
1981–1986
1984–
S3
1988–1993
S4
R
John Chambers (2006) “A History of S and R”
C-based, S functions & objects
Programming with data
1993
First binary copies of R on
Statlib
2000
R 1.0.0 released
Kurt Hornik (2008) “The Past, Present,
and Future of the R Project”
下載R軟體

Go to this web page http://www.r-project.org/
下載R軟體
5

點選CRAN,接著選擇下載點
下載R軟體

根據作業系統選擇下載的版本

選擇“base”
下載R軟體

下載並安裝

安裝之後在桌面會出現捷徑
R視窗說明

載入工作頁面
複製及貼上
停止運算
Toolbar
R Console
主要視窗
定義新物件
9

定義一個新的變數叫temp,並且指定其值為24
 紅字是輸入,藍字是輸出
 大小寫代表不同物件
 箭頭(<-)可用“=”代替
 物件名稱必須為字母開頭,其餘位置可以是數字或
點
 c, q, t, C, D, F, I, T; diff, df, pt, pi, …不可以是物件名稱
R as a calculator





可以直接輸入數值計算
若物件屬性與維度相同,
可以進行四則運算
常用的數學函數,如log,
exp, sin,..可直接計算
若不能計算,會回傳NaN
(not a number)
輸入向量
11

c(…)
可以是數值
可以是字串
還可以把每一個元
素取名字
Practice
12



Weight: 50, 62, 47, 48, 72, 81, 45, 58, 65, 55
Height: 1.58, 1.77, 1.43, 1.52, 1.84, 1.72, 1.45,
1.62, 1.70, 1.55
請計算每個人的BMI及平均BMI
查詢、移除已定義物件
13

ls()

rm(“A”)

rm(list=ls())
利用R的記事本寫指令
14


開啟記事本
儲存記事本
更改工作目錄
15

改變檔案及資料的存放位置
下載R套件

練習:請下載R
Commander套件
“Rcmdr”
載入R套件


可在R Console視窗中輸入library(“Rcmdr”)
或者由選單中點選
學生生活型態調查








班級 ( class): (1)統資系 (2)財數系 (3)其他
性別 (sex): (1) 女生 (2)男生
身高 (high)
體重 (weight)
血型 (blood): (1)A (2)B (3)O (4) AB
住宿地 (location): (1)宿舍 (2)學校附近 (3)東海別墅附近
(4)家裡 (5) 其他
住宿費用 (rent):(1) 3000以下 (2) 3000~4000
(3)4000~5000 (4)5000~6000 (5)6000~ (6)其他
上學方式 (way): (1)走路 (2)騎機車 (3)搭校車 (4)搭公車
(5)其他
資料輸入

輸入新資料
按一下var1,會出現變數編輯器,輸
入變數名稱後,再按Enter即可。
輸入資料後關
閉視窗即可
資料輸入

匯入資料
練習


請讀入EXCEL檔案“class-demo”,並將其命名為
data2
請更改data2中,變數class、sex為character
資料型態
22

類別資料

可以用數字代表類別,但數字本
身沒有意義


類別的大小次序有意義,但順序
的運算無意義


原位癌=0,癌症第一期=1,癌症第
二期=2,第三期=3,第四期=4
等級化資料

根據不同類別的觀察值排序,給
予類別不同的名次

離散型資料

男生=1,女生=0
序位資料


象、牛、熊、獅
數值為真正測量值而非
代號


每學期進圖書館次數
連續型資料

數值為真正觀測值,測
量值不限定為整數

每星期唸書的時間
資料的整理
23


初步的組織、歸納觀察到的資料
統計表:製表是整理資料最簡單且最常用的方
法
 次數分配表(frequency
table)、相對次數分配表
(relative frequency table)、累積相對次數分配表
(cumulative relative frequency table)

統計圖
 長條圖(bar
chart)、直方圖(histogram)、次數多邊圖
(frequency polygon)、散佈圖(scatter plot)、盒形圖
(box plot)、線圖(line graph)
統計表

次數分配表:記錄每個組
別中觀察到的個體數

相對次數分配表:記錄每
一組別人數/總觀察人數
1. 處理離散
型或連續型
資料為次數
分配表時,
需將資料區
分為一系列
沒有重疊且
明確的組別。
2. 分組之前
要先定組限
與組距,每
組組距不一
定要相同。
NOTE:一個個體只會分屬於一個類別
統計表
25

累積相對次數分配表:低於或等於該組上限的
人數/總人數
統計表

長條圖(Bar charts)
27

常用來表示類別或序位資料
高度代表組別分佈的
次數或相對次數
直方圖(Histogram)
28


用來描述離散或連續型的資料分佈
可以觀察資料的分佈狀況與集中趨勢
高度代表組別分佈的次數或相對
次數,寬度代表組距
資料是否對稱?
左偏?右偏?
散佈圖(scatter plot)
29

描述兩個不同的連續資料的關係
肺活量與FEV的關係?
盒型圖(box plot)
30

利用樣本產生之統計量(最小值minimum、第一四
分位數first quartile、中位數median、第三四分位
數third quartile、最大值maximum)來描繪資料的
分佈。
第一四分位數(25%分位數):數值高於或等於全部
觀察值的25%,低於或等於全部觀察值的75%
 中位數(50%分位數):位於資料50%的數值
 第三四分位數(75%分位數):數值高於或等於全部
觀察值的25%,低於或等於全部觀察值的75%

四分位數(Quartiles)
31

25th 百分位數 (之前的資料個數大約有25%的資料
總個數&之後個數75%):
例:100/4=25  (第25名+第26名)/2;第25名
 例:50/4=12.5  (第12名+第13名)/2;
 例:67/4=16.75  (第16名+第17名)/2;


50th 百分位數 (前後各約二分之一的個數):
例:100/2=50  (第50名+第51名)/2;第50名
 例:50/2=25  (第25名+第26名)/2;第25名
 例:67/2=33.5  (第33名+第34名)/2;
 例:40/2=20  (第20名+第21名)/2;第20名

四分位數(Quartiles)
32

75th 百分位數 (前約四分之三、後約四分之一的
個數):
 例:100/4*3=75
 (第75名+第76名)/2;第75名
 例:50/4*3=37.5  (第37名+第38名)/2;
 例:67/4*3=50.25  (第50名+第51名)/2;
 例:40/4*3=30  (第30名+第31名)/2;第30名

四分位距(Inter-quartile range, IQR):第三四分位數
減第一四分位數
Box Plot
33
Elements of a Box Plot
Outlier
o
Smallest data
point not
below inner
fence
Largest data
point not
exceeding inner
fence
X
Outer
Fence
Inner
Fence
Q1-1.5(IQR)
Q1-3(IQR)
Suspected
outlier
X
Q1
Median
Interquartile Range
Q3
Inner
Fence
*
Outer
Fence
Q3+1.5(IQR)
Q3+3(IQR)
統計圖

這裡可以
選要畫的
圖形
練習

請計算data2中居住地區之次數分配表

請data2中畫出身高與體重之散布圖
資料摘要(data summary)
36

利用數字描述資料作量的描述

測量資料的集中趨勢 (measure of central tendency)
 平均值(mean)、中位數(median)、眾數(mode)

測量資料的變異情況 (measure of dispersion)

全距(range)、四分位距(IQR)、變異數(variance)和標準
差(standard deviation)
資料摘要(data summary)

練習

請計算data2中體重之平均數、標準差、中位
數、第一四分位數及第三四分位數