課程簡介 (Introduction) 生物統計 1

Download Report

Transcript 課程簡介 (Introduction) 生物統計 1

生物統計 1
課程簡介 (Introduction)
陳光琦助理教授 (Kuang-Chi Chen)
[email protected], Office: H603-2
http://www.chichen6.tcu.edu.tw/
Textbooks
Textbook : Principles of Biostatistics, 2nd ed.,
Pagano & Gauvreau, Duxbury, 2000.
Reference : Fundamentals of Biostatistics, 6th ed., B.
Rosner, Duxbury, 2005.
生物醫學統計概論,3rd ed., 戴政、江淑瓊,台北翰蘆
圖書,2004.。
生物統計原理:林為森、陳怡君、陳青浩、陳俞成、
謝秀幸、魏美珠,歐亞:台北,台灣,2002。
Schedule-1
W1. 09/19 Introduction to Biostatistics
W2. 09/26 Descriptive Statistics: Data Presentation and
Numerical Summary Measures + SPSS1
W3. 10/03 Basic Probability
W4. 10/10 國慶日放假
W5. 10/17 Discrete Probability Distribution
W6. 10/24 Quiz 1 & Continuous Probability Distribution
W7. 10/31 Statistical Estimation and Inference (I): Sampling
Distribution of the Mean + SPSS2
W8. 11/07 Statistical Estimation and Inference (II):
Confidence Intervals
W9. 11/14 -- Midterm --
Schedule-2
W10.11/21 Hypothesis Testing (I): Hypothesis Building and
One-sample Test
W11.11/28 Hypothesis Testing (II): Comparison of Twosample
W12.12/05 Analysis of Variance + SPSS3
W13.12/12 Quiz 2 & Inference of Proportions
W14.12/19 Contingency Tables
W15.12/26 Multiple 2 by 2 Tables
W16.01/02 Correlation + SPSS4
W17.01/19 Simple Linear Regression
(more ... Multiple Regression)
W18.01/16 -- Final --
Evaluation
Assignment: Homework + Attendance 20%,
Lab work (Bonus);
Exam: Quiz#1 10%, Quiz#2 10%,
Midterm 30% ,
Final 30% .
1. 前 言
統計啊統計 … What is Statistics?
- 利用分析的技巧從資料(data) 與事實(facts) 中萃取
訊息(extract information),對於被觀察研究的複雜
狀態,提供了簡明的摘要及訊息的傳遞。
- 統計是以數據敘說故事,因為數字(numbers) 通常
比文字(words) 更為精確(more precise),更能簡潔的
傳遞訊息。統計分析的結果特別適合於科技成果的
交流。
前 言
(cont’d)
 統計啊統計 … What is Statistics?
- 人們可以利用文字來說謊,同樣的亦可以用數字來
說謊。
- 英國首相Benjamin Disraeli 曾說「有三種類型的謊言:
謊言、漫天大謊及統計」。
(There are three kinds of lies: lies, damned lies, and
statistics)
- 然而,Frederick Mosteller 教授說的更好,「用統計
說謊很容易,但沒有統計則更容易說謊」。
(It is easy to lie with statistics, but it is easier to lie
without them)
2. 研究範圍 與 應用領域
統計啊統計 … Applications of Statistics?
- 統計是數字資料的蒐集(collection)、組織
(organization)、分析(analysis) 及 解釋
(interpretation)。
- 統計的應用領域涵蓋工業、商業、經濟、政治、民
生、影視、娛樂、天氣、心理、農業、科學研究等。
當焦點是生物及衛生科學時,特稱為生物統計
(biostatistics, biometry, biometrics)。
3. 意 義
 統計啊統計 … What is the Meaning of Statistics?
- 文字起源:bio 是由希臘文的 bios 變化而來,它的涵
義為「生命」或「生物體」;metry 或 metrics 是由
metrikos 而來,它的意思是「測度」,所以生物統
計學的直觀意義為:量測生物體上特徵的學問。
- Biostatistics 則是由 bio 與 statistics 合併而來,
statistics 就是統計學。
- 廣義而言,biostatistics、 biometry 和 biometrics 指的
都是將統計學或數學的方法應用於生物、醫學或農
學上,意義是相同的,近年來,應用在流行病學及
臨床試驗方面的統計學蓬勃發展,e.g., 生物遺傳、
生物資訊。
4. 目 的
 統計啊統計 … What is the Purpose of Statistics?
- 針對生物醫學各種實際問題,應用適切的統計分析
方法,以獲得正確的科學結論,提供關於被觀察對
象在某些特定狀態之數字資訊,並用合理的方式來
解釋說明。
5. 特 性
(i) 統計是對資料的變異性(variability) 與 不確定性
(uncertainty) 的研究。
(ii) 統計分析的成功與否,奠基於資料的正確與否,
而資料的正確與否,取決於資料收集過程的客觀性,
是否能充分反應資料來源的母群體(population)特性。
- 若資料正確,則對統計分析的主題提供了充分的訊
息(sufficient information);
- 若資料正確度不足,或因樣本數過少導致樣本代表
性不足,或因取樣偏差致使所取樣本無法正確反應
母群體的分布,都會增加統計分析的困難度,降低
分析結果的解釋力與可信度,故統計分析及推論的
價值完全取決於資料的真實性。
... 因此 …
- 因此 … 本課程一開始我們先就數據資料(numerical
data) 的收集(collection)、摘要(summarize)、探討
(explore) 與解釋(explain) 資料的方法做介紹,然後
區別母群體(populations) 與樣本(samples) 之間的差
別,並探討因抽樣(sampling) 而衍生的變異(inherent
variability) 及不確定性的量化(quantification of
uncertainty),進而進展到統計推論(inference)。
6. 名詞解釋
(i) 群體、母群體(Population)
有興趣的研究主題所含括的全部資料。
(ii) 樣本(Sample)
由抽樣(sampling) 或 取樣而得到的資料,是群體資料的 部分
資料。
Q: 為何需要抽樣?
一方面節省經費,另一方面有時普查(census) 是不可能。
e.g. 飛利浦省電燈泡的壽命、91年度全台灣糖尿病患的研究
因此,藉著抽樣調查的方式取代普查,對抽樣的資料作統計
分析,進而對母群體做推論。
(iii) 變數(Variable)
代表觀察或測量的特性,以符號 X 表示。
e.g.,當感興趣主題的是「資工系學生們的身高 」,則
X = 資工系學生們的身高
變數意味著是一個可變的數,因不同的觀察對象而有不同
的數值。當數值為連續不斷的,為連續變數(continuous
variable)。當數值如整數般可數的,為離散變數(discrete
variable)。
(iv) 數值(Variates)
對每一個觀察個體,需同時用 X 來描述,故另以小寫的 xi
來表示這 n 個可變的數值,簡稱數值,並記為 xi,其中
i = 1, 2, …, n 。
(v) 觀測單位(Observation Unit):觀察或測量的對象。
(vi) 觀測值(Observation):觀察或測量的結果。
也就是 X:代表可變的數(variable),簡稱變數
對每一個觀察個體,因同時用X 來描述,故另以小寫的xi 來表
示這 n 個可變的數值(variates),記為 xi,i = 1, 2, …, n
例:收集來的資料為資工系10個學生的身高
171, 172, 168, 177, 180, 173, 171, 165, 167, 170,令
X = 資工系學生的身高,則
x1 = 171, x2 = 172, x3 = 168, …, x10 = 170,n = 10
收集來的數據具有相當程度的變異性(variability),但通常
不是很有訊息除非以某些方法組合(combine) 它們,除了用
數字的(numerical) 方式歸納資料,通常我們還會用列表
(tabular) 及 圖形的(graphical) 方式表達,使其活潑、令人
印象深刻、更具可讀性,這就是描述型統計(descriptive
statistics),是統計的最基本方法,也是摘要資料的第一步。
但在決定何種方法最合適之前,我們必須先知道資料的型
態。
7. 資料型態
(i) 類別資料(Nominal Data)
類別資料的數值代表不同的組別(categories, classes, groups),
其數字的大小、次序並不具意義。類別資料是無次序的
(unordered)。
e.g., 性別可以「0」代表女性,「1」代表男性。
血型:「1」- A型,「2」- B型,「3」- O型,「4」- AB型。
出生地:「1」- 北,「2」- 中,「3」- 南,「4」- 東,「5」
- 其他。
類別資料中,各個組別佔全體的比例(proportion) 具有意義的。
(ii) 序位資料(Ordinal Data)
當分類組別間的次序(order) 具有意義時,則為序位資料。但
其數字本身的量的大小(magnitude)、組別間的差值並不具意
義。
e.g., 傷害若依受傷程度分類:「1」代表輕傷,「2」代表
中等傷害,「3」代表嚴重傷害,「4」代表致命傷害。
癌症依嚴重程度分為:第零期,第一期,第二期,
第三期,第四期。
1, 2, 3, 4 僅代表受傷的程度,2 比 1 嚴重,3 比 2 嚴重,但 2
與 1 的相差 1,和 3 與 2 的相差 1 並不具意義,也不等同。
(ii)* 等級化資料(Ranked Data)
把原始資料(raw data) 依數值量的大小(magnitude) 排列成序
(sequence, order),然後依排列的順序另外給予一整數代號。
e.g., 資工系10位學生的身高,可以依原始身高的大小順序
給予 1~10 的等級代號。
(iii) 離散型資料(Discrete Data)
其排序(order) 及量(magnitude) 的大小都是有意義的,其數字
本身為真正可測量的值(measurable quantities) 而非代號()。
數值為非负的整數(nonnegative integers),可數的(countable),
彼此間的差(difference)、距離(distance) 是有意義的。
e.g., 某校的化工系有25位老師,企管系15位老師,資工系
20位老師,社會系18位老師,醫學系0位老師。
該校沒有醫學系,所以醫學系0位老師;
化工系師資比資工系多5位,而資工系又比企管系多5位。
(iv) 連續型資料(Continuous Data)
數值為可測量的值(measurable quantities),且不限定為整數。
連續型資料可以依研究的需要轉換(transform) 為離散型、
等級化、序位或類別資料以簡化分析,但會遺失細節訊息
及精密度。
8. 量測尺度 (Measurement Scale)
(i) 類別尺度(Nominal Scale)
數字代表不同的類別,但數字本身的大小、順序不具意義。
(ii) 序位尺度(Ordinal Scale)
數字代表不同類別及順序等級,但不可測量彼此間的差異。
(iii) 等距尺度(Interval Scale)
數字具有大小的順序,也可用來測量彼此間的距離
(distance),但等距尺度沒有真正的「零」。等距尺度不能
求比值(ratio)。
e.g., 今天清晨溫度 25oC,下午溫度 30oC,昨天清晨溫度
24oC,下午溫度 29oC,今天的溫差 5oC 與昨天的溫差
5oC 是相同意義的。但 0oC 並不代表完全沒有溫度,溫
度 20oC 也不是 10oC 的兩倍。
(iv) 等比尺度(Ratio Scale)
具有真正的「零」之資料。
e.g., 高度 0 cm就是沒有高度,高度 160 cm為高度 80 cm的
兩倍。
Note : 符號與常用公式
1. 符號
(1) a, b, c, … 常數(constants)
(2) n, N , …
觀察個體的數目,一組資料的總數(total number)
(3) x, y, z, X, Y, Z, … 變數(variables)
(4) Σ
累加,取和,加總(summation, add up, sum)
(5) Π
聯乘積(product)
(6) e, loge 自然基底(natural base)及 自然對數(natural log)
定義
e  limn (1  1/ n)n = 2.71828
e x  limn (1  x / n)n
(7) 對數函數(logrithm function)與指數函數(exponential function)
(anti-log)
log y = x  y = ex
e.g., y = e x  log y = log (ex)
 e log y = e x

log y = x
2. 常用公式
n
(1)
X
i 1
 X 1  X 2  ...  X n
i
n
(2)
n
 ( X  Y )   X  Y
i 1
i
i
n
(3)
n
 cX
i 1
i 1
i
i 1
i
n
i
 c X i
i 1
n
(4)
 c  nc
i 1
n
(5)
X
(6)
 n
 n 
( X iYi )    X i  Yi 

i 1
 i 1  i 1 
i
 X 1 X 2 ... X n
i 1
n
 n

cX

c
X
(7)  i
 i 
i 1
 i 1 
n
n
n
n
c

c
(8) 
i 1
作業一 (下次上課前交)
1. 說明下列觀察值是連續型、離散型、序位或類別資料?
(1) 這個學期資工系各班學生的人數?
(2) 這二個星期同學每日起床時的體重?
(3) 去年台灣的十大死因順序?
n
2.
 (aX  bY  c)  ?
i 1
i
i