社會統計學的意義 What is Meant by Statistics?

Download Report

Transcript 社會統計學的意義 What is Meant by Statistics?

Sampling Theory and Some Important
Sampling Distributions
• 統計主要問題在於如何透過樣本的統計量
來推估或檢證母體的參數(parameters)。
• 參數為描述母體某些特性的數值。
• 如μ、σ、母體中位數等皆為參數。
• 樣本統計Sample statistics 是用來描述樣本
的特性的數量,樣本統計為觀察到的樣本
之函數,樣本的統計量隨著取樣的不同,
會有不同的變化。因此,樣本統計量本身
可以被視為是一隨機變數。
觀
念
母體參數,樣本統計量
• 一個樣本統計量(如
樣本平均數)是隨機
樣本的函數,其本
身為一隨機變數
Population
母體參數
, 
x1  x2200000
Sample樣本平均數
X 隨機變數
x354
x4
x103
x41 x49
x31
x4 x1005
x411 x42909
社會統計(上)
©蘇國賢2005
觀
念
x1
X
的特
定值
x2
Page 2
Introduction to Sampling Distribution
• 用於推估母體的參數(μ)的樣本統計量
(如X-bar),稱為「估計式」(an estimator)。
x

x
n
•將實際抽樣所得到的樣本帶入估計式,得到
的數值(如χ-bar)稱為估計值(estimate)
社會統計(上)
©蘇國賢2005
Page 3
觀
念
抽樣分配
• 樣本的統計量為一隨機變數,樣本統
計量的值隨著抽出樣本的不同而不同,
每一個特定變量出現的機率呈某一機
率分配,稱為樣本統計的抽樣分配
(sampling distribution),為多次抽樣結
果的機率分佈。
社會統計(上)
©蘇國賢2005
Page 4
抽樣分配
x354
x4 x103
x41 x49
Population
母體參數
, 
x1  x2200000
x3423
x7 x1321
x4241 x43209
x31
x4 x1005
x411 x42909
樣本平均值
的抽樣分配
x1
x2
f ( x1 )
f ( x2 )
x3 f ( x3 )
觀
念
Very simple random sample
(VSRS)
觀
念
• 樣本中每一個元素被抽到的機率皆相同
• 每一個元素的期望值為母體平均數μ
• 每一個元素的標準差為母體標準差σ
Population
母體參數
, 
x1  x2200000
P(x1) = P( x2) … =
P(xn) = population
distribution P(x)
E(x) = μ, Var(X) = σ2
社會統計(上)
©蘇國賢2005
Page 6
Independently and identically
distributed, i.i.d.
• When X1, X2, …Xn are drawn from the
same distribution and are independently
distributed, they are said to be
independently and identically distributed
or i.i.d.
社會統計(上)
©蘇國賢2005
Page 7
樣本平均值的期望值與變異數
• 如果X1, X2, …Xn 為i.i.d.,則對於每一
個X而言都有相同的平均值(μ)及變
異量(σ2)。
社會統計(上)
©蘇國賢2005
Page 8
E( X )  ?
1
X  ( x1  x2    xn )
n
1
E ( X )  E ( x1  x2    xn )
n
1
 E ( x1  x2    xn )
n
1
 [ E ( x1 )  E ( x2 )    E ( xn )]
n
1
1
 [u  u    u ]  [nu ]  u
n
n
社會統計(上)
©蘇國賢2005
Page 9
Var( X )  ?
1
Var ( X )  Var [ ( x1  x2    xn )]
n
 x1, x2 xn are independent
1
 2 [Var ( x1 )  Var ( x2 )    Var ( xn )]
n
1 2
2
2
 2 [       ]
n
2
1

2

 2 [ n ] 
standarddeviationof X 
n
n
n
社會統計(上)
©蘇國賢2005
Page 10
樣本平均值的期望值與變異數
E ( X )  uX  u
Var( X ) 

2
n
Standard error of X

SE 
n
社會統計(上)
©蘇國賢2005
Page 11
中央極限定理
The Central Limit Theorem
• 當X為來自於母
2
體為常態分配
X i ~ N (,  )
的i.i.d.樣本時,
無論樣本數大
小,樣本平均
2

數的抽樣分配
X
~
N
(

,
)
必為常態。
n
社會統計(上)
©蘇國賢2005
Page 12
中央極限定理
中央極限定理
The Central Limit Theorem
無論母體為何種分配,若隨機樣本的樣本
數夠大(n>30),則樣本平均數的抽樣分配會
趨近於(approximately)常態分配
If n is large
approximately
社會統計(上)
©蘇國賢2005
X ~ N (,

2
n
)
Page 14
標準化分數與標準常態分配
觀
念
• 設X為一呈常態分配的隨機變數,其平均
數=,變異數為2
• Z = (X - )/,Z為標準化變數,且E(Z) = 0,
Var(Z) = 1
X ~ N ( ,  2 )
Z
社會統計(上)
©蘇國賢2005
X u

~ N (0,1)
Page 15
中央極限定理
The Central Limit Theorem
•如果X1, X2, …Xn 為i.i.d.,且E(X)=μ及Var(X) =σ2。
N∞
approximately
X ~ N (,
X 

2

2
n
)
~ N (0,1)
n
社會統計(上)
©蘇國賢2005
Page 16
標準常態分配曲線下的面積
P(Z<0) = 0.5
0.399
f( x)
 4
1.33810
觀
念
P(Z>0) = 0.5
0.4
1  x2 / 2
f ( z) 
e
2
0.2
0
4
4
3
2
1
0
x
1
2
3
4
4
P(Z< -z) = P(Z > z)
社會統計(上)
©蘇國賢2005
Page 17
Interval Estimation區間估計
觀
念
• 在前章中我們介紹了各種估計母體參
數的方法(point estimator)。例如我們發
現樣本平均數X為母體平均數μ的一個
不偏估計式。
• 雖然平均而言,X能正確的代表μ,但
每一次觀察到的X不會剛好等於μ,而
是隨著抽到的樣本不同有高有低:
  X  samplingerror
社會統計(上)
©蘇國賢2005
Page 18
Interval Estimation區間估計
觀
念
• 因此除了點估計外,我們還想進一步
知道從樣本中得到的估計值有多可靠,
由於樣本的估計值本身也是一個隨機
變數,不一定會剛好等於母體參數,
因此我們問:估計值與母體參數有多
接近?
社會統計(上)
©蘇國賢2005
Page 19
Interval Estimation區間估計
• 在估計的問題中,我們希望估計式具
有以下兩個性質:
• 1. 估計式為不偏估計(unbiased
estimator),即估計式不會系統性的高
估或低估母體參數。
• 2. 我們希望估計式的抽樣分配集中於
母體參數的周圍,即估計式的變異數
愈小愈好。
社會統計(上)
©蘇國賢2005
Page 20
Interval Estimation區間估計
• 在估計的問題
中,我們希望
估計式具有以
下兩個性質:
θ
Unbiased
var(ˆ ) is small
θˆ
社會統計(上)
©蘇國賢2005
Page 21
Interval Estimation區間估計
觀
念
假設ˆ 為的估計式
則ˆ   為估計的誤差,
稱為抽樣誤差(samplingerror)
• 從估計式的抽樣分配中,我們可以建
立一套系統性的方法來表達估計式的
精確度。
社會統計(上)
©蘇國賢2005
Page 22
例題
•
•
•
•
母體:加州250,000高三學生
數學SAT分數
樣本500,得樣本平均值=461
How reliable is this estimate?
社會統計(上)
©蘇國賢2005
Page 23
例題
• 根據樣本平均數的抽樣分配(sampling
distribution),我們知道:
x ~ N ( ,

500
)
假設我們預先就知道σ=100,則
100
 x ( S .E. of x ) 
 4.5
500
社會統計(上)
©蘇國賢2005
Page 24
• 根據經驗法則,.95的機率,樣本平均
數會落在以μ為中心點,向左右延伸兩
個標準誤的界域內。
• (μ - 2 × 4.5 , μ + 2 × 4.5)
社會統計(上)
©蘇國賢2005
Page 25
社會統計(上)
©蘇國賢2005
Page 26
To say that x-bar
lies within 9 points
of μis the same as
saying that μ is
within 9 points of
x-bar
Statistical confidence
• The language of statistical inference uses
this fact about what would happen in the
long run to express our confidence in the
results of any one sample.
社會統計(上)
©蘇國賢2005
Page 28
Interval Estimation區間估計
觀
念
• 我們通常以建構信賴區間(confidence
intervals)來顯示估計式的準確度。
用ˆ來建構出兩個數值ˆ1和ˆ2
使(ˆ , ˆ )所形成的區間, 會包含母體參數
1
2
的機率為一特定值。
社會統計(上)
©蘇國賢2005
Page 29
Interval Estimation區間估計
觀
念
設( x1 , x2  xn )為由某母體抽出的隨機樣本
為欲估計的母體參數,
假設1 , 2為兩個統計量,使得
P(1    2 )  1  
則稱(1 , 2 )為的
100(1  )%信賴區間(confidenceintervals)
(1  )稱為信賴區間(1 , 2 )的信賴度
(level of condidence)
社會統計(上)
©蘇國賢2005
Page 30
Confidence interval
• A level C confidence interval for a
parameter is an interval computed from
sample data by a method that has
probability C of producing an interval
containing the true value of the parameter.
• We must find the number z* such that any
normal distribution has probability C
within ± z* standard deviation of its mean.
社會統計(上)
©蘇國賢2005
Page 31
社會統計(上)
©蘇國賢2005
Page 32
Value of Zα
• Let Z be a standard normal random variable
and let αbe any number such that 0<α<1.
Then zαdenotes the number for which
• P(Z≧ zα) = α
社會統計(上)
©蘇國賢2005
Page 33
Value of Zα
• 例題:α=.025,求zα?
• P(Z≧ zα) =.025
Area=1-.025=0.975
Area=.025
0
zα
zα=1.96
社會統計(上)
©蘇國賢2005
Page 34
Value of Zα
• 例題:求z.05?
• P(Z≧ z.05) =.05
Area=1-.05=0.95
Area=.05
0
z.05
zα=1.645
社會統計(上)
©蘇國賢2005
Page 35
Value of Zα
• 例題:求z.005?
• P(Z≧ z.005) =.005
Area=1-.005=.995
Area=.005
0
z.005
zα=2.58
社會統計(上)
©蘇國賢2005
Page 36
社會統計(上)
©蘇國賢2005
Page 37
Value of Zα
0.399
f( x)
0.4
0.2
1-α/2-α/2
 4
1.33810
• P(Z≧ zα/2) =α/2
• P(Z≦ -zα/2) =α/2
• P(-zα/2 ≦Z≦ zα/2)
=(1-α)
=1-α
0
4
4
3
1
0
x
1
2
3
α/2
社會統計(上)
©蘇國賢2005
2
Page 38
4
4
Confidence intervals for the mean with
know population variance
• 假設我們從N(μ, σ2)的母體中抽取樣本數為
n的樣本。其樣本平均數的抽樣分配為:
X ~ N ( ,
2
n
)
X u
Z
~ N (0,1)
/ n
社會統計(上)
©蘇國賢2005
Page 39
Confidence intervals for the mean with
know population variance
• 根據先前的結果:
1    P (  z / 2  Z  z / 2 )
X u
1    P (  z / 2 
 z / 2 )
/ n
 P(z / 2   / n  X  u  z / 2   / n )
 P( X  z / 2   / n  u   X  z / 2   / n )
 P( X  z / 2   / n  u  X  z / 2   / n )
社會統計(上)
©蘇國賢2005
Page 40
Confidence intervals for the mean with
know population variance
• 這個結果告訴我們:
• 由這兩個數值所構成的隨機區間
( X  z / 2   / n , X  z / 2   / n )
會包含母體參數μ的機率為(1-α)
社會統計(上)
©蘇國賢2005
Page 41
Level of Confidence
• The level of confidence (C=1-α) of a confidence
interval measures the probability that a population
parameter will be contained in an interval
calculated after a random sample has been selected
from a population.
• 信賴度衡量從母體中抽取隨機樣本所建構出的
信賴區間會含括母體參數的機率。
• α 為信賴區間沒有正確涵蓋母體參數的機率。
如α=.05,則信賴度1-α=.95,表示有5%的機率
信賴區間無法包含母體參數。
社會統計(上)
©蘇國賢2005
Page 42
Level of Confidence
• 一般常用「母體參數會落在信賴區間
的機率」來定義信賴度是一種錯誤的
說法。
– 母體參數只有一個,不會變來變去
– 所建構出的區間也是一個特定的區間。
– 這個特定區間不是有包含母體參數,不然
就是沒有包含母體參數,這不是一個機率
的問題。
社會統計(上)
©蘇國賢2005
Page 43
Confidence intervals for the mean with
know population variance
• Suppose we take random sample of n
observations from a normal population with
mean u and variance σ2. If σ2is known and the
observed sample mean is x, then the confidence
interval for the mean with a level of confidence
100(1-α)% is given by:
( X  z / 2   / n , X  z / 2   / n )
• Where zα/2is the number for which
• P(Z≧ zα/2) =α/2
社會統計(上)
©蘇國賢2005
Page 44
例題
• 學校想估計去年畢業的學生第一年的年薪。
假設薪資分佈為常態分配,且母體的標準
差為$2000。取隨機樣本25名校友得到平
均薪資為$19,500,求95%的信賴區間。
• σ= $2000, n=25, x=$19500
• 1-α=95%, α= .05 , α/2=.025, zα/2=1.96
(19500 1.96 2000/ 25,19500 1.96 2000/ 25)
(18716, 20284)
社會統計(上)
©蘇國賢2005
Page 45
例題
• 我們之所以計算出95%的信賴區間為
(18,716, 20,284)完全是因為樣本的平均數
為$19,500。如果我們再抽取一個25人的
樣本,則可能得到不同的區間。
• 如果我們一直不斷的重複取樣本1000次,
則有950次(95%)所建構出的信賴區間會含
括母體的平均數。
社會統計(上)
©蘇國賢2005
Page 46
0.399
0.4
X的抽樣分配
母體參數:
Mean = μ
f( x)
0.2
Variance =σ2
 4
1.33810
μ
0
4
4
每個區間=

x  1.96
n
因為每個樣本
的平均值會有
變化,所以區
間為隨機區間
3
2
1
0
x
1
2
3
4
4
Confidence intervals for the mean with
know population variance
1    P( X  z / 2   / n  u  X  z / 2   / n )
• 母體參數u不是一個隨機函數,不會隨
著樣本的不同而有差異。
• X為會隨著樣本而變的隨機函數,因此
信賴區間也會隨著樣本的不同而有差
異。
• 100(1-α)%的機率,上述的隨機區間會
含括母體參數u。
社會統計(上)
©蘇國賢2005
Page 49
Confidence intervals for the mean with
know population variance
• 一般所謂95%的信賴區間估計,乃是表示重複
抽取樣本數為n的所有可能樣本所建立的全部
區間估計中,有95%的區間將會包含真正的母
體平均數,而僅有5%沒有包含母體平均數。
• 但實際上我們通常僅抽取一個樣本,且u通常
為未知,因此無法確切知道此樣本是否包含u,
但我們可以說此區間有95%的機率會包含u.
社會統計(上)
©蘇國賢2005
Page 50
Formula for commonly constructed
confidence intervals
• 經常在使用的信賴
區間
Level of Confidence
α/2
(1-α) α
zα/2
0.90 0.10 0.050 1.65
0.95 0.05 0.025 1.96
0.99 0.01 0.005 2.58
( x  1.645
( x  1.96
n

, x  1.645
, x  1.96


n
)
)
n
n


( x  2.58
, x  2.58 )
n
n
社會統計(上)
©蘇國賢2005

Page 51
Desirable Properties of Confidence
Intervals
• 好的信賴區間有兩個特性:
• 信賴度愈高愈好The interval should
have a high level of confidence (1-)
• 信賴區間愈小愈好The interval should
have narrow width(precision)
社會統計(上)
©蘇國賢2005
Page 52
社會統計(上)
©蘇國賢2005
Page 53
Margin of ErrorThe width of a confidence interval for u
• 母體平均數的信賴區間寬度W:

W  2  z / 2 
•
•
•
•
n
信賴區間的寬度W決定於幾個因素:
(1)信賴區間的信賴度(1-α)
(2)母體標準差
(3)樣本規模n
社會統計(上)
©蘇國賢2005
Page 54
Comparing Width of Confidence Intervals
• Suppose we take a random sample of size n from
population having known variance 2. Construct 99%,
95%, 90% CI for the population mean and compare their
widths.
W1  2(2.58)
W2  2(1.96)

n

W3  2(1.645)
n

W1
 1.32
W2
W1比W2的寬度多32%
W2
 1.19
W3
W2比W3的寬度多19%
n
社會統計(上)
©蘇國賢2005
Page 55
Comparing Width of Confidence Intervals
• To decrease the width of confidence interval, we must
either use a smaller level of confidence (1-), or increase
the sample size n.
2.58
1.96
1.64
1.28
.67

n

n

n

80%
n

n
Width of CI
社會統計(上)
©蘇國賢2005
99%
95%
90%
50%
Confidence
coefficient Page
56
例題
• 學校想估計去年畢業的學生第一年的年薪。假設
薪資分佈為常態分配,且母體的標準差為$2000。
取隨機樣本25名校友得到平均薪資為$19,500,
求99%的信賴區間 ,並與95%CI做比較。
• σ= $2000, n=25, x=$19500
• 1-α=99%, α= .01 , α/2=.005, zα/2=2.58
(19500 2.58 2000/ 25,19500 2.58 2000/ 25)
(18486, 20532) W1  $2064
=1.32
(18716, 20284) W2  $1568
社會統計(上)
©蘇國賢2005
Page 57
Confidence intervals for large
samples
• 建構CI需有兩個條件:
• (1)母體必須為常態分配。
• (2)必須知道母體的變異數等於多少,
即母體的變異數為已知數。
• 當樣本數n30,根據中央極限定律,
樣本平均數的抽樣分配會趨近於常態
分配,且樣本標準差會愈來愈趨近於
母體標準差,所以條件(1)(2)皆能滿足。
社會統計(上)
©蘇國賢2005
Page 58
例題
• 郵局的人事部門想要瞭解郵差請病假的情況,
取樣100人來觀察,母體的分配及標準差皆
為未知數,假設樣本平均數為8.2,s=2.7天,
建構95% CI。
n  100, X  8.2, s  2.7, (1   )  .95,  .05
 / 2  .025, z / 2  1.96, n  30
CI  ( x  z / 2
s
s
, x  z / 2
)
n
n
2.7
2.7
CI  (8.2  1.96
,8.2  1.96
)  (7.6708,8.7292)
100
100
社會統計(上)
©蘇國賢2005
Page 59
Student’s t distribution
• 先前透過Z-score來建構CI:
• (1)母體必須為常態分配,母體的變異
數為已知數。
• (2) n30
• 當母體標準差為未知數,且樣本數很
小時,如何建構CI?
社會統計(上)
©蘇國賢2005
Page 60
• 我們必須以樣本的標準差s來估計母體
的標準差σ
• 此時我們所建構出的信賴區間會比知
道母體標準差所建構出來的信賴區間
更「不正確」,因此必須擴大信賴區
間才能在相同的信賴水準底下涵蓋母
體的參數。
社會統計(上)
©蘇國賢2005
Page 61
Student’s t distribution
• 若母體~N(, 2),則
2

X u
X ~ N (, )
Z
~ N (0,1)
n
/ n
• 若母體 2未知,則以S來取代,我們
得到t-score:
X u
t
S/ n
• 樣本數愈大,S愈接近,t分配愈接近
標準常態分配Z:
社會統計(上)
©蘇國賢2005
Page 62
t分配的一些特性
• t分配為中心點為零,介於- 至的對稱
分配.
• t分配的形狀為類似標準常態分配的鐘形
分配
• t distribution的平均值為 0.
• t分配的機率密度函數決定於參數 (nu),
即自由度(degree of freedom) 。建構平均
值的信賴區間時,自由度為樣本數減一
degrees of freedom
is =(n-1)。
社會統計(上)
Page 63
©蘇國賢2005
Characteristics of t distribution
• t distribution 的變異數為 /(-2) for >2,
其值永遠大於1。v愈大(樣本越大),
變異數越接近1,其形狀越接近標準常態
分配。
社會統計(上)
©蘇國賢2005
Page 64
Characteristics of t distribution
• t分配是一群機率分配的組合,不同自由度對應
不同的t distribution的密度函數,由於變異數較
標準常態分配大,所以形狀較為矮胖。
0.399
f( x)
Standard normal
(d.f.=)
0.4
d.f. =4
d.f. =2
0.2
d.f. =1
 4
1.33810
0
4
4
3
2
1
0
x
1
2
社會統計(上)
©蘇國賢2005
3
4
4
Page 65
Value of t,
• The symbol t,denotes the value of t such
that the area to its right is  and t has 
degree of freedom. The value t, satisfies
the equation:
• P(t > t, )=
• Where the random variable t has the t
distribution with  degrees of freedom.
社會統計(上)
©蘇國賢2005
Page 66
Value of t,
• P(t > t0.05,13 )=0.05找出t值?
社會統計(上)
©蘇國賢2005
Page 67
例題
• Consider the t distribution having =9 degrees
of freedom. Find the value t.05, 9 such that the
area in the right tail of the t distribution is .05.
t distribution with d.f. = 9
Area = .05
0
t.05=1.83
社會統計(上)
©蘇國賢2005
Page 68
例題
• Consider the t distribution having =9 degrees
of freedom. Find the value t.025, 9 and -t.025, 9
such that each tail of the t distribution contains
area .025.
t distribution with d.f. = 9
Area = .025
-t.025= -2.262 0
t.025= 2.262
社會統計(上)
©蘇國賢2005
Page 69
例題
• Consider the t distribution having =20 degrees
of freedom. Find the value t.025, 20 such that the
right tail of the distribution contains area .025.
t distribution with d.f. = 20
Area = .025
0
t.025= 2.086
社會統計(上)
©蘇國賢2005
Page 70
自由度
• X1 X2兩個隨機變數的可能數值組合有無限
多種。如果我們不作任何限制,則可以任意
選定任何數值給X1及X2。
• 但如果我們規定:
1
X
2
( X1  X 2 )  5
• 則X1 X2的組合必須是(3, 7)(2, 8)(5,5)(6,4)等
• 當X1決定之後,我們沒有自由空間可以決定
X2的數值,也就是我們的「自由度」只有(21)個
社會統計(上)
©蘇國賢2005
Page 71
自由度
1
X  ( X 1  X 2  ...X n )
n
n

i 1
( X i  X )2
• 同理,上面兩個統計量都有一樣的限制,當
知道n-1個數值之後,最後一個數值已經被
決定了,所有自由度僅有(n-1)。
• 統計學上的自由度即是指所有變數中,其數
值可以自由選定之變數的個數,等於
• 統計量所涉及的隨機變數個數減去加諸於該
統計量的限制個數。
社會統計(上)
©蘇國賢2005
Page 72
Confidence intervals for the mean
with unknown population variance
• 若母體~N(, 2),則
2

X u
X ~ N (, )
Z
~ N (0,1)
n
/ n
• 若母體 2未知,則以S來取代,我們
得到t-score:
X u
t
S/ n
has the t distribution with v = (n-1) degrees
of freedom.
社會統計(上)
©蘇國賢2005
Page 73
Constructing confidence intervals
using the t distribution
• The area to the right of tα/2,υis α/2 for the t
distribution having v degrees of freedom.
Similarly, the area to the left of -tα/2,υ is α/2 .
Thus, we obtain:
1    P( t / 2,v  t  t / 2,v )
1    P( t / 2,v
X u

 t / 2,v )
s/ n
社會統計(上)
©蘇國賢2005
Page 74
Constructing confidence intervals
using the t distribution
1    P( t / 2,v
X u

 t / 2,v )
s/ n
1    P(t / 2,v S
n
1    P( X  t / 2,v S
 X  u  t / 2,v S
n
 u  X  t / 2,v S
社會統計(上)
©蘇國賢2005
n
)
n
)
Page 75
Constructing confidence intervals
using the t distribution
1    P( X  t / 2,v S
n
 u  X  t / 2,v S
n
)
這個結果告訴我們,如果從常態分配中
抽取樣本,則母體u在1-α的機率下會落
於以下區間
( X  t / 2,v S
n
, X  t / 2,v S
社會統計(上)
©蘇國賢2005
n
)
Page 76
Confidence interval for the mean of a normal
population with unknown population variance
Suppose we take a random sample of n observations
from a normal population with mean u and unknown
variance σ2. If the observed sample mean is x and
the observed sample standard deviation is s, the
confidence interval for the mean having level of
confidence 100(1-α)% is given by
( X  t / 2,v S
n
, X  t / 2,v S
社會統計(上)
©蘇國賢2005
n
)
Page 77
定
義
例題
例
題
一工程師要估計某種鋼鐵的平均強度,假設該鋼
條的強度為常態分配,他做了四個試驗,得到的
強度如下 844, 847, 845, 844 ,計算該鋼條平均強
度的95%信賴區間。
844  847  845  844
X 
 845
4
1
1
2
2
2
S 
(
x

x
)

[(
844

845
)

...

(
845

844
)
]2

i i
n 1
2
2
(845 t0.025,3 2 ,845 t0.025,3 2 )
4
4
社會統計(上)
©蘇國賢2005
Page 78
兩種信賴區間的比較
觀
念
由t值所建構出的CI的區間比由Z-score
所建構出的CI區間要寬,因為母體的
變異數必須估計,誤差較大。
樣本數愈大,CI的寬度愈小。因為
(1) n在分母
(2) t值隨著degree of freedom的增加而減
小。
社會統計(上)
©蘇國賢2005
Page 79
兩種信賴區間的比較
觀
念
CI隨著d.f.增加而減小的情形:
sample size d.f.
95% CI
n
n-1
5
4
x  2.776( s / n )
10
9
x  2.262( s / n )
20
19
x  2.093( s / n )
x  2.045( s / n )
30
29
x  1.96( s / n )
∞
∞
當d.f. 大於120時,用t值所計算的CI與用標準常
態分配所計算出的CI幾乎相同。
社會統計(上)
©蘇國賢2005
Page 80
例題
例
題
N=121, X = $20,000 S=$4,000 construct two CI,
one using t, the other using z.
υ= n-1 =120, t0.025, 120 = 1.984
( X  t / 2,v S
n
, X  t / 2,v S
 (20000 1.9844000
n
)
,20,000 1.9844000
)
121
121
用z值  (20000 1.964000
,20,000 1.964000
)
121
121
社會統計(上)
©蘇國賢2005
Page 81
例題
例
題
n=10, we want to construct 95% IC using z and t.
If the variance is known, we use z =1.96
If the variance is unknown, we use t.025, 9 = 2.262
2.262/1.96=15%. The confidence interval based on
the t value will be 15% wider than that based on the z
value.
社會統計(上)
©蘇國賢2005
Page 82
One-sided confidence intervals for
the mean
• Suppose that we wish to find the lower confidence limit
(LCL) such that the probability (1-)that u exceeds LCL.
The one-sided interval (LCL, ) is a left-sided confidence
interval. The lower confidence limit is given by
LCL  x  z

n
• Suppose that we wish to find the upper confidence limit
(UCL) such that the probability (1-)that u is less than
UCL. The one-sided interval (-, UCL) is a right-sided
confidence interval. The upper confidence limit is given by
UCL  x  z

n
社會統計(上)
©蘇國賢2005
Page 83
One-sided confidence intervals for
the mean
• 單邊信賴區間的意義:假設重複取樣本
數為n的隨機樣本,每次計算(LCL, ),
則在所有樣本所建構出的左邊信賴區間
中,將有1-的機率會包含u。
社會統計(上)
©蘇國賢2005
Page 84
One-sided confidence intervals for
the mean
• 郵局的人事部門想要瞭解郵差請病假的情況,
取樣100人來觀察,母體的分配及標準差皆
為未知數,假設樣本平均數為8.2,s=2.7天,
建構母體參數u的單(左)邊95%信賴區間。
n  100, X  8.2, s  2.7, (1   )  .95,  .05
z  1.645,
s
LCL  ( x  z
, )
n
2.7
 8.2  1.645
 7.75585
100
社會統計(上)
©蘇國賢2005
95%的 機率(7.7558,
∞)會包含母體平均
值u
Page 85
One-sided confidence intervals for
the mean
Take a random sample of n observations from some
normal population having unknown mean u and
unknown standard deviation σ.
Suppose that we wish to find the lower confidence
interval (LCL, ∞) is a left-sided confidence interval.
The lower confidence limit is given by:
LCL  x  ts / n
Suppose that we wish to find the upper confidence
interval (-∞, UCL) is a right-sided confidence interval
LCL  x  ts / n
社會統計(上)
©蘇國賢2005
Page 86
One-sided confidence intervals for
the mean
n=10, σ = unknown, x=14.5, s = 2.5. Construct 95%
left-sided CI for the population mean u.
LCL  x  ts / n
2.5
 14.5  1.833
 13.051
10
The 95% left-sided confidence interval for u is (13.051,
∞)
社會統計(上)
©蘇國賢2005
Page 87
例
題
Determining the sample size決定樣本大小
Confidence interval for the mean:
Suppose an individual is interested in estimating the
mean of a population having a known variance 2.
How large a sample size must be taken if the
investigator wants the probability to be (1-) that
the sampling error |X - u| is less than some amount
D?
社會統計(上)
©蘇國賢2005
Page 88
Determining the sample size決定樣本大小
( X  z / 2   / n , X  z / 2   / n )
1    P( X  z / 2   / n  u  X  z / 2   / n )
信賴區間是以X 為中心,向左右各伸展:
z / 2
D
n
z / 2
n
D
將D固定,求n=?
z / 2
n
D2
2
2
社會統計(上)
©蘇國賢2005
Page 89
例題
An economist wants to estimate the mean annual income of
households in a particular congressional district. It is
assumed that the population standard deviation is =$4,000.
The economist wants the probability to be .95 that the sample
mean will be within a D = $500 of the true mean u. How
large a sample is required?
1    .95 z / 2  1.96   4000 D  500
z / 2
1
.
96
(
4
,
000
)
n
n
 245.86
2
2
D
500
2
2
2
社會統計(上)
©蘇國賢2005
2
Page 90
複習
f (x)
f (x)
母體分配

根據中央極限
定律,我們知
道樣本夠大時,
樣本平均數的
抽樣分配為常
態分配
x
X的抽樣分配
E( X )  
Var( X ) 

2
n
x
0.399
0.4
X的抽樣分配
母體參數:
Mean = μ
f( x)
0.2
Variance =σ2
 4
1.33810
μ
0
4
4
每個區間=

x  1.96
n
因為每個樣本
的平均值會有
變化,所以區
間為隨機區間
3
2
1
0
x
1
2
3
4
4
複習
設(x1,x2…xn)為由某母體抽出的隨機樣本,
為此母體之參數,假設T1, T2為兩個統計量,
使得
P(T1    T2 )  1  
則稱(T1, T2) 為的100(1-)%信賴區間,而
(1-)為信賴度。
T1
T2
社會統計(上)
©蘇國賢2005
Page 93
複習
設ˆn為參數  的估計式,
若p( ˆn   )  D)  1  
則稱D為以ˆn估計 的100(1   )%誤差界線
(精確度、抽樣誤差)
T1
D
ˆn
社會統計(上)
©蘇國賢2005
T2
Page 94
複習
母體平均數u之區間估計:
當母體標準差σ已知,且n>30,則
( X  z / 2   / n , X  z / 2   / n )
為母體平均數u的100(1-)%的信賴區間
社會統計(上)
©蘇國賢2005
Page 95
Confidence intervals for the mean
with unknown population variance
• 若母體~N(, 2),則
2

X u
X ~ N (, )
Z
~ N (0,1)
n
/ n
• 若母體 2未知,則以S來取代,我們
得到t-score:
X u
t
S/ n
has the t distribution with v = (n-1) degrees
of freedom.
社會統計(上)
©蘇國賢2005
Page 96
複習
母體平均數u之區間估計:
當母體標準差σ未知則
1    P( X  t / 2,v S
( X  t / 2,v S
n
n
 u  X  t / 2,v S
, X  t / 2,v S
n
n
)
)
為母體平均數u的100(1-)%的信賴區間
社會統計(上)
©蘇國賢2005
Page 97
複習
母體平均數u之點估計:
一般以X 來估計u ,也就是取X做為u的估計式,因此
X為u之點估計值。
當樣本數n已知,且n>30,以X估計u的100(1-)%誤差
界線為
z 
D
 /2
n
當樣本數未定,但n>30,若誤差界線D已知,則
2
樣本數為
2
z / 2
n
D2
社會統計(上)
©蘇國賢2005
Page 98
複習
一個日光燈製造公司生產的燈管壽命近似常態
分配,它的標準差為100小時。某品管人員隨
機抽樣32燈管,經使用後觀察其壽命,得平均
壽命為1200小時
(1)求該公司生產的每支燈管的平均壽命之
估計值。
平均壽命u之點估計值為x=1200小時
社會統計(上)
©蘇國賢2005
Page 99
複習
(2)求(1)中的估計之95%誤差界線?
誤差界線D  Z 
2

100
 1.96
 34.648
n
32
(3)若希望(2)中的95%誤差界線為20小時,問
此題的樣本夠不夠大?若不夠大應再抽多少樣本?
z / 2
1.96 2
2
n

(
)
(
100
)
 96.04取97
2
D
20
2
2
故應再取97-32=65支
社會統計(上)
©蘇國賢2005
Page 100
複習
(4)求該公司生產的每支燈管平均壽命的90%及
95%信賴區間
( X  z / 2   / n , X  z / 2   / n )
u之90%CI :
(1200 1.645 100/ 32,1200 1.645 100/ 32)
u之95%CI :
(1200 1.96 100/ 32,1200 1.96 100/ 32)
社會統計(上)
©蘇國賢2005
Page 101