Bài giảng 4

Download Report

Transcript Bài giảng 4

Giới thiệu về thống kê
DEPOCEN
Chương 6
Cơ bản về kiểm định giả thuyết:
kiểm định một mẫu
Chủ đề
•Các phương pháp kiểm định giả thuyết
•Z -test trung bình (s biết)
• p-Value trong kiểm định giả thuyết
•Liên hệ với ước lượng khoảng tin cậy
•Kiểm định một phía
• t -test cho trung bình
•Z -test cho tỉ lệ
Giả thuyết là gì?
Một giả thuyết là một điều
giả sử về tham số tổng thể.


Một tham số là một
trung bình hoặc tỉ lệ
tổng thể
I assume the money
VND income of this class
is VND 3.5 million
Tham số phải được định
nghĩa trước khi phân
tích.
© 1984-1994 T/Maker Co.
Giả thuyết “trống”, H0

Là câu giả sử trong phép kiểm định
e.g. trung bình số TV bán được trong 1h ít nhất
là 3 (H0:   3)

Bắt đầu với giả sử rằng giả thuyết “trống”
là đúng TRUE.
•Giả thuyết “trống” có thể chấp nhận hoặc bác bỏ
Đối thuyết, H1


Là ngược lại với giả thuyết “trống”
e.g. trung bình số TV bán được trong 1h nhỏ
hơn 3 (H1:  < 3)
Đối thuyết có thể chấp nhận hoặc không
Định nghĩa bài toán
Các bước:


Đặt giả thuyết “trống” (H0:   3)
Xác định đối thuyết (H1:  < 3)

Trong một vài tình huống, đối thuyết sẽ dễ
được xác định trước tiên.
Quy trình kiểm định giả
thuyết
Giả sử
Tuổi trung bình
Tổng thể là 50
Tổng thể
Giả thuyết “trống”
Is X  2 0    50 ?
Trung bình
Mẫu là 20
No, not likely!
Loại bỏ
Giả thuyết trống
Mẫu
Lí do loại bỏ H0
Sampling Distribution
Ta có một
mẫu có trung
bình là ...
... Tuy nhiên, ta
loại bỏ giả
thuyết vì  = 50.
... Trong tình huống
này, đây là trung bình
tổng thể
20
 = 50
H0
Sample Mean
Mức ý nghĩa, a


Xác định giá trị của thống kê mẫu mà khả năng
giả thuyết “trống” không xảy ra là đúng, còn
được gọi là miền bác bỏ phân phối mẫu (bác bỏ
giả thuyết)
Kí hiệu: a (alpha)



Một vài giá trị cụ thể: 0.01, 0.05, 0.10
Được chọn bởi người nghiên cứu ngay lúc bắt
đầu
Cho ta giá trị giới hạn của phép kiểm định
Mức ý nghĩa, a và miền
bác bỏ
a
H0:   3
H1:  < 3
Miền bác bỏ
0
H0:   3
H1:  > 3
0
H0:   3
H1:   3
0
Giá trị
giới hạn
a
a/2
Các sai lầm khi lựa chọn

Sai lầm loại I:



Loại bỏ giả thuyết trống khi nó đúng
Đưa đến một hậu quả nghiêm trọng
Xác suất của sai lầm loại I là a


Gọi là mức ý nghĩa
Sai lầm loại II:


Không bác bỏ khi giả thuyết trống sai
Xác suất của sai lầm loại II là b (Beta)
Các khả năng
H0
Hypothesis Test
Trường hợp
Quyết định H0 True H0 False
Không
Bác bỏ
H0
1-a
Type II
Error (b )
Bác bỏ
H0
Type I
Error
(a )
Power
(1 - b)
a & b có quan hệ
ngược nhau
Reduce probability of one error
and the other one goes up.
b
a
Các tác nhân ảnh hưởng sai lầm loại II: b

Giá trị thực của tham số tổng thể


Mức ý nghĩa a


b
Tăng khi a giảm
a
Độ lệch chuẩn tổng thể s


Tăng khi sự sai khác giữa tham số giả thuyết trống và
giá trị thực giảm
Cỡ mẫu n

b s
Tăng khi s tăng
Tăng khi n giảm
b
n
Thống kê Z-Test (s biết)

Chuyển từ thống kê mẫu(e.g.,
ngẫu nhiên chuẩn tắc Z
Z 

X  X
s
X

X 
s
) sang
X biến
Thống kê Z
n
So sánh với giá trị giới hạn của Z

Nếu thống kê Z nằm trong miền giới hạn, bác bỏ H0;
ngược lại không bác bỏ H0
Kiểm định p-giá trị
•
Là giá trị nhỏ nhất mà H0 có thể bị bác bỏ, gọi là mức
ý nghĩa quan sát:
P-giá trị = P(D | H1 đúng), với D: là 1 miền


Không trực tiếp cho ta kết luận về giả thuyết
mà chỉ gián tiếp cho ta kết luận về việc chấp
nhận và bác bỏ đối thuyết
Được sử dụng khi đưa ra quyết định:


Nếu p-giá trị  a không bác bỏ H0
Nếu p-giá trị < a, bác bỏ H0
Kiểm định giả thuyết: các bước
trung bình số TV bán được trong
1h ít nhất là 3 (H0:   3)
1.
Xác định H0
H0 :   3
2.
Xác định H1
H1 :  < 3
3.
Chọn a
4.
Chọn cỡ mẫu n
5.
Chọn kiểm định
a = .05
n = 100
Z Test (or p Value)
Kiểm định giả thuyết: các bước
(continued)
6. Xác định giá trị giới hạn
Z = -1.645
7. thu thập số liệu
100 values
8. tính toán thống kê kiểm định
Computed Test Stat.= -2
9. đưa ra kết luận thống kê
bác bỏ giả thuyết
10. Thể hiện kết luận thống kê trung bình số TV bán được
trong 1h nhỏ hơn 3
Kiểm định Z 1-phía đối
với trung bình (s biết)

Giả sử:




Tổng thể có phân phối chuẩn
Nếu không chuẩn, ta dùng cỡ mẫu lớn
Giả thuyết trống chỉ có dấu  or 
Thống kê kiểm định Z:
z 
x  x
s
x

x  
s
n
Miền bác bỏ
H0:   
H1:  < 0
H0:   0
H1:  > 0
Reject H0
Reject H 0
a
a
0
Mức ý nghĩa phải nhỏ
hơn  = 0
Z
0
Z
Giá trị nhỏ nhất không mâu
thuẫn H0!
Ví dụ kiểm định 1-phía
Có trung bình bao nhiêu hộp
ngũ cốc chứa nhiều hơn 368
grams? Một _mẫu ngẫu nhiên
gồm 25 có X = 372.5. Công
ty có độ sai lệch lý thuyết là
s = 15 grams. Hãy kiểm
định với mức ý nghĩa
a0.05.
368 gm.
H0:   368
H1:  > 368
Tìm giá trị giới hạn:
1-phía
What Is Z Given a = 0.05?
.50
-.05
.45
sZ = 1
Z
a = .05
0 1.645 Z
Giá trị giới
hạn= 1.645
Standardized Normal
Probability Table (Portion)
.04
.05
.06
1.6 .5495 .5505 .5515
1.7 .5591 .5599 .5608
1.8 .5671 .5678 .5686
1.9 .5738 .5744 .5750
Example Solution: One Tail
H0:   368
H1:  > 368
Thống kê kiểm định:
a = 0.05
n = 25
Giá trị giới hạn: 1.645
Reject
.05
0 1.645 Z
Z 
X 
s
 1 . 50
n
Kết luận:
Không bác bỏ với a = .05
Tức là:
Không có chứng cớ xác
thực là trung bình lớn
hơn hoặc bằng 368
p Value Solution
p –giá trị = P(Z  1.50) = 0.0668
Sử dụng đối
thuyết để
tính trực
tiếp phép
kiểm định
p Value
.0668
1.0000
- .9332
.0668
.9332
0 1.50
From Z Table:
Lookup 1.50
Z
Z Value of Sample
Statistic
p Value Solution
(p Value = 0.0668)  (a = 0.05).
Không thể bác bỏ.
p Value = 0.0668
Reject
a = 0.05
0
1.50
Z
Test Statistic Is In the Do Not Reject Region
Ví dụ kiểm định hai phía
Có bao nhiêu hộp ngũ cốc có
trọng lượng 368 gram? Một
mẫu ngẫu nhiên gồm 25 hộp
có X = 372.5. Công ty có độ
sai lệch lý thuyết là s = 15
grams. Hãy kiểm định với
mức ý nghĩa a0.05.
368 gm.
H0:   368
H1:   368
Example Solution: Two Tail
H0:   386
H1:   386
Thống kê kiểm định:
a = 0.05
n = 25
Giá trị giới hạn: ±1.96
s

372.5  368
n
15
 1 .50
25
Kết luận:
Reject
Không thể bác bỏ với a = .05
.025
Tức là:
Không có chứng cứ rõ
ràng khẳng định trung
bình không bằng 368
.025
-1.96
Z
X 
0 1.96
Z
Liên hệ với khoảng tin cậy
_
Cho X = 372.5, s = 15 and n = 25,
The 95% Confidence Interval is:
372.5 - (1.96) 15/ 25 to 372.5 + (1.96) 15/ 25
or
366.62    378.38
nếu khoảng tin cậy chứa trung bình của giả
thuyết (368), ta không thể bác bỏ giả thuyết
trống, nếu ngược lại thì ta bác bỏ.
t-kiểm định: s không biết
Giả sử:


Tổng thể có phân phối chuẩn
Nếu không chuẩn, ta chỉ sử dụng được khi biết phân
phối hơi nghiêng & cỡ mẫu lớn
Kiểm định tham số:
Thống kê t:
t 
X  
S
n
Ví dụ: kiểm định 1-phía với t-Test
Có bao nhiêu hộp ngũ cốc chứa
nhiều hơn 368 grams? Biết một
mẫu
_ ngẫu nhiên gồm 36 hộp có
X = 372.5, và S  15. hãy kiểm
định với a0.01.
s is not given,
368 gm.
H0:   368
H1:  > 368
Example Solution: One Tail
H0:   368
H1:  > 368
Test Statistic:
t 
a = 0.01
n = 36, df = 35
Giá trị giới hạn: 2.4377
Reject
.01
0 2.4377 Z
X  
S

372 . 5  368
15
n
 1 . 80
36
Kết luận:
Không thể bác bỏ với a = .01
Tức là:
Không có chứng cứ rõ ràng
khẳng định trung bình thực
tế lớn hơn 368
Tỉ lệ




Liên quan đến các biến định tính
Là % của biến định tính trong tổng thể
Nếu xuất hiện 2 biến định tính, ta có phân phối 2 chiều.
Mẫu tỉ lệ(ps):
ps 
X
n

n u m b e r o f su cc e ss e s
s a m p le s ize
Ví dụ: dùng kiểm định Z cho tỉ lệ
•Bài toán: một công ty marketing nhận
được 4% phản hồi từ dịch vụ Mail.
•Cách tiếp cận: để kiểm tra, họ tiến hành
khảo sát 500 người với 25 phản hồi.
•Yêu cầu: kiểm định với a = .05
Z Test for Proportion:
H0: p  .04
H1: p  .04
Thống kê kiểm định:
p - ps
Z 
p (1 - p)
n
a = .05
n = 500
Critical Values:  1.96
Reject
Kết luận:
Reject
.025
.025
0
.04 -.05
=
= 1.14
.04 (1 - .04)
500
Z
Không thể bác bỏ với a = .05
Tức là:
Không đủ chứng cứ khẳng
định rằng tỉ lệ công ty nhận
được phản hồi là 4% .