Cach tich co mau

download report

Transcript Cach tich co mau

Cỡ mẫu
Tại sao phải tính cỡ mẫu
• Một câu hỏi luôn đặt ra với nhà nghiên cứu là
cần phải điều tra bao nhiêu đơn vị mẫu để nó
đại diện và có thể suy rộng cho tổng thể, để
phân tích có ý nghĩa và kết quả nghiên cứu có
giá trị về mặt khoa học?
Làm thế nào để xác định cỡ mẫu?
• Một cách đơn giản và dễ nhất là dựa vào các
nghiên cứu có cùng nội dung đã được thực
hiện trước đó để lấy mẫu.
• Có thể hỏi ý kiến các chuyên gia, những người
có kinh nghiệm thực hiện các dự án điều tra
khảo sát.
• Có thể tính toán theo công thức tính mẫu.
Công thức tính cỡ mẫu
• Với trường hợp cỡ mẫu lớn và không biết tổng
thể.
2
z ( p.q )
n
2
e
Tính cỡ mẫu
• Trong đó:
n= là cỡ mẫu
z= giá trị phân phối tương ứng với độ tin cậy lựa
chọn (nếu độ tin cậy 95% thì giá trị z là 1,96…)
p= là ước tính tỷ lệ % của tổng thể
q = 1-p
thường tỷ lệ p và q được ước tính 50%/50% đó
là khả năng lớn nhất có thể xảy ra của tổng thể.
e = sai số cho phép (±3%, ±4%, ±5%...)
Ví dụ
• Tính cỡ mẫu của một cuộc trưng cầu ý kiến
trước một cuộc bầu cử với độ tin cậy là 95%
với giá trị z tương ứng là 1.96, sai số cho phép
là nằm trong khoảng +5%. Giả định p*q lớn
nhất có thể xảy ra là 0.5*0.5.
• Cỡ mẫu sẽ được tính là:
Cỡ mẫu
2
1.96 (0.5 * 0.5)
n

385
2
0.05
Tính cỡ mẫu
 1 N 1 1  k 


n 
N P.Q  z1 / 2 
 N
2 1



Tiếp
Ở đó
• N = số lượng đơn vị trong tổng thể.
• P = tỷ lệ tổng thể.
• Q = 1-P,
• k= sai số cho phép.
Tính cỡ mẫu
• Nếu tổng thể nhỏ và biết được tổng thể thì
dùng công thức sau:
Với n là cỡ mẫu, N là số lượng tổng thể, e là
sai số tiêu chuẩn
•
Ví dụ
• Tính cỡ mẫu của một cuộc điều tra với
Tổng thể là N= 2000, độ chính xác là 95%, sai số
tiêu chuân là +- 5%.
-- cỡ mẫu sẽ được tính là:
Ví dụ
Bảng cỡ mẫu
Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và
±10% Độ tin cậy là 95% và P=0.5.
Cỡ của
tổng thể
Cỡ mẫu(n) với sai số cho phép :
±3%
±5%
±7%
±10%
500
600
700
800
900
1,000
2,000
*
*
*
*
*
*
714
222
240
255
267
277
286
333
145
152
158
163
166
169
185
83
86
88
89
90
91
95
Bảng cỡ mẫu (tiếp)
Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và
±10% Độ tin cậy là 95% và P=0.5.
Cỡ của
tổng thể
Cỡ mẫu(n) với sai số cho phép :
±3%
±5%
±7%
±10%
3,000
811
353
191
97
4,000
870
364
194
98
5,000
909
370
196
98
6,000
938
375
197
98
7,000
959
378
198
99
8,000
976
381
199
99
9,000
989
383
200
99
Bảng cỡ mẫu (tiếp)
Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và
±10% Độ tin cậy là 95% và P=0.5.
Cỡ của
tổng thể
Cỡ mẫu(n) với sai số cho phép :
±3%
±5%
±7%
±10%
10,000
1,000
385
200
99
15,000
1,034
390
201
99
20,000
1,053
392
204
100
50,000
1,087
397
204
100
100,000
1,099
398
204
100
>100,000 1,111
400
204
100
Trọng số
Trọng số
• Có nhiều cuộc điều tra bạn phải sử dụng trọng
số trong phân tích dữ liệu.
• Trọng số này phải được tính toán.
• Bạn cần phải hiểu rõ về trọng số này.
• Mục đích sử dụng trọng số: đại diện cho tổng
thể tốt hơn.
Trọng số
• Trong số được tính bằng phân số nghịch đảo
của phân số chọn mẫu:
• W= N/n
Tại sao lại sử dụng trọng số
• Chọn mẫu phân tầng không tỷ lệ.
• Hiệu chỉnh với những trường hợp không trả lời điều
tra.
• Hiệu chỉnh với thiết kế mẫu mà xác suất lựa chọn
đơn vị mẫu không ngang nhau.
• Trong hậu phân tầng.
• Ví dụ: Nếu đơn vị điều tra X có khả năng được lựa
chọn bằng một nửa đơn vị Y có, thì đơn vị X sẽ có
trọng số là 2 để có cơ hội bằng đơn vị Y.
Ví dụ
• Trong ví dụ về lựa chọn 100 sinh viên trong đó có 50
sinh viên dân tộc kinh và 50 sinh viên dân tộc thiểu
số từ mẫu 2000 sinh viên với 100 sinh viên dân tộc
thiểu số.
• Như vậy sinh viên xác suất lựa chọn của sinh viên
dân tộc thiểu số là ½ trong khi của dân tộc kinh là
1/38. Để phù hợp với sự phân bố tỷ lệ của tổng thể,
ta phải sử dụng trọng số.
Trọng số
• Với ví dụ trên, thì phân tầng nhóm sinh viên
dân tộc kinh sẽ có trọng số là 38 và sinh viên
dân tộc thiểu số sẽ có trọng số là 2.
Ví dụ
• Tổng thể: 2500 hộ gia đình thuộc nhóm nghèo
và 1200 hộ gia đình thuộc nhóm giàu.
• Một cuộc điều tra được thực hiện với 2 phân
tầng: phân tầng hộ giàu và phân tầng hộ
nghèo.
• Mỗi phân tầng lựa chọn 100 hộ gia đình.
• Mẫu đã lựa chọn nhiều hơn so với tỷ lệ của
phân tầng hộ giàu.
Ví dụ
• Nếu chúng ta tính trung bình thu nhập của hộ
gia đình theo mẫu thì thu nhập quá cao so với
thực tế.
• Để ước lượng thu nhập trung bình của dân cư
không bị sai lệch, chúng ta cần gia trọng khu
vực hộ giàu thấp ít hơn khu vực hộ nghèo.
• Việc này có thể thực hiện dễ dàng với Stata.
Ví dụ.
• Giả thiết rằng, trung bình thu nhập của nhóm hộ nghèo là
12000$, và của nhóm hộ giàu là 25000$.
• Trung bình thu nhập không có trọng số:
{100 x 12000$+100 x 25000$}/200=$18,500
• Trung bình có trọng số:
- Trọng số nhóm hộ nghèo: W1= 2500/100=25
- Trọng số nhóm hộ giàu: W2= 1200/100=12
- {100 x 1200$ x 25 + 100 x 2500$ x 12}/ {100 x 25+ 100 x 12}=
16,216.20$
• Chúng ta có thể thấy rằng thực hiện gia trọng sẽ chính xác hơn so
với thực tế vì trong mẫu có quá nhiều hộ thuộc phân tầng hộ
giàu.
Bài tập
Một cuộc khảo sát các nhà đầu tư chứng
khoán với số lượng là 1000 nhà đầu tư. Thu
được kết quả như sau:
100 nhà đầu tư có vốn <100 triệu đồng.
300 nhà đầu tư có vốn từ 100-500tr đồng.
600 nhà đầu tư cố vốn từ 500tr trở lên.
Bài tập
• Khi lấy thông tin từ ủy ban chứng khoán quốc
gia thì thấy tỷ lệ phân bố như sau:
• 20% nhà đầu tư có vốn < 100tr đồng
• 60% nhà đầu tư có vốn 100-500tr đồng.
• 20% nhà đầu tư có vốn > 500tr đồng.
• Hãy tính trọng số kết quả thu được để số liệu
phù hợp với thực tế?