BAI 2. THU THAP DU LIEU

Download Report

Transcript BAI 2. THU THAP DU LIEU

BÀI 2: THU THẬP DỮ LIỆU
1
Các khái niệm cơ bản trong chọn mẫu




2
Đám đông (population): là tập hợp tất cả các đối tượng nghiên
cứu mà nhà nghiên cứu cần nghiên cứu để thỏa mãn mục đích
và phạm vi nghiên cứu của mình
Đám đông nghiên cứu (study population). Trong thực tiễn,
thường ta không biết chính xác các phần tử của đám đông. Quy
mô của đám đông mà ta có thể có được để thực hiện nghiên
cứu gọi là đám đông nghiên cứu
Phần tử (element): là đối tượng cần thu thập dữ liệu, thường gọi
là đối tượng nghiên cứu. Là đơn vị nhỏ nhất của đám đông và là
đơn vị cuối cùng của quá trình chọn mẫu. Số lượng phần tử
trong đám đông thường ký hiệu là N, và của mẫu là n
Đơn vị (sampling unit): Những nhóm có được sau quá trình chia
nhỏ đám đông được gọi là các đơn vị mẫu. Đơn vị cuối cùng có
thể chia nhỏ được của mẫu chính là phần tử mẫu.
Ví dụ: chia tỉnh/tp, quận, huyện, phường/xã, hộ gia đình
Các khái niệm cơ bản trong chọn mẫu


Khung mẫu (sampling frame): là danh sách
liệt kê dữ liệu cần thiết của tất cả các đơn vị
và phần tử của đám đông để thực hiện công
việc chọn mẫu
Hiệu quả chọn mẫu (sampling efficiency)
–
–
3
Hiệu quả thống kê  sai số chuẩn nhỏ hơn (khi 2
mẫu cùng kích thước)
Hiệu quả kinh tế  chi phí thu thập dữ liệu của
mẫu với một độ chính xác mong muốn nào đó
Quy trình chọn mẫu





4
Xác định đám đông nghiên cứu
Xác định khung mẫu
Xác định kích thước mẫu
Chọn phương pháp chọn mẫu
Tiến hành chọn
Xác định đám đông nghiên cứu


5
Là khâu đầu tiên trong quá trình
Việc xác định đã được tiến hành khi thiết kế
nghiên cứu, vì họ đã xác định đối tượng cần
thu thập dữ liệu, đối tượng có nguồn dữ liệu
cần thiết
Xác định khung mẫu



6
Ví dụ: xác định khung mẫu là danh sách liệt
kê các người tiêu dùng bia tại TPHCM có độ
tuổi từ 18-45 bao gồm: họ tên, địa chỉ, độ
tuổi…
Để có thể xác định và tiếp cận được họ
nhằm thu thập dữ liệu
Khi nguồn dữ liệu thứ cấp để xác định khung
mẫu chưa có, xác định được khung mẫu
cũng cũng khó khăn và tốn kém
Xác định kích thước mẫu
Làm thế nào để xác định cỡ mẫu?



7
Một cách đơn giản và dễ nhất là dựa vào các
nghiên cứu có cùng nội dung đã được thực hiện
trước đó để lấy mẫu.
Có thể hỏi ý kiến các chuyên gia, những người
có kinh nghiệm thực hiện các dự án điều tra
khảo sát.
Có thể tính toán theo công thức tính mẫu.
Công thức tính cỡ mẫu

Trường hợp tổng thể lớn và không biết tổng thể.
2
z (p.q)
n
2
e
Trong đó:
n = là cỡ mẫu
z = giá trị phân vị chuẩn
p = là ước tính tỷ lệ % của tổng thể
q = 1-p
(thường tỷ lệ p và q được ước tính 50% và 50% đó
là khả năng lớn nhất có thể xảy ra của tổng thể)
8 e = sai số cho phép (±3%, ±4%, ±5%...)

Ví dụ


9
Tính cỡ mẫu của một cuộc trưng cầu ý kiến
trước một cuộc bầu cử với độ tin cậy là 95%.
sai số cho phép là nằm trong khoảng +5%.
Giả định p*q lớn nhất có thể xảy ra là
0.5*0.5.
Cỡ mẫu sẽ được tính là:

Trường hợp tổng thể lớn và biết tổng thể.
 1 N 1 1  k 


n 
N P.Q  z1 / 2 
 N
2 1



Trong đó:
 N = số lượng đơn vị trong tổng thể.
 P = tỷ lệ tổng thể.
 Q = 1-P,
10  k = sai số cho phép.

Trường hợp tổng thể nhỏ và biết được tổng thể
Trong đó:
n là cỡ mẫu,
N là số lượng tổng thể,
e là sai số chuẩn

11
Ví dụ
Tính cỡ mẫu của một cuộc điều tra với
Tổng thể là N = 2000, độ chính xác là 95%, sai
số tiêu chuân là +- 5%.
-- cỡ mẫu sẽ được tính là:

12
Bảng cỡ mẫu
Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và
±10% Độ tin cậy là 95% và P=0.5.
Cỡ của
tổng thể
Cỡ mẫu(n) với sai số cho phép :
±3%
±5%
±7%
±10%
500
*
222
145
83
600
*
240
152
86
700
*
255
158
88
800
*
267
163
89
900
*
277
166
90
1,000
*
286
169
91
714
333
185
95
13 2,000
Bảng cỡ mẫu (tiếp)
Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và ±10% Độ
tin cậy là 95% và P=0.5.
14
Cỡ của tổng Cỡ mẫu(n) với sai số cho phép :
thể
±3%
±5%
±7%
±10%
3,000
811
353
191
97
4,000
870
364
194
98
5,000
909
370
196
98
6,000
938
375
197
98
7,000
959
378
198
99
8,000
976
381
199
99
9,000
989
383
200
99
Bảng cỡ mẫu (tiếp)
Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và ±10% Độ
tin cậy là 95% và P=0.5.
15
Cỡ của tổng
thể
Cỡ mẫu(n) với sai số cho phép :
±3%
±5%
±7%
±10%
10,000
1,000
385
200
99
15,000
1,034
390
201
99
20,000
1,053
392
204
100
50,000
1,087
397
204
100
100,000
1,099
398
204
100
>100,000
1,111
400
204
100
Các phương pháp chọn mẫu
Theo xác suất
(Probability sampling)
 Ngẫu nhiên đơn giản
Phi xác suất
(Non-probability sampling)
 Thuận tiện
(simple random sampling)
(convenience sampling)

Hệ thống
(systematic sampling)

Phân tầng (theo tỷ lệ, không
theo tỷ lệ)
(stratified sampling)

Theo nhóm (một bước, hai
bước…)
(cluster sampling)
16

Phán đoán
(judgment sampling)

Phát triển mầm
(snowball sampling)

Định mức/Hạn ngạch
(quota sampling)
Điều quan tâm khi chọn phương pháp



17
Mục tiêu nghiên cứu
Tính tổng quát hóa của kết quả nghiên cứu
Thời gian và chi phí
Các phương pháp chọn mẫu
Theo xác suất
(Probability sampling)
 Tính đại diện cao
 Tổng quát hóa cho đám
đông
 Tốn kém thời gian và
chi phí
 Thường dùng cho các
nghiên cứu chính thức
18
Phi xác suất
(Non-probability sampling)




Tiết kiệm được thời gian và
chi phí
Tính đại diện thấp
Không tổng quát hóa cho
đám đông
Thường dùng cho các
nghiên cứu sơ bộ, khám phá
Thu thập dữ liệu sơ cấp
bằng bảng câu hỏi
19
Thu thập dữ liệu sơ cấp qua khảo sát
bằng bảng câu hỏi chính







20
Xác định cụ thể dữ liệu cần thu thập
Xác định dạng phỏng vấn
Đánh giá nội dung câu hỏi
Xác định hình thức trả lời
Xác định cách dùng thuật ngữ
Xác định cấu trúc bảng câu hỏi
Thử lần 1 sửa chữabản nháp cuối cùng
Bước 1. Xác định cụ thể dữ liệu cân
thu thập


21
Liệt kê đầy đủ và chi tiết các dữ liệu cần thu
thập
Dựa vào vấn đề nghiên cứu và nhu cầu
thông tin để thiể kế các câu hỏi cho việc thu
thập các thông tin này
Bước 2. Xác định dạng phỏng vấn





22
Phỏng vấn trực diện (trực tiếp)
Phỏng vấn qua điện thoại
Phỏng vấn bằng cách gửi thư
Phỏng vấn qua mạng Internet
Phát ra cho người trả lời điền vào bảng hỏi
rồi thu lại
Đánh giá nội dung câu hỏi
23
Nội dung câu hỏi có ảnh hưởng đến khả năng hợp tác
của người trả lời  tạo điều kiện cho họ mong muốn
tham gia và trả lời trung thực
 Người trả lời có hiểu câu hỏi không?
 Họ có thông tin không?
 Họ có cung cấp thông tin không?
 Thông tin họ cung cấp có đúng là dữ liệu cần thu thập
không?
Ví dụ: thay vì hỏi “bạn bao nhiêu tuổi”, hay “thu nhập của
bạn là bao nhiêu”… thì có thể hỏi “trong các nhóm tuổi
sau đây, bạn thuộc nhóm tuổi nào?...” nếu ta không cần
biết chính xác tuổi của họ
Xác định hình thức trả lời

Câu hỏi đóng
–
–
–
Chọn một lựa chọn
Xếp hạng
Câu hỏi nhiều lựa chọn
Câu hỏi mở
- câu hỏi cho câu trả lời tự do
“Lý do nào bạn thích sử dụng dầu gội 2 trong 1?”
- câu hỏi đào sâu
“và còn gì nữa”

24
Xác định cách dùng thuật ngữ






25
Dùng từ đơn giản và quen thuộc
Tránh câu hỏi dài dòng. Từ ngữ càng chi tiết, cụ thể và rõ
ràng càng tốt. Không nên lạm dụng câu hỏi quá dài, tối
nghĩa. Khi dùng 1 từ cần xem xét nó có nghĩa nào khác
có thể làm cho người trả lời hiểu nhầm.
Tránh câu hỏi cho hai hay nhiều trả lời cùng một lúc. Ví
dụ “kem Kido’s có ngon và bổ dưỡng không?”
Tránh câu hỏi gợi ý kích thích người trả lời phản xạ theo
hướng đã dẫn trong câu hỏi. Ví dụ “bạn có đồng ý rằng
sữa đặc có đường thương hiệu Cô Gái Hà Lan là loại
sữa có chất lượng cao nhất không?”
Tránh câu hỏi có thang trả lời không cân bằng
Tránh câu hỏi bắt người trả lời phải ước đoán. Vd “Bạn
mua bao nhiêu cục xà bông tắm trong năm qua?”
Xác định trình tự các câu hỏi
Một bảng câu hỏi chia thành nhiều phần, thông thường:
 Phần gạn lọc(screening): để chọn người trả lời trong
đám đông nghiên cứu. Có khi là một phần riêng biệt
được sử dụng để gạn lọc trước khi phỏng vấn thực
thụ
 Phần chính
 Phần về dữ liệu cá nhân người trả lời (biodata)
26
Xác định hình thức bảng câu hỏi


27
Hình thức đẹp dễ nhận được sự hợp tác của
người trả lời
Các phần của bảng hỏi nên được trình bày
riêng biệt, có thể thông qua giấy màu khác
nhau…
Thử lần thứ nhất chỉnh sửa bản
nháp cuối cùng



28
Để có bảng hỏi tốt, khi thiết kế xong, cần thử nhiều lần (pilot
study)
Lần thử đầu tiên (pretest, alpha test) được thực hiện thông qua
phỏng vấn, tham khảo ý kiên một số thành viên nghiên cứu khác
trong công ty và điều chỉnh lại  bản nháp cuối cùng
Bản nháp này lại được qua lần thử thứ hai (beta test) qua phỏng
vấn thử đối tượng nghiên cứu thực sự trong đám đông nghiên
cứu. Tuy nhiên, mục đích không phải là để thu thập dữ liệu mà là
để đánh giá bảng hỏi.
– Họ hiểu có đúng câu hỏi không?
– Họ có thông tin không?
– Hỏi như vậy họ có chịu cung cấp thông tin không?
– Thông tin họ cung cấp có đúng là thông tin cần thiết không?
Sau khi hiệu chỉnh bảng hỏi ở lần thứ 2 này  bảng hỏi hoàn
chỉnh
Sau khi phỏng vấn

29
Hiệu chỉnh dữ liệu
-Hiệu chỉnh tại hiện trường: phỏng vấn viên phải
hiệu chỉnh ngay khi kết thúc phỏng vấn (câu bị bỏ
sót, cần hỏi lại ngay; hoàn chỉnh các ký hiệu viết tắt,
những gì chưa điền kịp)
-Giám sát viên kiểm tra (tính hoàn tất, tính hợp lý
giữa các câu hỏi, tính rõ ràng của các câu trả lời,
tính nghiêm túc trong quá trình phỏng vấn của PV
viên) & hiệu chỉnh lại
- Hiệu chỉnh tại trung tâm: do bộ phận xử lý dữ liệu
thực hiện trước khi nhập liệu cho việc xử lý.
Nguyên nhân gây sai sót trong thu
thập dữ liệu



30
Thiết kế bảng hỏi không đạt yêu cầu. Đặc biệt là sử
dụng thuật ngữ gây nhầm lẫn, câu hỏi không rõ
ràng, hình thức trình bày không thống nhất, dễ gây
nhầm lẫn cho PVV sai lệch khi PV. Vì vậy cần
kiểm tra kỹ lưỡng trong hai lần thử để điều chỉnh
giúp giảm sai sót trong thiết kế.
Hướng dẫn PVV không kỹ lưỡng, đặc biệt là do chủ
quan, không kiểm tra PVV để xác định họ đã hiểu tất
cả các câu hỏi, đã nắm vững kỹ thuật, trợ vấn cụ
hay chưa…
Kỹ thuật phỏng vấn kém do PVV thiếu kinh nghiệm,
chủ quan, không chịu rèn luyện.
Gợi ý



31
Huấn luyện, hướng dẫn PVV thực tập trước khi
phỏng vấn thực thụ.
Sau khi được hướng dẫn xong, PVV thử phỏng vấn
giám sát viên. Nếu có sai sót trong việc hiểu câu hỏi,
kỹ thuật phỏng vấn … cần điều chỉnh, hướng dẫn lại
ngay
Sau khi được hướng dẫn lại, PVV thử phỏng vấn đối
tượng nghiên cứu. Lần PV này cũng nhằm kiểm tra
kỹ năng PV của PVV. Trong lần này các giám sát
viên cần theo dõi chặt chẽ quá trình PV nhằm phát
hiện các sai sót, kỹ năng PV để có những biện pháp
điều chỉnh kịp thời.
Chuẩn bị dữ liệu



Mã hóa dữ liệu (tên biến, mã giá trị)
Nhập dữ liệu vào máy tính
Làm sạch dữ liệu
–
–
32
Các ô trống (có thể sai sót do trong quá trình thu
thập – người trả lời không trả lời, hay có PV
nhưng quên ghi kết quả; hoặc sai sót do nhập
liệu-quên nhập)
Trả lời không hợp lý (có thể sai sót trong quá trình
nhập) bảng tần số, min max