Data Analysis Using R: Introduction to the R language

Download Report

Transcript Data Analysis Using R: Introduction to the R language

Data Analysis Using R:
4. Design of experiments
Tuan V. Nguyen
Garvan Institute of Medical Research,
Sydney, Australia
Overview
•
•
•
•
•
Terminology
Principles of experimental design
Single-factor design
Two-factor design
Randomization
Terminology
• Đơn vị nghiên cứu (experimental unit)
– Đối tượng nghiên cứu
•
•
•
•
Yếu tố can thiệp (factors)
Mức độ can thiệp (treatment levels)
Nhóm (block)
Tiêu chí (response variable)
Một ví dụ về thí nghiệm cảm quan
•
•
•
30 khách hàng: nam và nữ, tuổi 20-50
Thử 3 loại cà phê: A, B, C
Nhóm I, II, III
– Nhóm I: 10 người thử A và B
– Nhóm II: 10 người thử B và C
– Nhóm III: 10 người thử A và C
•
Vị đắng được đo bằng likert scale
•
•
•
•
Đơn vị nghiên cứu:
Yếu tố can thiệp:
Nhóm:
Tiêu chí:
Ba nguyên tắc của một thí nghiệm
• Ngẫu nhiên hóa (randomization)
– Đảm bảo tính hợp lí của nghiên cứu và phân tích thống
kê, quân bình hóa các yếu tố can thiệp
• Lặp lại nhiều lần (replication)
– Đảm bảo khoa học tính
• Phân nhóm (blocking)
– Giảm độ dao động trong từng nhóm
Những yếu tố cần quan tâm
• Hiệu ứng placebo
– 35% các thuốc có hiệu quả là do hiệu ứng placebo
• Hiệu ứng Hawthorne
– Quen thuộc với sản phẩm
• Bảo mật
– Giữ kín danh tính tình nguyện viên
– Khách quan trong đánh giá (blinding)
Nguyên lí thí nghiệm: một ví dụ
• Nghiên cứu:
– Sinh tố C cho điều trị cảm cúm
– 50 đối tượng tình nguyện
– Nên thiết kế như thế nào ?
• Phương án 1.
– Cho 50 người uống sinh tố C trong vòng 6 tháng
– Ghi nhận số lần cảm cúm.
– Kết quả: tần số cảm cúm trung bình là 1.4 lần / đối tượng.
• Phương án 2.
– Chia 50 người thành 2 nhóm nam và nữ.
– Cả hai nhóm được điều trị bằng sinh tố C trong vòng 6 tháng.
– Tần số cảm cúm trung bình trong nhóm nam là 1.4 lần / đối
tượng, còn nhóm nữ tần số này là 1.9 lần / đối tượng.
Nguyên lí thí nghiệm: một ví dụ
•
Phương án 3.
– Ngẫu nhiên chia thành 2 nhóm và điều trịi 6 tháng:
• 25 người nhóm sinh tố C
• 25 người nhóm placebo
– Kết quả: tần số cảm cúm trung bình trong nhóm 1 là 1.4 lần / đối tượng,
còn nhóm placebo là 1.9 lần / đối tượng .
Nhóm 1
Sinh tố C
Nhóm 2
Giả dược
50 người
Nguyên lí thí nghiệm: một ví dụ
• Phương án 4.
– Sản xuất 50 hộp thuốc sinh tố C, và 50 hộp giả dược sinh tố C.
– Ngẫu nhiên chia thành 2 nhóm 50 người thành 2 nhóm
• 25 người nhóm sinh tố C
• 25 người nhóm placebo.
– Tần số cảm cúm trung bình trong nhóm 1 là 1.4 lần / đối tượng,
còn nhóm đối chứng là 1.4 lần / đối tượng
Sinh tố C
So sánh tần
số cảm cúm
Nam
Giả dýợc
50 người
Sinh tố C
So sánh tần
số cảm cúm
Nữ
Giả dýợc
Thí nghiệm với một yếu tố
(single-factor designs)
• Nghiên cứu ảnh hưởng của phân bón đến sự tăng
trưởng của lúa.
• Ba liều lượng urê được sử dụng (thấp, trung bình, và
cao).
• Chọn 6 địa điểm (A, B, C, D, E, và F)
• Mỗi địa điểm có 3 mảnh đất để thí nghiệm (1, 2, 3).
Completely randomized design
Địa điểm
Mảnh đất 1
Mảnh đất 2
Mảnh đất 3
A
Low
High
Low
B
Medium
Medium
High
C
High
Medium
Low
D
Medium
Low
High
E
Medium
Low
Medium
F
Low
High
High
Randomized block design
Địa điểm
Mảnh đất 1
Mảnh đất 2
Mảnh đất 3
A
Low
High
Medium
B
Medium
Low
High
C
High
Medium
Low
D
Medium
Low
High
E
High
Low
Medium
F
Low
High
Medium
Incomplete block design
Địa điểm
Mảnh đất 1
Mảnh đất 2
A
Low
High
B
Medium
Low
C
High
Medium
D
Medium
Low
E
High
Low
F
Low
High
Two-factor designs: CRD
Ảnh hưởng của nhiệt độ (thấp và cao), vật liệu (A và B), và phương
pháp sản xuất (cơ khí và hóa chất) đến độ mạnh của giấy.
Nhóm can thiệp
Nhiệt độ
Vật liệu
Phương pháp
1
Thấp
A
Cơ khí
2
Cao
A
Cơ khí
3
Thấp
B
Cơ khí
4
Thấp
A
Hóa chất
Two-factor designs: Factorial design
Ảnh hưởng của nhiệt độ (thấp và cao), vật liệu (A và B), và phương
pháp sản xuất (cơ khí và hóa chất) đến độ mạnh của giấy.
Nhóm can thiệp
Nhiệt độ
Vật liệu
Phương pháp
1
Thấp
A
Cơ khí
2
Cao
A
Cơ khí
3
Thấp
B
Cơ khí
4
Thấp
B
Cơ khí
5
Thấp
A
Hóa chất
6
Cao
A
Hóa chất
7
Thấp
B
Hóa chất
8
Thấp
B
Hóa chất
Latin square design
So sánh hiệu suất của (đo bằng cây số - km - trên mỗi lít) 4 loại dầu (A,
B, C và D). Công ti có được 4 tài xế và 4 loại xe.
Tài xế
Loại xe
Ford
Toyota
Honda
Nissan
1
D
B
C
A
2
B
C
A
D
3
C
A
D
B
4
A
D
B
C
Phương pháp ngẫu nhiên hóa
T1
T2
T3
n=3
n=2
n=3
•
Trước hết, chúng ta lập danh sách 8 đối tượng:
T1 T1 T1 T2 T2 T3 T3 T3
•
Dùng hàm sample để chọn ngẫu nhiên (sample(1:8) có chức năng tạo ra
một dãy số ngẫu nhiên từ 1 đến 8):
> sample(1:8)
[1] 7 2 5 4 1 8 6 3
•
Nhập hai dãy số với nhau, chúng ta có:
T1 T1 T1 T2 T2 T3 T3 T3
7 2 5 4 1 8 6 3