Bài giảng thống kê mô tả, kiểm định

Transcript Bài giảng thống kê mô tả, kiểm định

Phân tích thống kê mô tả
Nguyễn Văn Tuấn
Nguyễn Đình Nguyên
Garvan Institute of Medical Research,
Sydney, Australia
Tổng quan
•
•
•
•
•
Đo lường
Quần thể và mẫu nghiên cứu
Tóm tắt số liệu: trung bình, phương sai, độ lệch chuẩn
Phân tích biểu đồ
Hoán chuyển dữ liệu
Thang đo lường
• Nhìn chung, các số liệu
quan sát được đều có thể
lượng hoá bằng thang tỷ lệ
(ratio)
• Các số liệu đinh tính thường
đo lường bằng các khoảng
(interval)
• Ở đây chúng ta sẽ chú trọng
hai loại số liệu chính là số
liệu phân nhóm so với số
liệu phân bố liên tục
(ordinal, interval, ratio)
Biến
Phân nhóm
Liên tục
thứ tự
Theo khoảng
tỷ lệ
Đo lường trình tự
• Trình tự (Ordinal): Designates an ordering; quasi-ranking
– Các khoảng giữa các vị trí không nhất thiết bằng nhau.
– Sắp xếp theo thứ tự
Thứ nhất
1
2
Thứ hai Thứ 3
3
4
Thứ 4
5
6
7
8 giờ
Khoảng và Tỷ lệ
• Khoảng (interval): Sắp xếp thành từng khoảng bằng
nhau
– Khoảng cách giữa từng đoạn luôn bằng nhau
– Thí dụ: Các test IQ thông thường luôn sắp thành những
khoảng bằng nhau
• Tỷ lệ (ratio): Sắp xếp thành những khoảng cách bằng
nhau theo trình tự bao gồm cả giá trị 0
Thống kê: Ước lượng giá trị chưa biết
Quần thể
Mẫu
Thông số
Ước số
Quần thể
Mẫu 3
Mẫu 1
Mẫu 2
Ước tính trung bình quần thể
Chiều cao trung bình của quần thể = 160 cm
Độ lệch chuẩn = 5.0 cm
ht1 <- rnorm(10, mean=160, sd=5)
n mean
10 161.5
sd
4.5
ht2 <- rnorm(100, mean=160, sd=5)
100 160.4
5.2
ht3 <- rnorm(1000, mean=160, sd=5)
1000 160.1
5.0
10000 160.1
5.0
ht4 <- rnorm(10000, mean=160, sd=5)
Nhận xét: Cỡ mẫu càng lớn, ước lượng càng chính xác
Ước tính tỷ lệ trong quần thể
Tỷ lệ nam giới trong quần thể = 0.50
Lấy ra một cỡ mẫu n ngưòi, mỗi lần lấy ra k người. Ghi nhận lại số nam
giới trong mỗi lần lấy đó
rbinom(n, k, prob)
Tỷ lệ nam giới ghi nhận (p)
males <- rbinom(10, 10, 0.5)
0.600
males <- rbinom(100, 20, 0.5)
0.507
males <- rbinom(1000, 100, 0.5)
0.500
Nhận xét: Cỡ mẫu càng lớn, ước lượng càng chính xác
Tóm tắt một biến số liên tục
• Đo độ tập trung:
– Trung bình (mean), trung tuyển (median), trung vị (mode)
• Đo độ tán xạ hay dao động:
– Phương sai, độ lệch chuẩn, sai số chuẩn
– Miền giữa hai khoảng tứ phân vị (interquartile range)
Lệnh trong R
Basic
length(x), mean(x), median(x), var(x), sd(x)
summary(x)
Package
Library(pastecs)
Stat.desc(object)
Ví dụ R
set.seed (7438); height <- rnorm(1000, mean=55, sd=8.2)
mean(height)
[1] 54.8017
median(height)
[1] 54.90927
var(height)
[1] 65.80294
sd(height)
[1] 8.111901
summary(height)
Min. 1st Qu.
31.02
49.72
Median
54.91
Library(pastecs)
stat.desc(height)
nbr.val
nbr.null
1000.00
0.00
range
sum
47.88
54801.70
CI.mean.0.95
var
0.50
65.80
Mean 3rd Qu.
54.80
60.10
nbr.na
0.00
median
54.91
std.dev
8.11
Max.
78.91
min
31.02
mean
54.80
coef.var
0.15
max
78.91
SE.mean
0.26
Tóm tắt bằng biểu đồ: Biểu đồ hộp
80
boxplot(height)
75% percentile
Median, 50% perc.
25% percentile
40
50
60
70
95% percentile
30
5% percentile
Biểu đồ chuỗi
30
40
50
60
70
80
Giản đồ cột
150
100
50
0
Frequency
200
250
Histogram of height
30
40
50
60
height
70
80
90
Vai trò của trung bình và độ lệch chuẩn
• “Trong quần thể người Việt nam ở tuổi 30 trở lên, cân
nặng trung bình là 55 kg và độ lệch chuẩn là 8.2 kg.”
• Hai con số này có nghĩa là gì?
• 68% số người trong lứa tuổi này sẽ có cân nặng nằm
trong khoảng từ 55 +/- 8.2*1 = 46.8 đến 63.2 kg
• 95% số người trong lứa tuổi này sẽ có cân nặng nằm
trong khoảng từ 55 +/- 8.2*1.96 = 38.9 đến 71.1 kg
Vai trò của trung bình và độ lệch chuẩn
• Phân bố về cân nặng của quần thể đó có thể biểu diễn
bằng giản đồ cột:
1.96SD
6
1SD
Percent (%)
5
4
3
2
1
0
22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 92
Weight (kg)
Tóm tắt số liệu phân nhóm
• Số liệu phân nhóm:
– Giới tính: nam, nữ
– Chủng tộc: Á, da trắng, Phi…
• Số liệu bán định lượng:
– Mức độ nặng của bệnh: nhẹ, trung bình, nặng
– Các giai đoạn ung thư: I, II, III, IV
– Sở thích: rất ghét, không thích, bình thường, thích, rất
thích
Trung bình và phương sai của tỷ lệ
• Đối với một người bệnh i, xác suất cho người này hài
lòng với cuộc sống sau mổ là pi. Giả định các bệnh
nhân sau mổ một loại bệnh nào đó là độc lập với nhau
thì pi = p.
• Phương sai của pi là var(pi) = p(1-p)
• Do đó có một mẫu n bệnh nhân sau mổ một loại bệnh,
xác suất cho bệnh nhân hài lòng với cuộc sống sau
mổ được tính là:
p1  p 2  p 3  ...  p n
p 
n
Và khi đó phương sai của p_bar là:
var  p  
p 1  p 
n
Xấp xỉ phân phối chuẩn của một
phân phối nhị thức
• Đối với một người bệnh i, xác suất cho người này hài
lòng với cuộc sống sau mổ là pi. Giả định các bệnh
nhân sau mổ một loại bệnh nào đó là độc lập với nhau
thì pi = p.
• Phương sai của pi là var(pi) = p(1-p)
Do đó có một mẫu n bệnh nhân sau mổ một loại bệnh, xác suất cho
bệnh nhân hài lòng với cuộc sống sau mổ được tính là:
p1  p 2  p 3  ...  p n
p 
n
Và khi đó phương sai của p_bar
là:
Và độ lệch chuẩn:
var  p  
s 
p 1  p 
n
p 1  p 
n
Ví dụ
• 10 người mổ, 8 người hài lòng chất lượng cuộc sống.
• Tỷ lệ hài lòng: p = 0.8
• Phương sai: var(p) = 0.8(0.2)/10 = 0.016
• Độ lệch chuẩn của p: s = 0.126
• 95% CI của p: 0.8 + 1.96(0.126) = 0.55 đến 1.00
Phân tích mô tả số liệu biến liên tục
Paired t-test
• Giả định:
– Biến liên tục
– Phân phối chuẩn
– Hai mẫu KHÔNG độc lập với nhau
Paired t-test – ví dụ
• Vấn đề: Để xem độ sai lệch giữa hai cân. 12 bệnh nhi
được yêu cầu cân làm hai lần, mỗi lần với một cân khác
nhau, và kết quả thu được như sau:
Results:
BN
1
2
3
4
5
6
7
8
9
10
11
12
Cân1
20
18
19
22
17
20
19
16
21
17
23
18
Cân2
22
19
17
18
21
23
19
20
22
20
27
24
Paired t-test
• Khác biệt trung bình D = x1-x2
• Phương sai của D:
• T-statistics:
var( D ) 
sd D
n
T 
D
var( D )
• Tra bảng T với (n-1) bậc tự do
• T >2 có ý nghĩa thống kê (p <0.05)
Paired t-test – phân tích
Cân1
Cân2
Khác biệt
1
20
22
2
Mean difference: 1.83, SD: 2.82
2
18
19
1
Standard error (SE):
3
19
17
-2
4
22
18
-4
5
17
21
4
6
20
23
3
7
19
19
0
8
16
20
4
9
21
22
1
10
17
20
3
11
23
27
4
12
18
24
6
Mean
21.0
19.2
1.83
SD
2.8
2.1
2.82
BN
SD/sqrt(n) = 2.82/sqrt(12) = 0.814
T-test = (1.83 – 0)/0.814 = 2.248
P-value = 0.0459
Kết luận: Có sự khác biệt có ý
nghĩa thống kê về số đo khi cân
một bệnh nhân bằng hai cân khác
nhau.
Paired t-test – Phân tích bằng R
can1 < -c(20,18,19,22,17,20,19,16,21,17,23,18)
can2 < -c(22,19,17,18,21,23,19,20,22,20,27,24)
t.test(can1, can2, paired=TRUE)
data: red and white
t = -2.2496, df = 11, p-value = 0.04592
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
-3.6270234 -0.0396433
sample estimates:
mean of the differences
-1.833333
Two-sample t-test (unpaired t-test)
Khác biệt trung bình:
D=x–y
Mẫu
1
2
3
4
5
…
n
Nhóm 1 Nhóm 2
x1
y1
x2
y2
x3
y3
x4
y4
x5
y5
…
xn
yn
Cỡ mẫu
n1
n2
Trung bình
x
y
SD
sx
sy
Phương sai của D:
T-statistic:
95% Confidence interval:
Một ví dụ về so sánh hai nhóm độc lập
Chiều cao trung bình (cm) của hai nhóm trẻ ở vùng nông thôn (A) và thành thị (B)
N
Mean
SD
A
100
108
119
127
132
135
136
164
B
122
130
138
142
152
154
176
8
127.6
19.6
7
144.9
17.8
Khác biệt về trung bình:
d = 127.6 – 144.9 = -17.3
Phương sai của khác biệt:
T-statistic:
95% Khoảng tin cậy:
Ví dụ thực hành: so sánh hai nhóm
20 trẻ nam và nữ trong nghiên cứu có tuổi lần lượt là:
ID
1
2
3
4
5
6
7
8
9
10
Nam
3
7
1
9
3
4
1
2
6
7
Nu
3
1
2
4
5
2
2
5
3
2
ID
11
12
13
14
15
16
17
18
19
20
Nam Nu
5
3
8
4
5
2
9
3
4
5
6
4
4
3
3
1
9
3
5
2
Unpaired t-test trong R
nam<-c(3,7,1,9,3,4,1,2,6,7,5,8,5,9,4,6,4,3,9,5)
nu<-c(3,1,2,4,5,2,2,5,3,2,3,4,2,3,5,4,3,1,3,2)
t.test(nam, nu)
Welch Two Sample t-test
data: a and b
t = 3.3215, df = 27.478, p-value = 0.002539
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
0.8037895 3.3962105
sample estimates:
mean of x mean of y
5.05
2.95
Kết luận: Có sự khác biệt có ý nghĩa thống kê của các trị số trung bình tuổi của
hai nhóm giới tính, trong đó nam có tuổi trung bình lớn hơn nữ
Hoán chuyển số liệu: hiệu ứng nhân
• Số liệu dưới đây là lượng lysozyme trong dịch dạ dày của 29 bệnh
nhân bị loét dạ dày và của 30 người chứng. Liệu có sự khác nhau
về lượng lysozyme trong dịch dạ dày của hai nhóm này không?
Nhóm bệnh:
0.2 0.3 0.4 1.1 2.0 2.1 3.3 3.8 4.5 4.8 4.9 5.0 5.3 7.5
9.8 10.4 10.9 11.3 12.4 16.2 17.6 18.9 20.7 24.0 25.4 40.0
42.2 50.0 60.0
Nhóm chứng:
0.2 0.3 0.4 0.7 1.2 1.5 1.5 1.9 2.0 2.4 2.5 2.8 3.6 4.8 4.8 5.4
5.7 5.8 7.5 8.7 8.8 9.1 10.3 15.6 16.1 16.5 16.7 20.0 20.7
33.0
Unpaired t-test , sử dụng R
g1 <- c( 0.2, 0.3, 0.4, 1.1, 2.0, 2.1, 3.3, 3.8,
4.5, 4.8, 4.9, 5.0, 5.3, 7.5, 9.8, 10.4,
10.9, 11.3, 12.4, 16.2, 17.6, 18.9, 20.7,
24.0, 25.4, 40.0, 42.2, 50.0, 60)
g2 <- c(0.2, 0.3, 0.4, 0.7, 1.2, 1.5, 1.5, 1.9, 2.0,
2.4, 2.5, 2.8, 3.6, 4.8, 4.8, 5.4, 5.7, 5.8,
7.5, 8.7, 8.8, 9.1, 10.3, 15.6, 16.1, 16.5,
16.7, 20.0, 20.7, 33.0)
t.test(g1, g2)
data: g1 and g2
t = 2.0357, df = 40.804, p-value = 0.04831
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
0.05163216 13.20239083
sample estimates:
mean of x mean of y
14.310345 7.683333
Khảo sát số liệu
P <-par(mfrow=c(1,2))
hist(g1)
hist(g2)
par(p)
15
10
5
5
= 14.3
15.7
Frequency
10
15
Histogram of g2
Frequency
0
= 7.7
7.8
0
Group 1:
mean(g1)
sd(g1) =
Group 2:
mean(g2)
sd(g2) =
Histogram of g1
0
10
20
30
g1
40
50
60
0
5
10
20
g2
30
Normal Q-Q plots
Normal Q-Q Plot
20
10
15
Sample Quantiles
40
30
20
5
10
0
0
Sample Quantiles
25
50
30
60
Normal Q-Q Plot
-2
-1
0
Theoretical Quantiles
1
2
-2
-1
0
Theoretical Quantiles
1
2
Kiểm định Shapiro-Wilk
•
•
•
Để xem phân phối có tuân theo luật chuẩn hay không.
Giả thuyết là phân phối g1, g2 tuân theo luật chuẩn (p >0.05), nếu kết
quả thu được p <0.05  không tuân theo luật chuẩn.
Cần chú ý: các test này rất nhạy nên cần phải xem xét các yếu tố khác:
độ dốc (skewness) và độ nhọn (kurtosis) của đường cong phân phối
đó.
Shapiro.test(g1)
Shapiro-Wilk normality test
data: g1
W = 0.8036, p-value = 9.697e-05
shapiro.test(g2)
Shapiro-Wilk normality test
data: g2
W = 0.8338, p-value = 0.0002888
Kiểm tra lại độ skewness (=0), kurtosis (=1)
library(fBasics)
basicStats(g1,ci=0.95)
g1
nobs
29.000000
NAs
0.000000
Minimum
0.200000
Maximum
60.000000
1. Quartile
3.800000
3. Quartile 18.900000
Mean
14.310345
Median
9.800000
Sum
415.000000
SE Mean
2.922953
LCL Mean
8.322947
UCL Mean
20.297742
Variance
247.765961
Stdev
15.740583
Skewness
1.420910
Kurtosis
1.104822
basicStats(g2,ci=0.95)
g2
nobs
30.000000
NAs
0.000000
Minimum
0.200000
Maximum
33.000000
1. Quartile
1.925000
3. Quartile 10.000000
Mean
7.683333
Median
5.100000
Sum
230.500000
SE Mean
1.433179
LCL Mean
4.752153
UCL Mean
10.614513
Variance
61.620057
Stdev
7.849844
Skewness
1.351903
Kurtosis
1.432079
Phân tích lại số liệu lysozyme: hoán chuyển
log.g1 <- log(g1)
log.g2 <- log(g2)
Normal Q-Q Plot
2
1
0
-1
2
0
4
Frequency
6
Sample Quantiles
3
8
4
Histogram of log.g1
-1
0
1
2
3
4
5
-2
-1
0
log.g1
Theoretical Quantiles
Histogram of log.g2
Normal Q-Q Plot
1
2
1
2
2
1
Sample Quantiles
0
6
4
-1
2
0
Frequency
8
3
10
-2
-2
-1
0
1
log.g2
2
3
4
-2
-1
0
Theoretical Quantiles
Kiểm tra lại độ skewness (=0), kurtosis (=1)
library(fBasics)
basicStats(log.g1,ci=0.95)
log.g1
nobs
29.000000
NAs
0.000000
Minimum
-1.609438
Maximum
4.094345
1. Quartile 1.335001
3. Quartile 2.939162
Mean
1.921094
Median
2.282382
Sum
55.711719
SE Mean
0.275081
LCL Mean
1.357615
UCL Mean
2.484572
Variance
2.194420
Stdev
1.481358
Skewness
-0.734895
Kurtosis
-0.136793
basicStats(g2,ci=0.95)
g2
nobs
30.000000
NAs
0.000000
Minimum
0.200000
Maximum
33.000000
1. Quartile
1.925000
3. Quartile 10.000000
Mean
7.683333
Median
5.100000
Sum
230.500000
SE Mean
1.433179
LCL Mean
4.752153
UCL Mean
10.614513
Variance
61.620057
Stdev
7.849844
Skewness
1.351903
Kurtosis
1.432079
Kiểm định Shapiro-Wilk
shapiro.test(log.g1)
Shapiro-Wilk normality test
data: log.g1
W = 0.938, p-value = 0.08868
shapiro.test(log.g2)
Shapiro-Wilk normality test
data: log.g2
W = 0.9555, p-value = 0.2372
Phân tích lại số liệu lysozyme
t.test(log.g1, log.g2)
data: log.g1 and log.g2
t = 1.406, df = 55.714, p-value = 0.1653
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
-0.2182472 1.2453165
sample estimates:
mean of x mean of y
1.921094 1.407559
exp(1.921-1.407) = 1.67
Trị số lysozyme của nhóm bệnh nhân cao hơn nhóm chứng 1.67 lần hay 67%,
tuy nhiên không có ý nghĩa thống kê
Phân tích mô tả số liệu phân nhóm
So sánh hai tỷ lệ - lý thuyết
Nhóm
1
2
____________________________________________
Cỡ mẫu
Số lượng dữ kiện
Tỷ lệ xuất hiện dữ kiện
n1
e1
p1
n2
e2
p2
Khác biệt:
D = p1 – p2
SE của D: SE = [p1(1–p1)/n1 + p2(1–p2)/n2]1/2
Z = D / SE
95% CI: D + 1.96(SE)
Với (n1 + n2) > 20, và nếu Z > 2, có khả năng loại bỏ giả thuyết
Kiểm định sự khác biệt giữa 2 tỷ lệ
P1 = tỷ lệ nhóm 1
P2 = tỷ lệ nhóm 2
N1= cỡ mẫu nhóm 1
N2= cỡ mẫu nhóm 2
Vietnam
Australia
N
700
1287
Loãng xương
148
345
0.211
0.268
0.000238
0.000152
Tần suất
Variance (s2)
D=p1-p2
Phương sai của d:
s 
2
p1  1  p 1 
N1
Z-test:
z 
d
s

p 2 1  p 2 
N2
d = 0.268 – 0.211 = 0.057
Phương sai của d:
s2 = 0.000238 + 0.000152 = 0.000391
z-test:
z = 0.057 / sqrt(0.00391) = 2.87
Có ý nghĩa thống kê
Ví dụ so sánh hai tỷ lệ
Phân tích
Tỷ lệ tử vong trong 30 ngày (%) của
100 con chuột cống cho phơi nhiễm với
heroin và cocaine là
Nhóm
Heroine Cocaine
Khác biệt: D = 0.90 – 0.36 = 0.54
SE (D) = [0.9(0.1)/100 +
0.36(0.64)/100]1/2
= 0.057
Z = 0.54 / 0.057 = 9.54
__________________________________________
Cỡ mẫu
Số chuột chết
Tỷ lệ chết
100
90
0.90
100
36
0.36
95% CI:
0.54 + 1.96(0.057)
0.43 to 0.65
Kết luận: Loại bỏ giả thuyết, có
nghĩa là tỷ lệ tử vong giữa hai
nhóm phơi nhiễm khác nhau có
ý nghĩa thống kê.
So sánh hai tỷ lệ sử dụng R
events <- c(90, 36)
total <- c(100, 100)
prop.test(events, total)
2-sample test for equality of proportions with
continuity correction
data: deaths out of total
X-squared = 60.2531, df = 1, p-value = 8.341e-15
alternative hypothesis: two.sided
95 percent confidence interval:
0.4190584 0.6609416
sample estimates:
prop 1 prop 2
0.90
0.36
Kiểm định khác biệt tỷ lệ trên 2 nhóm: Chi
(Kai) bình phương
Lượng cà phê tiêu thụ
Không
1150
151300
300900
Tổng
________________________________________
Tình trạng hôn nhân
Vợ chồng
Ly dị
Độc thân
Tổng
652
36
218
906
1537
46
327
1910
598
38
106
742
242
21
67
330
3029
141
718
3888
652/3029=0.22
1537/3029=0.51
598/3029=0.20
242/3029=0.08
36/141=0.26
46/141=0.33
38/141=0.27
21/141=0.15
218/718=0.30
327/718=0.46
106/718=0.15
67/718=0.09
906/3888=0.23
1910/3888=0.49
742/3888=-.19
330/3888=0.08
Tỷ lệ theo hàng
Vợ chồng
Ly dị
Độc thân
Tổng
0.22
0.26
0.30
0.23
0.51
0.33
0.46
0.49
0.20
0.27
0.15
0.19
0.08
0.15
0.09
0.08
100
100
100
100
Kiểm định khác biệt tỷ lệ trên 2 nhóm:
Chi (Kai) bình phương
Tình trạng
hôn nhân
Lượng cà phê tiêu thụ
1151300Không
150
300
900
________________________________________
Tần suất quan sát
Vợ chồng
652
1537 598
242
Ly dị
36
46
38
21
Độc thân
218
327
106
67
Tổng
906
1910 742
330
Tổng
3029
141
718
3888
3029/3888*906=705.8
3029/3888*1910=1488
3029/3888*742=578.1
3029/3888*330=257.1
141/3888*906=32.9
141/3888*1910=69.3
141/3888*742=26.9
141/3888*330=12.0
718/3888*906=167.3
718/3888*1910=352.7
718/3888*742=137.0
718/3888*330=60.9
Tình trạng
hôn nhân
Lượng cà phê tiêu thụ
1151- 300Không
150
300
900
Tổng
_______________________________________________
Tần suất kỳ vọng
Vợ chồng
705.8
1488 578.1
257.1
3029
Ly dị
32.9
69.3
26.9
12.0
141
Độc thân
167.3
352.7 137.0
60.9
718
Tổng
906
1910 742
330
3888
Test for Difference Among
Proportions
Lượng cà phê tiêu thụ
1151300Không
150
300
900
_______________________________________________
Vợ chồng
652
1537 598
242
O (quan sát)
(705.8)
(1488) (578.1) (257.1) E (kỳ vọng)
Ly dị
36
(32.9)
46
38
(69.3) (26.9)
21
(12.0)
O
E
Độc thân
218
(167.3)
327
106
67
(352.7) (137.0) (60.9)
O
E
(1537 – 1488)2 / 1488 = 1.61
(652-705.8)2 / 705.8 = 4.11
(O Vợ chồng 4.11
Ly dị
0.30
Độc thân 15.30
Tổng
19.77
1.61
7.82
1.88
11.31
….
Chisq = 51.6
E)2/E
0.69
4.57
7.02
12.28
0.89
6.82
0.60
8.31
7.30
19.51
24.86
51.66
df = 3x2=6
X2 = 1.63 for
a=0.05
So sánh tỷ lệ trên 2 nhóm –
Sử dụng R (số liệu igf)
table(sex, ethnicity)
ethnicity
sex
African Asian Caucasian Others
Female
4
43
22
0
Male
4
17
8
2
females <- c(4, 43, 22, 0)
total <- c(8, 60, 30, 2)
prop.test(females, total)
#or chisq.test(sex,ethnicity)
So sánh tỷ lệ trên 2 nhóm –
Phân tích Chi (Kai) bình phương
4-sample test for equality of proportions without
continuity
correction
data: females out of total
X-squared = 6.2646, df = 3, p-value = 0.09942
alternative hypothesis: two.sided
sample estimates:
prop 1
prop 2
prop 3
prop 4
0.5000000 0.7166667 0.7333333 0.0000000
Warning message:
Chi-squared approximation may be incorrect in:
prop.test(females, total)
Kết quả phân tích sử dụng Chi-squared với một trong các phần tử có số liệu < 5 sẽ
đưa kết quả không chính xác. Khi đó nên dùng Fisher’s exact test
So sánh tỷ lệ trên 2 nhóm –
Phân tích dùng Fisher’s exact
Fisher's Exact Test for Count Data
data: sex and ethnicity
p-value = 0.1048
alternative hypothesis: two.sided
Kết quả phân tích sử dụng Chi-squared với một trong các
phần tử có số liệu < 5 sẽ đưa kết quả không chính xác. Khi
đó nên dùng Fisher’s exact test.
Tóm tắt
• Xem xét phân bố của số liệu:
• Biến liên tục:
–
–
–
–
Trung bình và phương sai: khác biệt có tính hệ thống?
Phân bố chuẩn?
Liệu có phải hoán chuyển không?
Dùng các phương pháp thống kê thích hợp (t-test…)
• Số liệu phân nhóm:
– Trình bày bằng tỷ lệ %
– So sánh hai hay nhiều tỷ lệ
• Trình bày kết quả đi kèm với khoảng tin cậy 95% (và
p-values)
Lời Cảm tạ
• Chúng tôi xin chân thành cám ơn Công
ty Dược phẩm Bridge Healthcare,
Australia đã tài trợ cho chuyến đi.

Bài giảng thống kê mô tả, kiểm định

Transcript Bài giảng thống kê mô tả, kiểm định

Directory