Transcript Bài giảng 2
Giới thiệu về thống kê
DEPOCEN
Chương 3
Tóm tắt và mô tả số liệu
Các chủ đề
• Các đại lượng hướng tâm: trung bình,
trung vị, Mod, phân vị, trung bình
khoảng.
• Các đại lượng biến thiên: biên độ,
khoảng tứ vị phân, phương sai, độ lệch
chuẩn, hệ số biến thiên
• Dạng đồ thị: đối xứng, nhọn, sử dụng
hộp và phần đuôi.
Các đại lượng
Các đại lượng
Hướng tâm
Trung
Mod
bình Trung vị
trung bình
khoảng
Biến thiên
Phân vị
Hệ số biến thiên
Biên độ
Phương sai
Độ lệch chuẩn
Các đại lượng hướng tâm
Các đại lượng
hướng tâm
Trung bình
Trung vị
Mod
n
xi
i 1
n
Trung
bình
khoảng
Trung bình
•Là trung bình số học của số liệu:
x
Sample Mean
n
xi
i 1
n
xi x 2 xn
n
•Hầu hết là hướng tâm
• Bị ảnh hưởng bởi yếu tố ngoại lai
0 1 2 3 4 5 6 7 8 9 10
Mean = 5
0 1 2 3 4 5 6 7 8 9 10 12 14
Mean = 6
Đặc trưng chính của trung bình:
1.
2.
3.
4.
Yêu cầu một khoảng giá trị xác định.
Sử dụng tất cả các giá trị.
Là duy nhất.
Tổng độ sai lệch tính từ trung bình đến
các giá trị bằng 0.
Minh họa tính chất 4:
xét các số liệu có giá trị: 3, 8, 4 và có
trung bình là 5.
( X X ) (3 5) (8 5) (4 5) 0
Bài toán
Tính trung bình độ tuổi của học sinh?
Học sinh
Tần xuất
0 đến 10
3
10 đến 20
8
20 đến 30
16
30 đến 40
10
40 đến 50
9
50 đến 60
4
Tổng
50
Trung bình của một nhóm số liệu
Trung bình của một mẫu số liệu được
cho ở dạng bảng phân phối tần xuất
được tính như sau:
Xf
X
n
Trong đó: f là tần số
Trung vị
•Là một đại lượng hướng tâm quan trọng
•Trong một mảng có thứ tự, trung vị là số “ở
giữa”:
•Nếu n chẵn, trung vị là số ở chính giữa.
•Nếu n lẻ, trung vị là trung bình của hai số nằm
chính giữa.
•Không bị ảnh hưởng bởi giá trị ngoại lai
0 1 2 3 4 5 6 7 8 9 10
Median = 5
0 1 2 3 4 5 6 7 8 9 10 12 14
Median = 5
Mod
•
Là một đại lượng hướng tâm
Là giá trị xuất hiện nhiều nhất
Không bị ảnh hưởng bởi giá trị ngoại lai
Có thể có hoặc không có Mod
Có thể có một vài Mod
•
•
•
•
• Được sử dụng với số liệu hoặc biến định tính
0 1 2 3 4 5 6
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Mode = 9
No Mode
Trung bình khoảng
•Là một đại lượng hướng tâm
•Là trung bình của giá trị lớn nhất và nhỏ
nhất quan sát được.
x l arg est x smallest
Midrange
2
•Bị ảnh hưởng bởi giá trị ngoại lai
0 1 2 3 4 5 6 7 8 9 10
Midrange = 5
0 1 2 3 4 5 6 7 8 9 10
Midrange = 5
Điểm phân vị
•
•
Không là đại lượng hướng tâm
Chia khoảng số liệu có thứ tự làm 4 phần bằng nhau
25%
25%
Q1
Q2
•Vị trí điểm phân vị thứ i:
Dãy số liệu:
Vị trí Q1
25%
Qi
25%
Q3
i(n+1)
4
11 12 13 16 16 17 18 21 22
=
1•(9 + 1)
4
= 2.50
Q1 =12.5
Các đại lượng biến thiên
x i x
s2
n1
Variation
Phương sai
Biên độ
Phương sai
tổng thê
Phương
sai mẫu
Khoảng tứ vị phân
2
Hệ số biến thiên
Độ lệch chuẩn
Độ lệch chuẩn
tổng thể
Độ lệch
chuẩn mẫu
S
CV
X
100%
Biên độ
• là một đại lượng biến thiên
• là sự sai khác giữa giá trị lớn nhất và nhỏ
nhất của quan sát:
Range =
x La rgest x Smallest
• không cần biết phân phối:
Range = 12 - 7 = 5
Range = 12 - 7 = 5
7
8
9
10
11
12
7
8
9
10
11
12
Khoảng tứ vị phân
•
Là đại lượng biến thiên
•
Cho biết độ co giãn trung bình:
Spread in the Middle 50%
•
Công thức tính: là hiệu của điểm phân vị thứ 3 và thứ 1
Interquartile Range = Q3 Q1
Data in Ordered Array: 11 12 13 16 16 17
Q 3 Q1 = 17.5 - 12.5 = 5
•Không bị ảnh hưởng bởi giá trị ngoại lai
17 18 21
Phương sai
•Là một đại lượng biến thiên quan trọng
•Công thức cho tổng thể:
Xi
N
•Công thức cho mẫu:
2
2
X i X
s
n 1
2
2
For the Population: use N in the
denominator.
For the Sample : use n - 1
in the denominator.
Độ lệch chuẩn
•Là đại lượng biến thiên quan trọng nhất
•Công thức cho tổng thể:
•Công thức cho mẫu:
s
For the Population: use N in the
denominator.
2
X
i
N
X i
X
n 1
2
For the Sample : use n - 1
in the denominator.
Diễn giải và sử dụng độ
lệch chuẩn
Thực nghiệm: với bất kỳ phân phối có đồ
thị đối xứng, hình “chum”:
(1) Khoảng 68% quan sát nằm trong khoảng từ giá
trị trung bình cộng/trừ 1 (lần) độ lệch chuẩn
(2) 95% quan sát nằm trong khoảng từ giá trị trung
bình cộng/trừ 2 (lần) độ lệch chuẩn
(3) 99.7% quan sát nằm trong khoảng từ giá trị
trung bình cộng/trừ 3 (lần) độ lệch chuẩn
Độ lệch chuẩn mẫu
X i X
n1
2
s
Data:
Xi :
10
12
n=8
s=
For the Sample : use n - 1
in the denominator.
14
15
17 18 18 24
Mean =16
(10 16)2 (12 16)2 (14 16)2 (15 16)2 (17 16)2 (18 16)2 (24 16)2
8 1
= 4.2426
So sánh các độ lệch chuẩn
Data :
X i : 10
N= 8
12
14
15 17 18 18 24
Mean =16
X i X
n 1
2
X i
N
2
s =
=
4.2426
=
3.9686
Độ lệch chuẩn mẫu lớn hơn độ lệch chuẩn tổng thể.
Comparing Standard Deviations
Data A
11 12 13 14 15 16 17 18 19 20 21
Mean = 15.5
s = 3.338
Data B
11 12 13 14 15 16 17 18 19 20 21
Mean = 15.5
s = .9258
Data C
11 12 13 14 15 16 17 18 19 20 21
Mean = 15.5
s = 4.57
Hệ số biến thiên
•Là đại lượng biến thiên.
•Đơn vị: %
•Sử dụng để so sánh 2 hoặc nhiều nhóm
•Công thức (với mẫu):
S
CV
X
100%
Hệ số biến thiên là tỉ số giữa độ lệch
chuẩn mẫu (S) và trung bình mẫu,
đơn vị tính: %
Ví dụ: so sánh các hệ số biến thiên
Lương:
Average = $70/month
Standard Deviation = $7
Hàng hóa :
Average Price last year = $100
Standard Deviation = $8
S
CV 100%
X
Coefficient of Variation:
Lương: CV = 10%
Hàng hóa: CV = 8%
Dạng đồ thị
• Mô tả số liệu được phân bố như thế nào
• Các đại lượng ảnh hưởng đến dạng đồ
thị:
hệ số đối xứng và độ nghiêng
Left-Skewed
Symmetric
Mean Median Mod
e
Mean = Median = Mode
Right-Skewed
Mode Median Mean
Hộp và phần đuôi
Có 5 giá trị cần xác định trong một
hộp: giá trị nhỏ nhất, điểm phân vị
thứ 1, trung vị, điểm phân vị thứ
3, giá trị lớn nhất.
Hộp và phần đuôi
Graphical Display of Data Using
5-Number Summary
X smallest Q1 Median Q3
4
6
8
10
Xlargest
12
Dạng phân phối&
Hộp - phần đuôi
Left-Skewed
Q1 Median Q3
Symmetric
Q1
Median Q3
Right-Skewed
Q1 Median Q3
Mean Median Mode
Mean = Median = Mode
Mode Median Mean