Transcript Bài giảng 2
Giới thiệu về thống kê DEPOCEN Chương 3 Tóm tắt và mô tả số liệu Các chủ đề • Các đại lượng hướng tâm: trung bình, trung vị, Mod, phân vị, trung bình khoảng. • Các đại lượng biến thiên: biên độ, khoảng tứ vị phân, phương sai, độ lệch chuẩn, hệ số biến thiên • Dạng đồ thị: đối xứng, nhọn, sử dụng hộp và phần đuôi. Các đại lượng Các đại lượng Hướng tâm Trung Mod bình Trung vị trung bình khoảng Biến thiên Phân vị Hệ số biến thiên Biên độ Phương sai Độ lệch chuẩn Các đại lượng hướng tâm Các đại lượng hướng tâm Trung bình Trung vị Mod n xi i 1 n Trung bình khoảng Trung bình •Là trung bình số học của số liệu: x Sample Mean n xi i 1 n xi x 2 xn n •Hầu hết là hướng tâm • Bị ảnh hưởng bởi yếu tố ngoại lai 0 1 2 3 4 5 6 7 8 9 10 Mean = 5 0 1 2 3 4 5 6 7 8 9 10 12 14 Mean = 6 Đặc trưng chính của trung bình: 1. 2. 3. 4. Yêu cầu một khoảng giá trị xác định. Sử dụng tất cả các giá trị. Là duy nhất. Tổng độ sai lệch tính từ trung bình đến các giá trị bằng 0. Minh họa tính chất 4: xét các số liệu có giá trị: 3, 8, 4 và có trung bình là 5. ( X X ) (3 5) (8 5) (4 5) 0 Bài toán Tính trung bình độ tuổi của học sinh? Học sinh Tần xuất 0 đến 10 3 10 đến 20 8 20 đến 30 16 30 đến 40 10 40 đến 50 9 50 đến 60 4 Tổng 50 Trung bình của một nhóm số liệu Trung bình của một mẫu số liệu được cho ở dạng bảng phân phối tần xuất được tính như sau: Xf X n Trong đó: f là tần số Trung vị •Là một đại lượng hướng tâm quan trọng •Trong một mảng có thứ tự, trung vị là số “ở giữa”: •Nếu n chẵn, trung vị là số ở chính giữa. •Nếu n lẻ, trung vị là trung bình của hai số nằm chính giữa. •Không bị ảnh hưởng bởi giá trị ngoại lai 0 1 2 3 4 5 6 7 8 9 10 Median = 5 0 1 2 3 4 5 6 7 8 9 10 12 14 Median = 5 Mod • Là một đại lượng hướng tâm Là giá trị xuất hiện nhiều nhất Không bị ảnh hưởng bởi giá trị ngoại lai Có thể có hoặc không có Mod Có thể có một vài Mod • • • • • Được sử dụng với số liệu hoặc biến định tính 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Mode = 9 No Mode Trung bình khoảng •Là một đại lượng hướng tâm •Là trung bình của giá trị lớn nhất và nhỏ nhất quan sát được. x l arg est x smallest Midrange 2 •Bị ảnh hưởng bởi giá trị ngoại lai 0 1 2 3 4 5 6 7 8 9 10 Midrange = 5 0 1 2 3 4 5 6 7 8 9 10 Midrange = 5 Điểm phân vị • • Không là đại lượng hướng tâm Chia khoảng số liệu có thứ tự làm 4 phần bằng nhau 25% 25% Q1 Q2 •Vị trí điểm phân vị thứ i: Dãy số liệu: Vị trí Q1 25% Qi 25% Q3 i(n+1) 4 11 12 13 16 16 17 18 21 22 = 1•(9 + 1) 4 = 2.50 Q1 =12.5 Các đại lượng biến thiên x i x s2 n1 Variation Phương sai Biên độ Phương sai tổng thê Phương sai mẫu Khoảng tứ vị phân 2 Hệ số biến thiên Độ lệch chuẩn Độ lệch chuẩn tổng thể Độ lệch chuẩn mẫu S CV X 100% Biên độ • là một đại lượng biến thiên • là sự sai khác giữa giá trị lớn nhất và nhỏ nhất của quan sát: Range = x La rgest x Smallest • không cần biết phân phối: Range = 12 - 7 = 5 Range = 12 - 7 = 5 7 8 9 10 11 12 7 8 9 10 11 12 Khoảng tứ vị phân • Là đại lượng biến thiên • Cho biết độ co giãn trung bình: Spread in the Middle 50% • Công thức tính: là hiệu của điểm phân vị thứ 3 và thứ 1 Interquartile Range = Q3 Q1 Data in Ordered Array: 11 12 13 16 16 17 Q 3 Q1 = 17.5 - 12.5 = 5 •Không bị ảnh hưởng bởi giá trị ngoại lai 17 18 21 Phương sai •Là một đại lượng biến thiên quan trọng •Công thức cho tổng thể: Xi N •Công thức cho mẫu: 2 2 X i X s n 1 2 2 For the Population: use N in the denominator. For the Sample : use n - 1 in the denominator. Độ lệch chuẩn •Là đại lượng biến thiên quan trọng nhất •Công thức cho tổng thể: •Công thức cho mẫu: s For the Population: use N in the denominator. 2 X i N X i X n 1 2 For the Sample : use n - 1 in the denominator. Diễn giải và sử dụng độ lệch chuẩn Thực nghiệm: với bất kỳ phân phối có đồ thị đối xứng, hình “chum”: (1) Khoảng 68% quan sát nằm trong khoảng từ giá trị trung bình cộng/trừ 1 (lần) độ lệch chuẩn (2) 95% quan sát nằm trong khoảng từ giá trị trung bình cộng/trừ 2 (lần) độ lệch chuẩn (3) 99.7% quan sát nằm trong khoảng từ giá trị trung bình cộng/trừ 3 (lần) độ lệch chuẩn Độ lệch chuẩn mẫu X i X n1 2 s Data: Xi : 10 12 n=8 s= For the Sample : use n - 1 in the denominator. 14 15 17 18 18 24 Mean =16 (10 16)2 (12 16)2 (14 16)2 (15 16)2 (17 16)2 (18 16)2 (24 16)2 8 1 = 4.2426 So sánh các độ lệch chuẩn Data : X i : 10 N= 8 12 14 15 17 18 18 24 Mean =16 X i X n 1 2 X i N 2 s = = 4.2426 = 3.9686 Độ lệch chuẩn mẫu lớn hơn độ lệch chuẩn tổng thể. Comparing Standard Deviations Data A 11 12 13 14 15 16 17 18 19 20 21 Mean = 15.5 s = 3.338 Data B 11 12 13 14 15 16 17 18 19 20 21 Mean = 15.5 s = .9258 Data C 11 12 13 14 15 16 17 18 19 20 21 Mean = 15.5 s = 4.57 Hệ số biến thiên •Là đại lượng biến thiên. •Đơn vị: % •Sử dụng để so sánh 2 hoặc nhiều nhóm •Công thức (với mẫu): S CV X 100% Hệ số biến thiên là tỉ số giữa độ lệch chuẩn mẫu (S) và trung bình mẫu, đơn vị tính: % Ví dụ: so sánh các hệ số biến thiên Lương: Average = $70/month Standard Deviation = $7 Hàng hóa : Average Price last year = $100 Standard Deviation = $8 S CV 100% X Coefficient of Variation: Lương: CV = 10% Hàng hóa: CV = 8% Dạng đồ thị • Mô tả số liệu được phân bố như thế nào • Các đại lượng ảnh hưởng đến dạng đồ thị: hệ số đối xứng và độ nghiêng Left-Skewed Symmetric Mean Median Mod e Mean = Median = Mode Right-Skewed Mode Median Mean Hộp và phần đuôi Có 5 giá trị cần xác định trong một hộp: giá trị nhỏ nhất, điểm phân vị thứ 1, trung vị, điểm phân vị thứ 3, giá trị lớn nhất. Hộp và phần đuôi Graphical Display of Data Using 5-Number Summary X smallest Q1 Median Q3 4 6 8 10 Xlargest 12 Dạng phân phối& Hộp - phần đuôi Left-Skewed Q1 Median Q3 Symmetric Q1 Median Q3 Right-Skewed Q1 Median Q3 Mean Median Mode Mean = Median = Mode Mode Median Mean