Transcript BAI 3. TOM TAT DU LIEU
1
BÀI 3: TÓM TẮT DỮ LIỆU
Thống kê
2
Chúng ta thường đặt ra câu hỏi – Thu thập dữ liệu như thế nào?
– Sau khi thu thập dữ liệu làm sao chúng ta có thể trình bày tập dữ liệu dưới một hình thức rõ ràng, có thể hiểu được, và dễ đọc ? Chúng hỗ trợ gì cho việc ra quyết định?
Thống kê là một khoa học & nghệ thuật về – Thu thập – – – Phân tích Trình bày Diễn giải dữ liệu
3
Các cách thức tóm tắt và trình bày dữ liệu Bảng tần số Các tham số thống kê mô tả – đo lường khuynh hướng trung tâm (Central Tendency) Mean – Median Mode đo lường mức độ phân tán (Dispersion) hay độ biến thiên (variability) Min, Max, Range Standard Deviation Variance SE of mean – Các thước đo về vị trí tương đối (measure of relative standing), hay giá trị phân vị (percentile values) Quartiles Percentile – Các chỉ tiêu cho biến hình dạng phân phối (distribution) Skewness Kurtosis Bảng kết hợp Đồ thị ( Đồ thị hình tròn, Đồ thị thanh, Line, Histogram…)
4
5
Bảng tần số
6
Các tham số thống kê mô tả
Phaân phoái leäch phaûi (Skewed right Distribution)
Phaân phoái leäch phaûi khi µ > Me > Mo f(x)
7 Mo Me µ x
40000 35000 30000 25000 20000 15000 10000 5000 0
8
35506 35357 5023 4469 3887 3519 3038 2531 2185 1818 1613 1275 1041 825 609 433 293 207 60 32 4 2
9
Phaân phoái leäch traùi (Skewed left Distribution)
Phaân phoái leäch traùi khi µ < Me < Mo f(x)
µ Me Mo x
10
Bảng kết hợp (Định tính)
11
Bảng kết hợp (Định lượng)
Đồ thị
12
Tục ngữ: “một bức họa đáng giá cả ngàn từ”
Đồ thị
13
14
Định lý Chebyshev và quy tắc thực nghiệm
Định lý Chebyshev
: Với
bất kỳ tập dữ liệu nào
tổng thể) (mẫu, hay – – – – Ít nhất 55.56% giá trị nằm trong khoảng +/- 1.5 độ lệch chuẩn so với giá trị trung bình Ít nhất 75% giá trị nằm trong khoảng +/- 2 độ lệch chuẩn so với giá trị trung bình Ít nhất 88.89% giá trị nằm trong khoảng +/- 3 độ lệch chuẩn so với giá trị trung bình
Ít nhất (1-1/k^2)100% giá trị nằm trong khoảng +/- k độ lệch chuẩn so với giá trị trung bình, với k>1 Quy tắc thực nghiệm
: Với một tổng thể có phân phối đối xứng có dạng hình chuông, ta có quy tắc sau đây – – – Xấp xỉ 68% giá trị của các quan sát nằm trong khoảng +/- 1 độ lệch chuẩn so với giá trị trung bình Xấp xỉ 95% giá trị của các quan sát nằm trong khoảng +/- 2 độ lệch chuẩn so với giá trị trung bình Xấp xỉ 99% giá trị của các quan sát nằm trong khoảng +/- 3 độ lệch chuẩn so với giá trị trung bình