Bài giảng 1

Download Report

Transcript Bài giảng 1

Giới thiệu về thống kê
DEPOCEN
Chương 1
Giới thiệu chung và cách thu thập số liệu
• Các phương pháp thống kê là gì?
• Tại sao chúng ta lại cần các
phương pháp thống kê?
Các phương pháp thống kê được mô tả như
việc định nghĩa các phương pháp sử dụng
trong việc thu thập số liệu, biểu diễn, phân tích
và làm sáng tỏ dữ liệu (Weinberg and
Schumaker 1962)




Để hiểu việc biểu diễn các tính chất và mô tả các
thông tin như thế nào?
Để biết việc vẽ minh họa về một tổng thể lớn mà
chỉ dựa trên thông tin thu được từ các mẫu ra
sao?
Để biết các dự báo thu được chắc chắn đến mức
độ nào?
Để biết bằng cách nào cải tiến quy trình



Một công ty có kế hoạch giới thiệu một sản phẩm
mới.
Lợi tức của một sản phẩm trong công ty giảm xuống
nghiêm trọng trong sáu tháng gần đây.
Công ty muốn thay đổi mẫu mã của sản phẩm đã có.
Giám đốc Marketing muốn kiểm tra xem mẫu mã
mới ảnh hưởng đến thái độ của khách hàng với sản
phẩm mới như thế nào?



Cổ điển và Bayesian
Cổ điển: Fisher and Pearson
Bayesian: Thomas Bayes
Tham số và phi tham số (nửa tham số)
Nguyên nhân (causal) và tương quan
Bước 1: Xác định bài toán
Bước 2: Thiết lập các đối tượng nghiên cứu.
Bước 3: Xác định dạng dữ liệu cần thu thập.
Bước 4: Xác định nguồn lấy thông tin.
Bước 5: Xác định cỡ mẫu và cách lấy mẫu.
Bước 6: Xác định phương pháp thu thập số liệu.
Bước 7: Tiến hành thu thập số liệu.
Bước 8: Mô tả số liệu.
Bước 9: Phân tích số liệu.
Bước 10: Chuẩn bị và diễn giải báo cáo kết quả.
Phân loại Thống kê
•Thống kê mô tả:
• Lấy số liệu từ mẫu.
• Mô tả số liệu.
•Thống kê suy luận:
•Phân tích số liệu.
•Đưa ra kết luận.
Thống kê mô tả
•Thu thập số liệu (khảo sát)
•Biểu diễn số liệu (bảng, đồ thị)
•Đặc trưng của số liệu: mức ý nghĩa
Một đặc trưng:
tổng thể: là một tham số
Mẫu: là một thống kê
 x
i
n
Các bước xác định bài toán:
(1) Các vấn đề liên quan.
(2) Thông tin về công ty như:sản phẩm, dịch vụ, thị trường,
khách hàng….
(3) Những thay đổi gần đây có thể làm ảnh hưởng đến công
ty.
(4) Các hoạt động có thể làm giảm nhẹ bài toán.


Để thu được thông tin cơ bản, xác định giới hạn,
làm rõ bài toán và giả thuyết, xác định nguyên
nhân và tạo các câu “nếu … thì…”.
Các loại kế hoạch nghiên cứu:
- Thăm dò
- Mô tả
- Nguyên nhân

Thiết kế cấu trúc số liệu thu thập được dựa trên
các đối tượng nghiên cứu.
Bước 4: Các số liệu gốc
Chính
Phụ
Thu thập số liệu
Số liệu phức tạp
Bản in hoặc điện tử
Quan sát
Khảo sát
Thí nghiệm


Tổng thể: là tất cả các đối tượng được quan sát.
Mẫu: là một phần của tổng thể được chọn để
phân tích.
Các phương pháp lấy mẫu
Mẫu
Mẫu không có xác
suất
Mẫu có xác suất
Mẫu ngẫu
nhiên đơn
giản
Mẫu phân
tầng
Mẫu hệ thống
Mẫu
chùm
Mẫu có xác suất
Các đối tượng mẫu được chọn dựa trên những khả năng đã biết.
Mẫu có xác suất
Mẫu ngẫu
nhiên đơn
giản
Mẫu hệ thống
Mẫu phân tầng
Mẫu chùm
Mẫu ngẫu nhiên đơn giản
• Mọi đối tượng có khả năng được chọn như
nhau.
• Việc chọn có thể hoàn lại hoặc không hoàn lại.
• Một trong các cách là sử dụng bảng số liệu
ngẫu nhiên thu thập được từ mẫu.
Mẫu hệ thống
• Lấy cỡ mẫu: n
• Chia tổng thể gồm N phần tử thành k nhóm riêng biệt:
k = N/n
• Chọn ngẫu nhiên một phần tử từ nhóm thứ 1.
• Các nhóm tiếp theo cũng được làm tương tự
N = 64
n=8
k=8
như vậy.
Nhóm 1
Mẫu phân tầng
• Tổng thể được chia thành 2 hoặc nhiều nhóm tùy theo một
vài đặc trưng thông dụng.
• Mẫu ngẫu nhiên đơn giản được chọn từ các nhóm vừa phân
chia.
• Hai hoặc nhiều mẫu được kết nối với nhau.
Mẫu chùm
• tổng thể được chia thành một vài “chùm”, mỗi
chùm biểu diễn lại tổng thể.
• Mẫu ngẫu nhiên đơn giản được chọn từ các chùm.
• Các mẫu đơn giản được kết nối làm một.
tổng thể
chia làm 4
“chùm”.


Phương pháp định tính
Phương pháp định lượng




Quan sát
Nhóm trọng tâm
Phân tích ban đầu
Xác định kỹ thuật


Được sử dụng với cỡ mẫu lớn
Các câu hỏi được xây dựng với các câu trả lời đã
có từ trước.
Phương pháp suy luận
Quản lý
chất lượng
Hồi quy
Dự báo
Kiểm định giả
thuyết
Chuỗi thời
gian
Ước lượng
Bước 10: Báo cáo
kết quả
Giới thiệu về thống kê
DEPOCEN
Chương 2
Biểu diễn số liệu bằng bảng
và biểu đồ
Các chủ đề
•Tổ chức số liệu:
theo thứ tự mảng và hiển thị bằng biểu đồ hình cây-lá
•Bảng và đồ thị số liệu:
•Phân phối tần xuất : bảng, biểu đồ, đường gấp khúc
•Phân phối tích lũy: bảng, biểu đồ, hình cung
•Tổ chức số liệu định tính một chiều: tổng hợp các bảng
•Đồ thị của số liệu định tính 1 chiều:
cột, tròn…
•Bảng số liệu định tính 2 chiều:
Cột, bảng ngẫu nhiên
Tổ chức số liệu
Số liệu
Phân phối tần xuất
Phân phối tích lũy
Thứ tự mảng
21, 24, 24, 26, 27, 27, 30, 32, 38, 41
Biểu diễn hình
cây-lá
41, 24, 32, 26, 27, 27, 30, 24, 38, 21
Biểu đồ
2 144677
3 028
4 1
Bảng
Hình
cung
Đường
gấp khúc
Biểu diễn hình cây-lá: là một kỹ
thuật thống kê để hiển thị một
tập số liệu. Mỗi giá trị số liệu
được chia thành hai phần: phần
chính là cây và phần phụ là lá
cây.
Tổ chức số liệu:
•Số liệu biểu diễn hàng ngang:
24, 26, 24, 21, 27, 27, 30, 41, 32, 38
•Số liệu biểu diến theo thứ tự từ nhỏ đến lớn:
21, 24, 24, 26, 27, 27, 30, 32, 38, 41
•Biểu diễn cây-lá:
2
144677
3
028
4
1
Một phân phối tần xuất là việc
nhóm các số liệu thành các mục
riêng biệt để chỉ ra số quan sát
trong mỗi lớp.
Bảng số liệu: Phân phối tần xuất
Số liệu theo thứ tự mảng:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Lớp
10 đến 20
20 đến 30
30 đến 40
40 đến 50
50 đến 60
Tổng số
Tần xuất
3
6
5
4
2
20
Tỉ lệ tần
xuất
.15
.30
.25
.20
.10
1
Phần trăm
15
30
25
20
10
100
Tỉ lệ tần xuất: Là phần trăm của các quan sát trong
mỗi lớp trong tổng thể. Ta lấy số lượng trong
mỗi lớp chia cho tổng số quan sát.
Note: Tác dụng của biểu diễn cây-lá với một bảng
phân phối tần xuất là không làm mất đi tính
đồng nhất của mỗi quan sát.
Có ba dạng đồ thị thường được sử
dụng là: biểu đồ, đường gấp
khúc, và phân phối tần xuất tích
lũy (dạng đường cong).
Biểu đồ: tạo nên bằng cách các lớp nằm trên trục
ngang và tần xuất nằm trên trục thẳng đứng,
tần xuất của mỗi lớp biểu diễn độ cao của hình
cột và mỗi cột được vẽ cạnh nhau.
Một đường gấp khúc gồm các
đoạn thẳng nối các điểm nằm
chính giữa các lớp và tần xuất
của lớp đó.
Được sử dụng để xác định tỉ lệ của
các giá trị số liệu là nằm trên hay
dưới một giá trị chắc chắn nào
đó là bao nhiêu.
Đồ thị số liệu: Biểu đồ
Số liệu theo hàng ngang:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
H is t o g r a m
Fr e q u e n c y
7
6
6
5
5
4
4
3
3
2
2
1
0
0
0
5
15
25
36
45
55
M ore
Đồ thị số liệu :
Đường gấp khúc
Số liệu:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Frequenc y
7
6
5
4
3
2
1
0
5
15
25
36
45
55
M ore
Bảng số liệu:
Tần số tích lũy
Số liệu:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Lớp
10 đến 20
20 đến 30
30 đến 40
40 đến 50
50 đến 60
Tần số
3
9
14
18
20
%
15
45
70
90
100
Đồ thị số liệu:
Dạng hình cung
Số liệu:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
O g iv e
120
100
80
60
40
20
0
10
20
30
40
50
60
Tổ chức số liệu định tính
Số liệu định tính
Đồ thị số liệu
Bảng số liệu
Tổng kết thành bảng
Hình quạt
Dạng cột
Dạng khác
Ví dụ: Tổng kết số liệu bằng
bảng 1 chiều
(với một nhà đầu tư)
Danh mục đầu tư
Số lượng
%
(ngàn đôla)
Dự trữ
Cổ phần
Tiết kiệm
Chi phí khác
46.5
32
16
15.5
42.27
29.09
14.55
14.09
Tổng cộng
110
100
Biến định tính
Rất hữu ích trong việc thể hiện
mối quan hệ của một phân phối
tần: một hình tròn được chia tỉ lệ
với các tần xuất của số liệu.
Dạng hình quạt
Tiết kiệm
15%
CP K
14%
Cổ phần
29%
Dự trữ
42%
Tổ chức số liệu định tính dạng bảng
2 chiều
•Bảng ngẫu nhiên
•Dạng cột
Tổ chức số liệu định tính dạng
bảng 2 chiều
Bảng ngẫu nhiên
:
Danh mục
đầu tư
Nhà đầu tư A
Nhà đầu tư B
Nhà đầu tư C Tổng số
Dự trữ
Cổ phần
Tiết kiệm
Chi phí khác
46.5
32
16
15.5
55
44
28
20
27.5
19
7
13.5
129
95
51
49
Tổng số
110
147
67
324

Biểu diễn số liệu được thiết kế tốt nếu:




Bản chất
Thống kê
Liên kết các ý tưởng với sự rõ ràng, chính xác và hiệu
quả.
Yêu cầu đưa ra thông tin chính xác về số liệu.

Sử dụng ‘Biểu đồ gãy khúc’
Không liên hệ với giá trị
chuẩn khi so sánh các mảng số
liệu


Co các trục

Không có số 0 trên trục
Biểu diễn sai

Biểu diễn đúng
Minimum Wage
1960: $1.00
Minimum Wage
4
$
1970: $1.60
2
1980: $3.10
0
1990: $3.80
1960
1970
1980
1990
Biểu diễn sai
Freq.

300
200
30% %

10%
0

Biểu diễn đúng

FR SO
JR SR
FR SO JR SR
FR = Freshmen, SO = Sophomore, JR = Junior, SR = Senior
Biểu diễn sai
200
$

50
100
25
0
0
Q1 Q2
Q3 Q4
Biểu diễn đúng
$
Q1
Q2
Q3 Q4
Biểu diễn sai
45
$

45
42
42
39
39
36
Biểu diễn đúng
$
36
J F M A M J
0
Graphing the first six months of sales.
J F M A M J