Stat07w4 - E

Download Report

Transcript Stat07w4 - E

Wykład 4. Rozkłady teoretyczne
Zmienna losowa jest to taka zmienna, która w wyniku doświadczenia
przyjmuje wartość z pewnego zbioru liczb rzeczywistych z
określonym prawdopodobieństwem.
Rozkład normalny
Podstawowym rozkładem zmiennej losowej ciągłej jest rozkład normalny
(Gaussa-Laplace’a). Zmienna losowa X ma rozkład normalny, jeśli
jej funkcja gęstości - określona dla wszystkich rzeczywistych
wartości x - da się przedstawić za pomocą wzoru (4.1):
 ( x  m) 2 
1
,
f ( x) =
exp  
2 

 2
2



Wykład 4. Rozkłady teoretyczne
Realizacje zmiennej losowej o rozkładzie normalnym są
określone w przedziale - < x < +
Funkcja gęstości rozkładu normalnego, dana wzorem 4.1. ma następujące
własności:
1)
jest symetryczna względem prostej x = m (własność
symetryczności),
2)
osiąga maksimum dla x = m (własność jednomodalności),
3)
jej ramiona mają dwa punkty przegięcia dla x1  m- σ;
4)
oraz x2  m + σ ,
4)
jest całkowicie określona przez dwa parametry: parametr m
decyduje o przesunięciu krzywej, natomiast parametr σ decyduje o
smukłości krzywej; własność określoności wyróżniamy zapisem
N(m; σ) .
Wykład 4. Rozkłady teoretyczne; rozkład normalny
Rys. 4.1 Gêstoœæ rozk³adu normalnego
0,040
0,035
0,030
0,025
0,020
0,015
0,010
Punkty przegiêcia
0,005
0,000
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
Kwantyle
0,5
1,0
1,5
2,0
2,5
3,0
Wykład 4. Rozkłady teoretyczne; rozkład normalny
Rozkład normalny N (0,1) nazywa się standardowym
rozkładem normalnym. Jego dystrybuanta wyraża się
wzorem (4.2):
1 x u / 2
F ( x) =
du ,
e
2  
gdzie (4.3)
xm
u

Wykład 4. Rozkłady teoretyczne; dystrybuanta rozkładu
normalnego
Rys. 4.2. Dystrybuanta rozkładu normalnego standaryzowanego N(0;1)
Prawdopodobieństwo
0,04
0,03
0,02
0,01
0,00
-3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5
0,0
0,5
1,0
Kwantyle rozkładu normalnego
1,5
2,0
2,5
3,0
3,5
Tablica 4.1. Dystrybuanta rozkładu normalnego standaryzowanego N(0;1), I rodzaj tablic
(pole pod krzywą od minus nieskończoność do x)
u
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,20 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,30 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,40 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,50 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,60 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,70 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,80 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,90 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,00 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,10 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,20 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,30 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,60 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,70 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
Wykład 4. Rozkłady teoretyczne; rozkład normalny
Funkcje związane z rozkładem normalnym w Excelu:
A. Dowolny rozkład normalny:
a) dane są: średnia, odchylenie standardowe, wartość empiryczna x poszukujemy pole czyli „lewy ogonek”:
- [fx]=>statystyczne=>rozkład.normalny ==>dane: m, s, x oraz jako
„skumulowany” wpisać jako wartość logiczną „1”
b) dane jest prawdopodobieństwo, średnia, odchylenie standardowe poszukujemy kwantyl empiryczny x,
- [fx]=>statystyczne=>rozkład.normalny ==>dane
Wykład 4. Rozkłady teoretyczne; rozkład normalny
B. Rozkład normalny standaryzowany
a) dany jest kwantyl - poszukujemy pole „lewy ogonek”:
- [fx]=>statystyczne=>rozkład.normalny.S==> kwantyl
b) dane jest pole - poszukujemy kwantyl rozkładu normalnego:
- [fx]=>statystyczne=>rozkład.normalny.S.odw==> pole pod krzywą
rozkładu normalnego od - do szukanego x.
Obliczanie prawdopodobieństw P(a<X<b) dla zmiennej losowej o rozkładzie
normalnym można przedstawić przy pomocy zmiennej standaryzowanej
U(0,1) w sposób następujący:
Wykład 4. Rozkłady teoretyczne; wyznaczanie pola pod krzywą
rozkładu normalnego
am X m bm
P(a  X  b)  P(


)



am
bm
bm
am
 P(
U 
)  F(
)  F(
)


)

 F (ub )  F (ua )
Wykład 4. Rozkłady teoretyczne; wyznaczanie pola pod krzywą
rozkładu normalnego
Przykład 1:
Temperatura ciała ludzkiego jest zmienną losową o rozkładzie normalnym ze
średnią wynoszącą 36,6oC oraz odchyleniem standardowym . Oblicz
prawdopodobieństwo zdarzenia, że losowo wybrany pacjent pewnego szpitala
będzie miał temperaturę ciała:
a) mniejszą niż 36,3oC,
b) większą niż 37,6 oC,
c) większą niż 37,9 oC ale mniejszą niż 38,2oC.
ad. a)
p( X  36,3)
36,3  36,6
0,3
u

 0,6
0,5
0,5
Wykład 4. Rozkłady teoretyczne; wyznaczanie pola pod krzywą
rozkładu normalnego
ad. b)
P(X>37,6)  P(X>37,6)=P(u>2)=1-F(2)=1-0,97725=0,02275, patrz rys. 4.3.
Wykład 4. Rozkłady teoretyczne; wyznaczanie pola pod krzywą
rozkładu normalnego
ad. c)
P(37,9  X  38,2)  P(2,6  U  3,2)  F (3,2)  F (2,6) 
 0,9993  0,9953  0,004
Wykład 4. Rozkłady teoretyczne; własności i zastosowania
rozkładu normalnego standaryzowanego
1) Rozkład normalny standaryzowany N(0;1) ma E(u) = 0 oraz S2 = 1;
2) Pole pod krzywą rozkładu normalnego standaryzowanego N(0;1) jest
równe jedności;
3) Punkty przegięcia: u1 = -1 oraz u2 = +1;
4) Współczynnik asymetrii alfa 3 = 0;
5) Współczynnik koncentracji alfa 4 = 3;
6) Mo = Me = E(u)
7) Q1 = - 0,6745;
Q3 = +0,6745
Wykład 4. Rozkłady teoretyczne; własności i zastosowania
rozkładu normalnego standaryzowanego
8)
W przedziale od – 1 do + 1 znajduje się ponad 68% zbiorowości,
od – 2 do + 2
około 95%,
od – 3 do + 3 ponad 99% całej zbiorowości;
9)
Rozkład normalny jako rozkład błędów w teorii pomiarów;
10) Występowanie rozkładu normalnego w świecie przyrody: mity i
rzeczywistość;
11) Rzadkość występowania rozkładu normalnego w zjawiskach społeczno-
ekonomicznych;
Wykład 4. Rozkłady teoretyczne; własności i zastosowania
rozkładu normalnego standaryzowanego
12)Miejsce rozkładu normalnego w teorii statystyki:
a. aproksymacja statystyczna,
b. przybliżenie krzywą Gaussa – Laplace’a innych rozkładów teoretycznych
ciągłych (Studenta, , Fishera – Snedecora) i dyskretnych (dwumianowy,
Poissona)
c. estymacja statystyczna,
d. weryfikacja hipotez statystycznych,
e. ocena niezbędnej wielkości próby w badaniach reprezentacyjnych..
Wykład 4. Rozkłady teoretyczne; Rozkład Studenta
Rozkład t-Studenta według liczby stopni swobody
0,025
1
10
30
70
100
Funkcja gęstości
0,020
0,015
0,010
0,005
0,000
-4
-3
-2
-1
0
1
Kwantyle rozkładu Studenta
2
3
4
Wykład 4. Tablice rozkładu Studenta „dwuogonowe”
Tablica 4.2. Kwantyle rozkładu Studenta z dwoma obszarami
krytycznymi ("dwugoniaste") dla małej liczby stopni swobody.
Liczba
0,50
0,40
0,30
0,20
stopni
swobody
1
1,00
1,38
1,96
3,08
2
0,82
1,06
1,39
1,89
3
0,76
0,98
1,25
1,64
4
0,74
0,94
1,19
1,53
5
0,73
0,92
1,16
1,48
6
0,72
0,91
1,13
1,44
7
0,71
0,90
1,12
1,41
8
0,71
0,89
1,11
1,40
9
0,70
0,88
1,10
1,38
10
0,70
0,88
1,09
1,37
11
0,70
0,88
1,09
1,36
12
0,70
0,87
1,08
1,36
13
0,69
0,87
1,08
1,35
14
0,69
0,87
1,08
1,35
15
0,69
0,87
1,07
1,34
0,10
0,04
0,02
6,31
2,92
2,35
2,13
2,02
1,94
1,89
1,86
1,83
1,81
1,80
1,78
1,77
1,76
1,75
15,89
4,85
3,48
3,00
2,76
2,61
2,52
2,45
2,40
2,36
2,33
2,30
2,28
2,26
2,25
31,82
6,96
4,54
3,75
3,36
3,14
3,00
2,90
2,82
2,76
2,72
2,68
2,65
2,62
2,60
0,01
63,66
9,92
5,84
4,60
4,03
3,71
3,50
3,36
3,25
3,17
3,11
3,05
3,01
2,98
2,95
0,002
318,29
22,33
10,21
7,17
5,89
5,21
4,79
4,50
4,30
4,14
4,02
3,93
3,85
3,79
3,73
Wykład 5 Analiza współzależności.
1.
Analiza wariancji
a) analiza jednoczynnikowa (podział wg 1 kryterium)
-
Porównanie średnich w dowolnej liczbie subpopulacji (prób) o
rozkładzie normalnym lub zbliżonym do normalnego oraz o
jednakowych wariancjach.
H0: M1 = M2 = M3 = . . .
(5.1)
H1: M1  M2  M3  . . .
(5.2)
Wykład 5 Analiza współzależności. Analiza wariancji
Do weryfikacji hipotezy (5.1) wykorzystuje się test Fishera-Snedecora o
postaci:
F = MSB/MSE, gdy MSB > MSE,
(5.3)
F = MSE/MSB, gdy MSB < MSE,
(5.4)
lub
gdzie: MSB – średni kwadrat odchyleń od średniej między grupami (próbami),
MSE – średni kwadrat odchyleń od średniej wewnątrz grup
Wykład 5 Analiza współzależności. Analiza wariancji
Tablica 5.1. Analiza wariancji z uwzględnieniem liczby zmiennych (grup) oraz liczby
obserwacji:
Źródło zmienności
1. Czynnik (podpróbka, klasyfikacja)
Suma
kwadratów
odchyleń
SSB
- zróżnicowanie międzygrupowe
Stopnie
swobody
r -1
Średni
kwadrat
odchyleń
MSB
r-liczba grup
2. Błąd losowy
- zróżnicowanie wewnątrzgrupowe
SSE
3. Ogółem dla całej próby
SST
n–r
n-liczba
wszystkich
jednostek
r-1+n-r=n-1
MSE
MSB+MSE
Wykład 5 Analiza współzależności. Analiza wariancji
Ogólna suma kwadratów odchyłek (5.5):
2


  x 

r n 2  i 1 k 1 ki 
r n 2
2
SST    xki 
   xki  n x
n
i 1 k 1
i 1 k 1
r n
i
i
i
Wykład 5 Analiza współzależności. Analiza wariancji
Ważona suma kwadratów odchyłek między średnimi grupowymi a średnią
ogólną (5.6):
2
2
 n
n
r



   xki      xki 
r  k 1
i 1 k 1





SSB  


ni
n
i 1 




i
i
Wykład 5 Analiza współzależności. Analiza wariancji
Suma kwadratów odchyłek między realizacjami zmiennej X a poszczególnymi
średnimi wewnątrz grup (podpróbek) (5.7) :
SSE = SST – SSB
Wariancja między grupami (5.8):


n
x

x



i
i
SSB i 1 

MSB 

r 1
r 1
r
2
Wykład 5 Analiza współzależności. Analiza wariancji
gdzie w nawiasie okrągłym w liczniku (5.8) mamy odchyłki między średnimi
grupowymi (lub przeciętnymi z poszczególnych podpróbek) a średnią ogólną
dla całej próby.
Wariancja wewnątrz grup (wewnątrz podpróbek) (5.9):
SSE
MSE 

nr
n1

 k 1
x1k  x1 
2

n2

k 1
x1k  x2 
2
 ... 
n1  n2  ...  nr  r
nr

k 1
x1k  xr 
2
Przykład 5.1. Ceny wędlin w wylosowanych sklepach detalicznych Poznania.
Czy ceny mięsa pochodzącego od różnych rzeźników różnią się istotnie?
Producent (grupa i)
Boucher Butcher Fleischer Henryk Suma cen
Uwaga: ceny wylosowanych wędlin zostały
uporządkowane rosnąco. Porządek losowania nie
ma tu znaczenia.
Suma cen od producenta (i)
Liczby wędlin od (i)
Średnie (i)
16
16,1
16,5
16,8
17
17,2
18
15,8
16,4
16,4
17
17,5
117,6
7
16,8
83,1
5
16,62
14,6
15,5
16
16,2
16,4
16,6
17,4
18,2
130,9
8
16,36
15,1
15,2
15,3
15,7
16
16,8
94,1
6
15,68
61,5
63,2
64,2
65,7
66,9
50,6
35,4
18,2
425,7
26
16,37
Przykład 5.1. c.d.
Kwadraty odchyleń
pomiędzy konkretną
ceną a ich średnią
u danego rzeźnika
[grupy]
0,64
0,49
0,09
0
0,04
0,16
1,44
0,6724
0,0484
0,0484
0,1444
0,7744
3,10641
0,74391
0,13141
0,02641
0,00141
0,05641
1,07641
3,37641
1,69
8,52
0,34028
0,23361
0,14694
0,00028
0,10028
1,24694
Suma kwadratów odchyłek
2,86
2,07
15,14
0,68796
Wariancja wewnątrz grup (MSE) według wzoru 8.9
Ważona suma kwadratów odchyłek między średnimi grupowymi
a średnią ogólną
1,27584 0,30486 0,00089 2,85448
4,44
1,47869
Wariancja między grupami (MSB) według wzoru 8.8
Wykład 5 Analiza współzależności. Analiza wariancji
F = 1,47869/0,68796 =2,1494. Na poziomie istotności α = 0,05 i
liczbach stopni swobody: k-1=4-1 = 3 (licznik) oraz n-k=264=22 (mianownik) w rozkładzie Fishera-Snedecora
odczytujemy: F0,05;3;22 = 3,05 > F = 2,1494
Nie można więc odrzucić H0, że średnie w populacji
generalnej są sobie równe. Brak zatem podstaw do
stwierdzenia, że mięso pochodzące od poszczególnych
rzeźników różni się pod względem cen.
Wykład 6 Analiza współzależności. Korelacja cech jakościowych
i ilościowych
1. Rodzaje zależności
a) Kryterium 1
-
przyczynowo-skutkowe,
korelacyjne,
symptomatyczne,
bilansowe
b) Kryterium 2
·
zależność funkcyjna,
zależność stochastyczna,
·
zależność korelacyjna.
c) Kryterium 3
- liniowe,
-
krzywoliniowe,
wg formalnej postaci równań
Wykład 6 Rodzaje zależności (kryterium 3).
Rodzaje zależności (brak korelacji)
100
90
80
Zmienna Y
70
60
50
40
30
20
10
0
0
10
20
30
40
50
Zmienna X
60
70
80
90
100
Wykład 6 Rodzaje zależności (kryterium 3).
Rodzaje zależności (bardzo silna korelacja dodatnia - r xy = 0,94)
80
y = 0,5392x + 19,999
70
R2 = 0,8839
Zmienna Y
60
50
40
30
20
10
0
0
10
20
30
40
50
Zmienna X
60
70
80
90
100
Wykład 6 Rodzaje zależności (kryterium 3).
Rodzaje zależności (wyraźna korelacja dodatnia - r xy = 0,5)
80
70
Zmienna Y
60
50
40
y = 0,24x + 35,65
R2 = 0,25
30
20
10
0
0
10
20
30
40
50
Zmienna X
60
70
80
90
100
Wykład 6 Rodzaje zależności (kryterium 3).
Rodzaje zależności (słaba korelacja dodatnia - r xy = 0,3)
90
80
70
Zmienna Y
60
50
40
30
y = 0,19x + 38,07
R2 = 0,09
20
10
0
0
10
20
30
40
50
Zmienna X
60
70
80
90
100
Wykład 6 Rodzaje zależności (kryterium 3).
Rodzaje zależności (bardzo silna korelacja ujemna- r xy = - 0,9)
70
60
y = -0,51x + 69,45
50
Zmienna Y
R2 = 0,81
40
30
20
10
0
0
10
20
30
40
50
Zmienna X
60
70
80
90
100
Wykład 6 Rodzaje zależności (kryterium 3).
Rodzaje zależności (wyraźna korelacja ujemna- rxy = - 0,6)
70
y = -0,33x + 61,56
60
R2 = 0,36
Zmienna Y
50
40
30
20
10
0
0
10
20
30
40
50
Zmienna X
60
70
80
90
100
Wykład 6 Rodzaje zależności (kryterium 3).
Rodzaje zależności (brak zależności liniowej - r xy = 0,00; bardzo silna korelacja krzywoliniowa, wielomian
drugiego stopnia)
60
zależność liniowa
y = -0,00x + 37,29
50
R2 = 0,00
Zmienna Y
40
30
20
Zależność paraboliczna
y = -0,0189x2 + 1,8314x + 3,6244
R2 = 0,9067
10
0
0
10
20
30
40
50
Zmienna X
60
70
80
90
100
Wykład 6 Rodzaje zależności (kryterium 3).