Zmienne losowe Rozkład prawdopodobieństwa zmiennej losowej dr hab. Ryszard Walkowiak prof. nadzw. Definicja zmiennej losowej Przeprowadzając badania statystyczne, również z zakresu ochrony środowiska, zwykle chcemy.

Download Report

Transcript Zmienne losowe Rozkład prawdopodobieństwa zmiennej losowej dr hab. Ryszard Walkowiak prof. nadzw. Definicja zmiennej losowej Przeprowadzając badania statystyczne, również z zakresu ochrony środowiska, zwykle chcemy.

Zmienne losowe

Rozkład prawdopodobieństwa zmiennej losowej

dr hab. Ryszard Walkowiak prof. nadzw.

Definicja zmiennej losowej

Przeprowadzając badania statystyczne, również z zakresu ochrony środowiska, zwykle chcemy ich wyniki odnieść do pewnej grupy obiektów, lub do pewnego obszaru. Taką grupę obiektów, wyróżniających się posiadaniem cechy, którą chcemy badać, nazywamy

populacją

.

Badane w danej populacji cechy, np. wzrost wszystkich studentów i studentek Uniwersytetu Przyrodniczego w Poznaniu, albo zawartość metalu ciężkiego w glebie, można utożsamiać ze

zmiennymi losowymi

, gdyż, z uwagi na wielką różnorodność czynników wpływających na wartości tych cech, przynależność wartości zmierzonej na konkretnym elemencie populacji do określonego przedziału jest zdarzeniem zachodzącym z pewnym prawdopodobieństwem.

Typy zmiennych losowych

Zmienne losowe dzielimy na: 

jakościowe

– nie dające się zmierzyć, np. płeć, kolor oczu, kształt liścia itp.

ilościowe

- mierzalne np. wzrost, masa korzeni, wielkość skażenia metalem ciężkim itp.

Będziemy zajmować się głównie zmiennymi losowymi ilościowymi. Te zmienne z kolei dzielimy na:  

dyskretne

– mogące przyjmować tylko konkretne, odosobnione wartości, np. liczba prosiąt w miocie, liczba nasion w kłosie,

ciągłe

– mogące przyjmować dowolną wartość z pewnego przedziału liczbowego, np. wzrost, masa nasion, zawartość metalu ciężkiego w glebie itp.

Rozkład prawdopodobieństwa zmiennej losowej

Przyjęcie pewnej konkretnej wartości przez zmienną losową dyskretną, lub wartości z konkretnego przedziału liczbowego przez zmienną losową ciągłą, nazywamy

zdarzeniem losowym.

Każdemu zdarzeniu losowemu można przyporządkować pewną liczbę rzeczywistą należącą do przedziału  0,1  , nazywaną

prawdopodobieństwem

tego zdarzenia.

Przyjęto, że prawdopodobieństwo zdarzenia

pewnego

równe

1

, a zdarzenia

niemożliwego 0

.

jest Przyjęto także, że suma prawdopodobieństw wszystkich możliwych zdarzeń rozłącznych, nazywanych też zdarzeniami wykluczającymi się, jest równa 1.

Rozkład prawdopodobieństwa zmiennej losowej

Załóżmy, że wybieramy losowo jedną osobę z pewnej grupy ludzi i że cechą badaną jest wiek tej osoby. Jeżeli przez A oznaczymy zdarzenie, że wiek tej osoby należy do przedziału  0, 20) lat, przez B, że należy do przedziału  20, 40) i przez C, że należy do przedziału  40,  ), to P(A) + P(B) + P(C) = P(A  wartości P(A), P(B) i P(C) , B  C) = 1 niezależnie od gdyż A  B  C, rozumiane w sposób następujący: wiek wylosowanej osoby należy do przedziału  0, 20) lub do  20,40) lub do  40,  ), jest zdarzeniem pewnym.

Rozkład prawdopodobieństwa zmiennej losowej

Zachowanie zmiennej losowej w całej populacji zależy od tego, jak (równa

1

) „masa prawdopodobieństwa”, utożsamiana czasem z częstością występowania zdarzenia, rozłożona jest na poszczególne wartości lub przedziały wartości zmiennej losowej. Funkcja, która przypisuje poszczególnym wartościom lub przedziałom wartości zmiennej losowej prawdopodobieństwa ich wystąpienia nazywa się

rozkładem prawdopodobieństwa

tej zmiennej losowej.

Rozkład prawdopodobieństwa zmiennej losowej dyskretnej

Rozkład prawdopodobieństwa zmiennej losowej wygodnie jest przedstawić graficznie.

W przypadku zmiennej losowej dyskretnej jest to diagram, czyli wykres, na którym na osi odciętych odkładamy wartości zmiennej losowej, a na osi rzędnych odpowiadające im prawdopodobieństwa, rozumiane jako częstości względne tych wartości.

Załóżmy, że badamy dwie grupy studentów, A i B. Każda liczy po 20 osób. Zmienną losową są wyniki egzaminu z pewnego przedmiotu.

0,7 0,6 0,5 0,4 0,3 0,2 0,1 6E-16 -0,1

Diagram rozkładu prawdopodobieństwa zmiennej losowej dyskretnej

Ocena A Liczebność B Częstość/ prawdopodobieństwo P(A) P(B)

2 2 5 2/20 = 0,1 5/20 = 0,25 3 4 12 4/20 = 0,2 12/20 = 0,6 4 5

Razem

8 6 20 2 1 20 8/20 = 0,4 2/20 = 0,1 6/20 = 0,3 1/20 = 0,05

P(A) P(B)

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 2 3 4 5 2 3 4 5

Momenty rozkładu prawdopodobieństwa zmiennej losowej dyskretnej

Rozkład zmiennej losowej może być scharakteryzowany za pomocą tzw. momentów. Są one szczególnie przydatne gdy zmienna losowa przyjmuje bardzo dużą liczbę wartości.

Najważniejszymi momentami są

wartość oczekiwana

i

wariancja

.

Momenty rozkładu prawdopodobieństwa zmiennej losowej dyskretnej

Wartość oczekiwana

zmiennej losowej dyskretnej

X

, oznaczana symbolem

E

(

X

), obliczana jest według wzoru:

E

(

X

) 

i n

  1

x i p i

gdzie

n

oznacza liczbę wartości zmiennej losowej X,

x i

oznacza

i p i

–tą wartość tej zmiennej,

i

= 1, 2, …, oznacza prawdopodobieństwo wartości

x i n

Momenty rozkładu prawdopodobieństwa zmiennej losowej dyskretnej

W naszym przykładzie

E

(

A

) = 2  0,1 + 3  0,2 + 4  0,4 + 5  0,3 = 3,9

E

(

B

) = 2  0,25+3  0,6+4  0,1+5  0,05 = 2,95 W interpretacji fizycznej, jeśli każdej wartości zmiennej losowej przyporządkować masę równą jej prawdopodobieństwu, to wartość oczekiwana jest środkiem ciężkości tak powstałego układu. Jeśli „podeprzemy” diagram rozkładu prawdopodobieństwa w punkcie odpowiadającym wartości oczekiwanej to pozostanie on w równowadze.

Z tego względu wartość oczekiwaną nazywa się

miarą położenia

rozkładu prawdopodobieństwa.

Ocena Częstość A B

2 3 4 5 2 4 8 6

Razem

20 20

P(A) P(B)

5 2/20 = 0,1 5/20 = 0,25 12 4/20 = 0,2 12/20 = 0,6 2 8/20 = 0,4 2/20 = 0,1 1 6/20 = 0,3 1/20 = 0,05

0,7 0,6 0,5 0,4 0,3 0,2 0,1 6E-16 -0,1

Momenty rozkładu prawdopodobieństwa zmiennej losowej dyskretnej

P(A) P(B)

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 2 3 4 5 2 3 4 5

Momenty rozkładu prawdopodobieństwa zmiennej losowej dyskretnej

Wariancja

jest miarą rozproszenia (rozrzutu) wartości zmiennej losowej względem jej wartości oczekiwanej.

Dla zmiennej losowej dyskretnej

X

oblicza się ją według wzoru:

VarA VarB VarX

i n

  1 

x i

E

(

X

)  2

p i

= (2–3,9) 2  0,1+(3–3,9) 2  0,2+(4–3,9) 2  0,4+(5–3,9) 2  0,3 = 0,89 =(2–2,9) 2  0,25+(3–2,9) 2  0,6+(4–2,9) 2  0,1+(5–2,9) 2  0,05 = 0,55 Zatem wartości zmiennej losowej B są bardziej skupione wokół swojej wartości oczekiwanej niż wartości zmiennej losowej A

Rozkład prawdopodobieństwa zmiennej losowej ciągłej

Zmienne losowa ciągła przyjmuje wartości z pewnego przedziału liczbowego (a, b).

Niekiedy nawet z przedziału (-

,

).

Zatem liczba możliwych wartości takiej zmiennej jest nieprzeliczalna.

Wynika stąd, że prawdopodobieństwo, że zmienna losowa ciągła przyjmie wartość równą jakiejś konkretnej liczbie jest równe zeru.

Różne od zera może być jedynie prawdopodobieństwo, że zmienna ta przyjmie wartość należącą do pewnego podprzedziału przedziału (a, b). Z tego względu, do opisu rozkładu prawdopodobieństwa zmiennej losowej ciągłej nie można używać diagramu. Jego odpowiednikiem jest

funkcja gęstości prawdopodobieństwa.

Funkcja gęstości prawdopodobieństwa

 Każda funkcja

f

(

x

) o następujących własnościach: 

f

(

x

)  0 dla każdej wartości

x

należącej do jej dziedziny; Pole pomiędzy wykresem funkcji

f

(

x

) a osią odciętych jest równe 1.

   

f

(

x

)

dx

 1 jest funkcją gęstości prawdopodobieństwa jakiejś zmiennej losowej.

Funkcja gęstości prawdopodobieństwa

Związek między funkcją gęstości prawdopodobieństwa a prawdopodobieństwem, że wartości zmiennej losowej X należą do przedziału (a, b)

P

(

a

X

b

) 

a

b f

(

x

)

dx a b

Momenty rozkładu prawdopodobieństwa zmiennej losowej ciągłej

Wartością oczekiwaną ciągłej zmiennej losowej X jest

E

(

X

)     

xf

(

x

)

dx

Wariancją ciągłej zmiennej losowej X jest

VarX

     

x

E

(

x

)  2

f

(

x

)

dx

Będziemy używać następujących oznaczeń:   (mi) 2 - wartość oczekiwana, (sigma kwadrat) - wariancja.

Funkcja gęstości prawdopodobieństwa

Szczególne znaczenie w analizie statystycznej mają zmienne losowe o

rozkładzie normalnym

.

Rozkład normalny opisany jest następującą funkcją gęstości prawdopodobieństwa:

f

(

x

)  1 2  2 exp     

x

2    2  2    Wykres tej funkcji nazywany jest krzywą Gaussa

Empiryczny rozkład prawdopodobieństwa

Często populacje, w których chcemy zbadać rozkład zmiennej losowej są tak duże, że nie możemy przebadać całej populacji. Pobieramy wówczas próbę losową

n

elementów populacji, na których mierzymy wartość badanej zmiennej losowej. Estymatorem wartości oczekiwanej jest wówczas

x

 1

n i n

  1

x i

Estymatorem wariancji jest  ˆ 2 

n

1  1

i n

  1 

x i

x

 2

Empiryczny rozkład prawdopodobieństwa

Na podstawie uzyskanych w ten sposób wartości chcemy określić rozkład prawdopodobieństwa badanej zmiennej losowej. Aby rozkład ten można było określić wystarczająco dokładnie, liczba elementów w próbie musi być duża, co znacznie utrudnia ich usystematyzowanie.

Dobrym przybliżeniem wykresu funkcji gęstości prawdopodobieństwa jest tzw.

histogram liczebności

. Jest to wykres słupkowy

szeregu rozdzielczego.

Empiryczny rozkład prawdopodobieństwa

Szereg rozdzielczy otrzymujemy w sposób następujący:     Znajdujemy największą ( R maks ) i najmniejszą (R min ) obserwację w próbie. Wszystkie obserwacje w próbie należą do przedziału  R min , R maks  .

Dzielimy przedział  R min , R maks 

przedziałami klasowymi

.

na

k

podprzedziałów zwanych

klasami

albo Długość klas,

d

, wyznaczamy w ten sposób, aby

k

d

było nieco większe niż R maks – R min , a początek pierwszego przedziału klasowego tak, aby R min należało do pierwszego a R maks do ostatniego przedziału klasowego.

Liczymy obserwacje należące do poszczególnych klas. Otrzymujemy w ten sposób

liczebności klas

.

  Liczebności klas dzielimy przez liczebność całej próby otrzymując w ten sposób

częstości

, które utożsamiać będziemy z prawdopodobieństwem, że wartość zmiennej losowej należy do danej klasy.

Bardzo ważną decyzją przy konstruowaniu szeregu rozdzielczego jest określenie liczby klas. Zależy od niej czytelność histogramu liczebności.

Empiryczny rozkład prawdopodobieństwa

Przykładem niech będzie 1437 próbek gleby pobranych z różnych, losowo wybranych miejsc dawnego województwa poznańskiego. W każdej próbce zbadano zawartość ołowiu. Okazało się, że minimalna zawartość była równa R min = 1,8 g/kg a maksymalna R maks = 69,8 g/kg dla różnych liczb klas histogram częstości przedstawiał się następująco.

Empiryczny rozkład prawdopodobieństwa

Zbyt dużo klas Histogram: pb (ołów) 30 25 20 15 10 5 0 Klasa

Empiryczny rozkład prawdopodobieństwa

Zbyt mało klas Histogram: pb (ołów) 800 700 600 500 400 300 200 100 0 0,0000 7,5556 15,1111 22,6667 30,2222 37,7778 45,3333 52,8889 60,4444 68,0000 75,5555 X <= Granica klasy

Empiryczny rozkład prawdopodobieństwa

Prawdopodobnie właściwa liczba klas Histogram: pb (ołów) 600 500 400 300 200 100 0 0,0000 9,7143 4,8571 19,4286 14,5714 29,1429 24,2857 38,8571 34,0000 48,5714 43,7143 58,2857 53,4286 68,0000 63,1429 72,8571 X <= Granica klasy

Empiryczny rozkład prawdopodobieństwa obliczanie momentów

Środki przedz. Klas.x

i

2,42855 7,28565 12,14275 16,99985 21,85695 26,71405 31,57115 36,42825 41,28535 46,14245 50,99955 55,85665 60,71375 65,57085 70,42795

n = Liczebność n i

8 152 583 382 169 81 23 12 8 11 4 3 0 0 1

1437 Częstość p

i

0,005567 0,105776 0,405706 0,265832 0,117606 0,056367 0,016006 0,008351 0,005567 0,007655 0,002784 0,002088 0 0 0,000696

E(X) =

x i p i

0,01352 0,770646 4,926391 4,519097 2,570511 1,505802 0,505314 0,304203 0,229842 0,353213 0,141961 0,116611 0 0,04901

16,00612

x i

- E(X)

-13,5776 -8,72047 -3,86337 0,993728 5,850828 10,70793 15,56503 20,42213 25,27923 30,13633 34,99343 39,85053 44,70763 49,56473 54,42183

Var(X) = (x

i

-E(X)) 2

p i

1,0263073 8,0439023 6,0554274 0,2625076 4,0259152 6,4630743 3,8776704 3,4827835 3,5576305 6,9521093 3,4086013 3,3153749 0 2,0610545

52,532359

Prawdziwe wartości momentów są następujące:

E

(

X

) = 16,00689

Var

(

X

) = 50,3841

Jak widać, wartość oczekiwana estymowana jest prawidłowo, niestety nie można tego powiedzieć o wariancji.

Empiryczny rozkład prawdopodobieństwa obliczanie momentów Powodem złej estymacji wariancji jest czynione w szeregu rozdzielczym założenie, że wszystkie obserwacje należące do danego przedziału klasowego są równe środkowi tego przedziału. Aby ten błąd zminimalizować, wariancję dla szeregu rozdzielczego estymuje się według następującego wzoru:  ˆ 2 

n n

 1    1

n i k

  1

x i

2

n i

   1

n i k

  1

x i n i

  2 

h

12 2    gdzie: n k n i h liczebność próby liczba przedziałów klasowych liczba obserwacji należąca do i-tego przedziału klasowego, i = 1, 2, …, k długość przedziału klasowego.

Empiryczny rozkład prawdopodobieństwa obliczanie momentów

x i

2,42855 7,28565 12,14275 16,99985 21,85695 26,71405 31,57115 36,42825 41,28535 46,14245 50,99955 55,85665 60,71375 65,57085 70,42795 S

= n i

x i n i

8 19,4284 152 583 382 169 81 23 12 8 11 4 3 1107,4188 7079,22325 6493,9427 3693,82455 2163,83805 726,13645 437,139 330,2828 507,56695 203,9982 167,56995 0

0

0 1 0 70,42795

1437 23000,79705

x i 2 n i

47,18284082 8068,26578 85961,23812 110396,0518 80735,7385 57804,87786 22924,96278 15924,20878 13635,841 23420,38261 10403,8164 9359,896048 0 0 4960,096141

443642,5587

h Var(X)

4,8571 50,60162 Przypomnijmy, że prawdziwą wartością wariancji jest

Var

(

X

) = 50,3841

Jak widać, wariancja jest estymowana znacznie lepiej.

Literatura

Radosław Kala (2002):

Statystyka dla przyrodników.

Wydawnictwo Akademii Rolniczej im. A. Cieszkowskiego w Poznaniu.

Czesław Platt (1981):

Problemy rachunku prawdopodobieństwa i statystyki matematycznej,

PWN Warszawa