Co to jest dystrybuanta?

Download Report

Transcript Co to jest dystrybuanta?

Co to jest dystrybuanta?
Dystrybuanta empiryczna
Dystrybuantą empiryczną nazywamy funkcję określoną
na podstawie danych (xi, wi), dla i = 1, 2, ..., k
następująco:
0
 i

Fn ( x )   w s
 s 1
1


dla
x  x1
dla
x i  x  x i 1
dla
x  xk
i  1,2,...., k  1
gdzie xi – to uporządkowane niemalejąco wartości
badanej cechy, wi – odpowiadające im częstości
względne.
Przykład.
Sprawdzono 20 stron maszynopisu znajdując na
nich następujące liczby błędów:
0311220035 012211 0111
Dla cechy tej tworzymy szereg rozdzielczy.
Obliczamy częstości względne, liczebności
skumulowane oraz częstości względne
skumulowane.
Wyniki przedstawia tablica
Liczebności
skumulowane
wi =ni/n
Częstości
względne
skumulowane
5
0,25
0,25
8
13
0,40
0,65
2
4
17
0,20
0,85
3
2
19
0,10
0,95
4
0
19
0
0,95
5
1
20
0,05
1
Liczba
błędów
ni
0
5
1
xi
Częstości
względne
Dystrybuanta empiryczna ma postać
0
0,25

0,65
Fn ( x)  
0,85
0,95

1
x0
0 x 1
1 x  2
2 x3
3 x 5
x5
Dystrybuanta empiryczna
Dystrybuanta empiryczna jest funkcją niemalejącą,
przyjmującą wartości z przedziału [0, 1].
Jak
należy
interpretować
dystrybuantę?
Podobnie jak interpretuje się częstości względne
skumulowane. Fn(2) = 0,85 oznacza, że 85% stron
maszynopisu zawiera 2 lub mniej błędów.
Liczebności
skumulowane
wi =ni/n
Częstości
względne
skumulowane
5
0,25
0,25
8
13
0,40
0,65
4
17
0,20
0,85
Liczba
błędów
ni
0
5
1
2
Częstości
względne
Kiedy badana cecha jest zmienną losową?.
Badana cecha, czyli w tym przypadku liczba błędów
na 1 stronie może być zmienną losową, jeśli można
obliczyć jakie jest prawdopodobieństwo, że na jednej
stronie pojawi się 0, 1, 2, 3, 4 lub 5 błędów.
Zgodnie z prawem wielkich liczb, jeśli liczebność
próby dąży do nieskończoności, to
prawdopodobieństwo, że badana cecha przyjmie
daną wartość jest równe częstości względnej
P(X=xi)=wi
Jeśli wyznaczymy te prawdopodobieństwa wówczas
dla zmiennej losowej dyskretnej zdefiniujemy
funkcję prawdopodobieństwa.
Dystrybuanta zmiennej losowej X
skokowej
Dla zmiennej losowej skokowej – dyskretnejdystrybuanta jest funkcją, obliczaną na podstawie
wartości x1, ..., xn, przyjmowanych z
prawdopodobieństwem p1, ..., pn
wg wzoru
F(x) 
p
xi x
i
  x  
Dystrybuantą zmiennej losowej X
Dystrybuantą nazywamy funkcję F(x) określoną na
zbiorze liczb rzeczywistych tak by
F(x) = P(X  x)
Własności dystrybuanty zmiennej
losowej skokowej
• 0  F(x)  1
• F(x) jest funkcją prawostronnie ciągłą.
lim F( x )  0
x  
lim F( x )  1
x  
• F(x) jest funkcją niemalejącą i
przedziałami stałą
Zmienna losowa dyskretna i ciągła
Przykład 1. Przebadano krew 1000 osób pod
względem liczby białych krwinek – leukocytów.
Ich liczba wahała się od 4-7 tys./ mm³.
W tym przypadku badana cecha przyjmuje tylko
wartości całkowite, liczba tych wartości jest
skończona i wynosi ok. 3 tys.
Wprawdzie można obliczyć prawdopodobieństwo,
z jakim zmienna losowa przyjmuje każdą z tych
wartości, ale wygodniej analizować ją jak zmienną
losową ciągłą.
Przykład 2.
Przebadano krew 1000 kobiet pod względem liczby
czerwonych ciałek krwi – erytrocytów.
Stwierdzono, że ich liczba wahała się od 3 mln do
5 mln/ mm³.
Badana cecha przyjmuje wartości całkowite, ale
wartości tych jest ok. 2mln.
W tym przypadku zmienna losowa traktowana musi
być jako zmienna losowa ciągła.
Przykład 3.
Zbadano stężenie cholesterolu u 2000 osób
które przekroczyły 60 lat. Otrzymano wyniki z
przedziału od 120 mg/dl do 360 mg/dl.
W tym przypadku liczba wartości, które może
przyjmować zmienna losowa czyli stężenie
cholesterolu jest nieskończenie wiele.
Funkcja gęstości prawdopodobieństwa.
Dla zmiennej losowej ciągłej nie można więc
obliczyć prawdopodobieństwa, że zmienna losowa
przyjmuje konkretną wartość a to oznacza, że nie
można wyznaczyć funkcji prawdopodobieństwa tak
jak to jest w przypadku zmiennej losowej
dyskretnej. Można tylko obliczyć, jakie jest
prawdopodobieństwo, że zmienna losowa przyjmie
wartość z pewnego przedziału. Funkcja do
obliczania tego prawdopodobieństwa nazywana
jest funkcją gęstości prawdopodobieństwa.
Histogram częstości
0.15
0.10
0.05
0.00
czestosc na szerokosc przedzialu
0.20
1000 pomiarów, 70 przedz.
0
2
4
6
8
10
12
14
Zmienna losowa ciągła.
0.10
0.05
0.00
czestosc na szerokosc przedzialu
0.15
100000 pomiarów, 70 przedz.
0
2
4
6
8
10
12
14
Funkcja gęstości rozkładu
100000 pomiarów, 70 przedz.
0.05
0.10
f (x)
0.00
czestosc na szerokosc przedzialu
0.15
Jeśli zwiększamy liczbę pomiarów, histogram
częstości dąży do wykresu tzw. funkcji gęstości
rozkładu prawdopodobieństwa.
0
2
4
6
8
x
10
12
14
Funkcja gęstości – właściwości
• Funkcja gęstości rozkładu prawdopodobieństwa
pozwala obliczać prawdopodobieństwo znalezienia
zmiennej losowej w dowolnym przedziale.
b
Pa  X  b    f x dx
a
Funkcja gęstości
f(x)
b
 f ( x)dx
a
a
b
x
Funkcja gęstości prawdopodobieństwa
Zatem funkcja gęstości prawdopodobieństwa
zmiennej losowej ciągłej f(x) określona na zbiorze
liczb rzeczywistych, ma następujące własności
1. jest dodatnia f(x)  0
2dla dowolnych a<b
b
 f (x )dx  P(a  X  b)
a
Funkcja gęstości prawdopodobieństwa
Własności:

 f (x)dx  P(  X  )  1

Dystrybuanta zmiennej losowej ciągłej
Jeśli f(x) jest funkcją gęstości zmiennej losowej X to
dystrybuanta F(x) jest równa
x
F ( x) 


f (t )dt  P( X  x)
Wykres dystrybuanty
Dystrybuanta zmiennej losowej ciągłej jest funkcją
ciągłą, rosnącą, przyjmującą wartości od 0 do 1.
Wyznaczanie prawdopodobieństwa z
dystrybuanty
P(a < X  b ) = P(X  b) – P(X  a) =
F(b) – F(a)
• Dystrybuanta jednoznacznie określa rozkład
zmiennej losowej. Jeśli dana jest funkcja
gęstości można wyznaczyć dystrybuantę i
odwrotnie. Jeśli dana jest dystrybuanta można
wyznaczyć funkcję gęstości.
Własności
dF( x)
f ( x) 
 F ' ( x)
dx
Mając dystrybuantę można wyznaczyć funkcję
gęstości.
Własności funkcji prawdopodobieństwa dla
zmiennej losowej ciągłej
P(a  X  b)  P(a  X  b) 
P(a  X  b)  P(a  X  b)
b
P(a  X  b)  F (b)  F (a)   f ( x)dx
a