Transcript Wyk??ad 9
Tomasz Szumlak, WFiIS, 12/04/2013
1
Przypomnienie
Jednym z fundamentalnych zastosowań statystyki jest szacowanie parametrów
populacji, które opisane są odpowiednimi R.G.P. f(x)
Procedura ta rozpoczyna się od pobrania próbki (próbek) losowej, z danego
rozkładu, o rozmiarze n
Tak wybrana próbka służy do wyznaczenia odpowiedniej statystyki xs
Statystyka ta, jest zmienną losową, której wartość jest funkcją pobranej próbki
Statystyka posiada więc odpowiedni R.G.P., którego parametry używane są do
szacowania parametrów R.G.P. populacji, z której próbka została pobrana
Np. jeżeli interesuje nas wartość średnia populacji, wówczas za statystykę
przyjmujemy średnią arytmetyczną elementów pobranej próbki, przyjmujemy, że
jedna konkretna wartość średnia, wyznaczona dla danej próbki pochodzi z rozkładu
średnich
Niezwykły fakt – bez względu na rodzaj rozkładu opisującego populację, rozkład
średnich z prób charakteryzuje się pewnymi uniwersalnymi cechami (CTG)!!
2
Przypomnienie
T1:
Wartość oczekiwana rozkładu wartości średnich z prób
wyraża się jak poniżej:
Innymi słowy – wartość oczekiwana dla średniej z próby
dla badanej populacji
równa jest wartości oczekiwanej
T2:
Jeżeli badana populacja jest nieskończona, (lub w przypadku skończonej losujemy ze
zwracaniem) to wariancja rozkładu wartości oczekiwanych z prób wyraża się:
Popatrzmy na kilka, typowych, przykładów zastosowań
3
Rozkład dwumienny – frakcja sukcesów
Załóżmy, że badamy populację zawierającą nieskończoną liczbę elementów,
posiadającą rozkład dwumienny. Zakładamy, że p oznacza prob. „sukcesu” a q =
1 – p prob. „porażki”
Załóżmy, że możemy pobrać b. dużą liczbę próbek, dla których wyznaczamy
statystykę oznaczającą ułamek odniesionych sukcesów, P.
W wyniku dostaniemy rozkład statystyki P, której wartość oczekiwana i
wariancja wyrażają się następująco:
4
Przykład
Eksperyment polega na 120 krotnym rzucie symetryczną monetą . Jakie jest
prob., że reszki będą stanowić od 40% do 60% otrzymanych rezultatów.
1) Metoda korzystająca z wielkości bezwzględnych
40% 120 = 48 (47.5), 60% 120 = 72 (72.5)
Gdy n jest dostatecznie duże (w praktyce n ~ 30) oraz p nie jest bliskie 0, mamy:
Standardowa zmienna losowa Z podlega rozkładowi normalnemu, mamy więc:
Czyli „tłumacząc” na jednostki standardowe dostaniemy:
5
To samo, tym razem korzystając z wielkości względnych:
Jednostki standardowe:
6
Suma i różnica statystyk
Załóżmy, że badamy dwie populacje z których losujemy próbki (dużo!)
o licznościach odpowiednio n1 oraz n2 (dla ogólności przyjmiemy dwie różne
wartości).
Dla każdej z próbek, możemy następnie obliczyć odpowiednie statystyki:
Dla odpowiednio dużych wartości i, mamy więc dostęp do odpowiednich rozkładów
statystyk z pobranych prób, czyli dysponujemy rozkładami Z.L. S(1) oraz S(2).
Znamy więc parametry tych rozkładów:
Możemy następnie dla każdej możliwej kombinacji wyznaczyć różnicę mierzonych
statystyk:
Dostajemy w ten sposób rozkład różnic statystyk S(1) oraz S(2).
7
Suma i różnica statystyk
Ubierzmy to coś bardziej konkretnego – niech powyższe statystyki oznaczają
średnie z pobranych prób:
Zależności odpowiadające parametrom rozkładu różnic statystyk będą wyglądać
jak poniżej:
Zmienna standardowa ma przy tym postać:
Dalej, łatwo pokazać, że dla statystyk reprezentujących wielkości ułamkowe
dostaniemy:
8
Przykład
Badanie różnic statystyk, szczególnie pomocne przy porównywaniu wartości
średnich! Mamy np. poniższy problem:
Badamy dwa rodzaje żarówek firmy A i B. Producenci podają, że wartość
średniego czasu życia wynosi odpowiednio 1400 i 1200 godzin z odchyleniami
standardowymi wynoszącymi odpowiednio 200 oraz 100 godzin. Losujemy 125
żarówek firmy A i B. Jakie jest prob., że żarówki firmy A będą mieć średni czas
życia dłuższy o przynajmniej 160 godzin od żarówek firmy B?
Zakładamy, że Z.L. standardowa posiada rozkład normalny (duża próbka).
9
Przykład
Postępujemy podobnie jak w przypadku poprzedniego przykładu, poszukiwane
prob. wyniesie:
Jakie jest prob., że żarówki firmy A będą świecić dłużej od żarówek firmy B
o 260 godzin? (rozwiązujemy w domu…)
Podobne rozważania można przeprowadzić dla sumy statystyk:
10
Wariancja z próby
Niech zmienne losowe:
reprezentują losową próbkę o rozmiarze n, pobraną z pewnej populacji. Z.L.,
która reprezentuje wariancję próbki dana jest jak poniżej:
Mamy jednak poważny problem z tak zdefiniowaną statystyką – obciążenie
Blisko wariancji populacji dla dużych próbek…, możemy użyć lepszego,
nieobciążonego estymatora wariancji w postaci:
11
Histogramy - wstęp
12