Transcript Wyk??ad 8

Tomasz Szumlak, WFiIS, 12/04/2013
1
Wnioskowanie statystyczne
„Praktyczny problem” – chcemy wyciągnąć „znaczące” wnioski dotyczące własności (lub
zbioru własności) pewnej (zwykle dużej) grupy/zbioru ludzi, zjawisk, przedmiotów etc.
W statystyce, taką grupę/zbiór nazywamy populacją
UWAGA
Pojecie populacji, powinniśmy traktować ostrożnie, czasami mamy na myśli oczywiście bardziej
potoczne znaczenie, np., populacja Szydłowca (badamy długość życia, zarobki etc.). Najczęściej jednak
stosujemy to pojęcie bardziej ogólnie, np., populacją może być zbiór wszystkich krzeseł w danej sali
wykładowej.
KONIEC UWAGI
Jeżeli populacja jest duża (np. trudno w praktyce zapytać każdego mieszkańca Szydłowca
o zarobki…) możemy jedynie przeanalizować jej część – zwaną wówczas próbą
reprezentatywną lub próbą losową
Chcemy więc wyciągnąć wnioski ilościowe na temat całej populacji używając wiadomości
wyznaczonych przy użyciu próby losowej – to jest podstawą wnioskowania statystycznego!
Pobierania próby nazywamy próbkowaniem statystycznym – istnieje cała gałąź statystyki
zajmująca się teorią próbkowania!
2
Wnioskowanie statystyczne
Przykład 1
Fabryka „Stemp-Bolts” produkuje nity, w ciągu tygodnia populacja wyprodukowanych nitów N = 120000.
Chcemy wyciągnąć wnioski na temat liczby wadliwych nitów. W tym celu pobieramy próbkę 60 nitów
każdego dnia (o różnych porach, z różnych linii produkcyjnych etc.) i przekazujemy do kontroli jakości
N = 120000, n = 360
Przykład 2
Badamy uczciwość monety zapisując wyniki rzutów. Wybieramy n = 60 i notujemy liczbę wyrzuconych
orłów i reszek.
N=
,
n = 60
3
Próbkowanie (podstawowe własności)
Możemy dokonywać próbkowania używając losowań z powtórzeniami lub bez powtórzeń.
W języku wnioskowania statystycznego mówimy o tym, że dany przedstawiciel populacji
może być reprezentowany w próbce wiele razy lub tylko raz.
Ważna konsekwencja – załóżmy, że mamy skończoną populację. Używając losowania
z powtórzeniami możemy w zasadzie traktować ją jak populację nieskończoną – istnieje
bardzo ciekawa technika wnioskowania oparta na tej zasadzie – bootstrap.
Rozumiemy intuicyjnie, że jakość wyników zależy całkowicie od sposobu pobierania próby
(reprezentatywność). Np., badając zarobki w Szydłowcu, możemy przeprowadzić ankietę
wśród pracowników ZUS – rezultaty będą znacząco obciążone!
Podstawą do wybrania dobrej (reprezentatywnej próbki) jest zapewnienie (w jak
największym stopniu) tego, aby każdy element populacji miał jednakową szansę znalezienia
się w próbce (możemy użyć generatora liczb losowych).
4
Próba
reprezen.
Wnioskowanie
dotyczące populacji
Losowanie
próbki
Populacja
Populacja
5
Próba
reprezen.
Wnioskowanie
dotyczące populacji
Losowanie
próbki
Populacja
Populacja
6
Parametry populacji
Mówimy, że znamy populację, wtedy i tylko wtedy, gdy znana jest funkcja f(x)
reprezentująca R.G.P. dla stowarzyszonej Z.L. X
Np., interesuje nas rozkład X  wysokości (wagi, itp.) studentów (N = 19000). Znajomość
populacji oznacza więc, że znamy rozkład X czyli f(x)!
Jeżeli, wysokość studentów posiada rozkład normalny, mówimy wówczas, że populacja
charakteryzuje się rozkładem normalnym.
Wiemy już, że R.G.P. posiada pewne istotne parametry, np., wartość oczekiwaną ,
wariancję , skośność itp. Jeżeli funkcja f(x) opisuje własności pewnej populacji to
wielkości te stanowią tzw. parametry populacji. UWAGA parametry populacji, traktujemy
zawsze jako (znane!) liczby stałe!
7
Parametry populacji
Znacznie częściej nie znamy! funkcji f(x) dla badanej populacji – w konsekwencji nie znamy
żadnych parametrów populacji.
Możemy:
- Założyć, że zjawisko (czytaj zmienna losowa), które badamy ma rozkład o postaci f(x)
- parametryzujemy ogólną postać: f(x; , )
- losujemy próby i przeprowadzamy wnioskowanie statystyczne
8
Statystyki
Mówimy, że pobieramy próby losowe z populacji aby użyć ich do wyznaczenia wielkości,
które służą do estymowania (również testowania hipotez – o tym później) parametrów
populacji.
Wysokość studentów – pobieramy próbę o liczności n = 100 – co się dzieje?
- X – Z.L. oznaczająca wysokość studentów
- Pobieramy próbę: losujemy pierwszą osobę, dostajemy wysokość x1
- Mamy więc, konkretną wartość dla zmiennej losowej X1
- Powtarzamy tą operację dla 2, 3, …, 50, … 100 osoby
(UWAGA! Dla N = 19000 i n = 100, losowanie ze zwracaniem i bez w zasadzie bez różnicy!)
Mamy więc próbę: (x1, x2, x3, …, x100), w naszym przypadku Z.L. Xi są niezależne (i
posiadają taki sam R.G.P) mamy więc:
DEF
Każda wielkość, wyznaczona na podstawie pobranej próby, służąca do estymacji parametru
populacji nazywana jest statystyką. Formalnie, statystyka wyznaczona na podstawie
pobranej próby jest funkcją Z.L.
9
Statystyki
Statystyka, zdefiniowana jak powyżej, jest sama zmienną losową. Wartości statystyk
reprezentowane są, poprzez wartości Z.L. będących elementami pobranych prób:

Zwykle, dla każdego estymowanego parametru populacji wyznaczamy odpowiednią
statystykę na podstawie pobranej próby. Metoda wyznaczania statystyk podlega dość
skomplikowanym regułom. Badamy tzw. wydajność i obciążenie danej statystyki (więcej
przy omawianiu teorii estymacji).
Umowa:
• parametry populacji oznaczamy literami greckimi: , 2, …
• odpowiadające im statystyki oznaczamy literami z naszego alfabetu: m, s2, …
Podsumowując
Statystyka jest, w odróżnieniu od parametru populacji, Z.L. – podlega więc rozkładowi
Pobierając k prób, możemy stworzyć R.G.P. dla danej statystyki
Dla takiego rozkładu możemy wyznaczyć wartość oczekiwaną, wariancję itp..
10
Wartość oczekiwana dla próby
Załóżmy, że pobraliśmy próbę o liczności n, wówczas dla tej próby mamy n zmiennych
losowych, każda podlegająca temu samemu rozkładowi (albo inaczej – losujemy zmienne z
tego samego rozkładu):
Wartością średnią pobranej próby nazywamy zmienną losową jak poniżej:
Jeżeli, ciąg (x1, x2, x3, …, x100) reprezentuje próbę, wówczas średnia próby wyraża się:
11
Rozkład wartości średnich z prób
Co się dzieje?
Badamy populację o rozkładzie f(x) – pobieramy próby o liczności n, wówczas naturalnie
dochodzimy do pojęcia rozkładu prob. dla statystyki
W tym przypadku prawdziwe są poniższe twierdzenia:
T1:
Wartość oczekiwana rozkładu wartości średnich z prób
wyraża się jak poniżej:
Innymi słowy – wartość oczekiwana dla średniej z próby równa jest wartości oczekiwanej
badanej populacji
T2:
Jeżeli badana populacja jest nieskończona, (lub w przypadku skończonej losujemy ze
zwracaniem) to wariancja rozkładu wartości oczekiwanych z prób wyraża się:
12
Rozkład wartości średnich z prób
Co się dzieje?
Badamy populację o rozkładzie f(x) – pobieramy próby o liczności n, wówczas naturalnie
dochodzimy do pojęcia rozkładu prob. dla statystyki
W tym przypadku prawdziwe są poniższe twierdzenia:
T1:
Wartość oczekiwana rozkładu wartości średnich z prób
wyraża się jak poniżej:
Parametr
populacji
Innymi słowy – wartość oczekiwana dla średniej z próby równa jest wartości oczekiwanej
badanej populacji
T2:
Jeżeli badana populacja jest nieskończona, (lub w przypadku skończonej losujemy ze
zwracaniem) to wariancja rozkładu wartości oczekiwanych z prób wyraża się:
Parametr
populacji
13
Rozkład wartości średnich z prób
T3:
Jeżeli populacja, z której pobieramy próby, podlega rozkładowi normalnemu o średniej
oraz wariancji 2 , wówczas wartość średnia z próby podlega rozkładowi normalnemu o
tej samej średniej i wariancji /n
T4 (bardzo istotne):
Załóżmy, że rozpatrujemy pewien R.G.P. (dowolny), dla którego istnieją: wartość
oczekiwana  oraz wariancja 2 . Standardowa Z.L. związana z wartością średnią
z próby, ma postać:
i podlega w granicy, rozkładowi normalnemu:
Zakładamy, że populacja ta jest nieskończona
14
Rozkład wartości średnich z prób
T4 jest konsekwencją Centralnego Twierdzenia Granicznego (tw. jest stosunkowo
prosto sformułowane ale dowód jest niezwykle skomplikowany…)
CTG
Załóżmy, że (x1, x2, x3, …, xn) reprezentuje próbę losową pochodzącą z pewnego
rozkładu o skończonej wartości oczekiwanej oraz wariancji (, 2). Jeżeli liczność
pobranej próby dąży do nieskończoności: n  , to wówczas rozkład sumy:
dąży do rozkładu:
Stąd używając T3 dostajemy T4
15
16
Pokażmy, że T1 oraz T2 są prawdziwe:
Dla średniej z prób:
Dla wariancji:
17