Wnioskowanie statystyczne

Transcript Wnioskowanie statystyczne

Wnioskowanie statystyczne
CZEŚĆ II
dr Urszula Gierałtowska
Wnioskowanie statystyczne
Populacja generalna a próba statystyczna
Przedmiotem statystyki matematycznej są zasady i metody uogólniania wyników otrzymanych z
próby losowej na całą populację generalną, z której próba ta została pobrana.
Przez populację generalną lub krótko populację będziemy rozumieć zbiór jednostek (osób, rzeczy,
zjawisk) będących przedmiotem zainteresowania statystyka (badacza).
Elementy populacji nazywamy jednostkami badania.
Znajomość populacji generalnej oznacza:
→ w statystyce opisowej – wyniki badania całkowitego zbiorowości statystycznej ze względu na
cechę X,
→ w statystyce matematycznej – znajomość rozkładu zmiennej losowej X.
Wnioskowanie statystyczne
W ramach wnioskowania statystycznego wyróżnia się dwa zasadnicze działy:
→ estymację, czyli szacowanie wartości parametrów lub postaci zmiennej losowej w populacji
generalnej, na podstawie rozkładu empirycznego uzyskanego dla próby (wychodzimy od
wyników próby i na ich podstawie formułujemy wnioski o populacji generalnej),
→ weryfikację (testowanie) hipotez statystycznych, czyli sprawdzenie określonych przypuszczeń
(założeń) wysuniętych w stosunku do parametrów (lub rozkładów) populacji generalnej na
podstawie wyników z próby (wysuwamy określone przypuszczenie dotyczące populacji
generalnej, a następnie sprawdzamy je na podstawie wyników próby).
Zbiorowości generalnej (populacji) stawia się wymóg, by była jednorodna, tzn. aby jednostki statystyczne
w niej występujące ze względu na badaną cechę podlegały działaniu tych samych przyczyn
systematycznych, a ich zróżnicowanie w obrębie zbiorowości wynikało tylko z przyczyn przypadkowych.
Próbie stawia się również wymóg, aby była reprezentatywna, tzn. by możliwie dobrze odzwierciedlała
strukturę zbiorowości generalnej, z której została pobrana (tzn. struktura próby ze względu na interesujące
nas cechy musi być zbliżona do struktury populacji generalnej).
.
Wnioskowanie statystyczne
Reprezentatywność próby może być osiągnięta, gdy są spełnione dwa warunki:
→ elementy populacji są dobierane do próby w sposób losowy,
→ próba jest wystarczająco liczna (zagadnienie minimalnej liczebności próby)
Istnieją dwa sposoby pobierania próby: dobór celowy i losowy. Dobór celowy nie zabezpiecza przed
subiektywizmem w doborze. Stosując metody statystyki matematycznej, należy pobrać próbę w sposób
losowy. Przez losowy dobór elementów do próby będziemy rozumieli taki sposób postępowania, w
którym każda jednostka ma znane (różne od zera) prawdopodobieństwo znalezienia się w próbie, a dla
każdego podzbioru jednostek populacji generalnej, można ustalić prawdopodobieństwo dostania się do
próby. Próba tym lepiej reprezentuje populację generalną, z której została wylosowana, im jest liczniejsza.
Z losowaniem, czyli procesem pobierania prób losowych wiążą się następujące zagadnienia: operat
losowania i schemat losowania.
Wnioskowanie statystyczne
Operat losowania jest to kompletny wykaz jednostek losowania (czasami jednostka losowania ≠
jednostka badania). Operatem losowania mogą być wykazy jednostek losowania danego stopnia –
mapy lub szkice terenowe z zaznaczonymi granicami obszarów tworzących jednostki losowania
danego stopnia.
Operat losowania musi być:
– kompletny, tzn. powinien obejmować wszystkie jednostki badanej populacji, przy czym każda
jednostka badania powinna w nim figurować tylko raz,
– aktualny - ponieważ operaty losowania są oparte na wynikach spisów (lub rejestracji) z natury
rzeczy odzwierciedlają pewien przeszły stan faktyczny, który nie zawsze musi się pokrywać ze
stanem obecnym.
Wnioskowanie statystyczne
Sposób postępowania prowadzący do wyboru określonej próby losowej nazywa się schematem
losowania.
Klasyfikacja schematów losowania:
1. losowanie niezależne i zależne,
2. losowanie indywidualne i zespołowe,
3. losowanie jednostopniowe i wielostopniowe,
4. losowanie nieograniczone i ograniczone.
Ad.1. Losowanie niezależne zwane też losowaniem ze zwracaniem, to takie, w którym losujemy
jednostkę po jednostce z populacji generalnej z tym samym prawdopodobieństwem wyboru. A
zatem, żeby zachować takie samo prawdopodobieństwo wyboru jednostka raz wylosowana
ponownie zostaje włączona w skład populacji (w każdym etapie losowania niezależnego,
prawdopodobieństwo wylosowania danego elementu populacji do próby jest identyczne).
W losowaniu zależnym (losowaniu bez zwracania) jednostka raz wylosowana do próby nie bierze
udziału w dalszym losowaniu. Prawdopodobieństwo wyboru kolejnej jednostki zmienia się w miarę
losowania kolejnych jednostek do próby.
Wnioskowanie statystyczne
Ad. 2. Losowanie indywidualne ma miejsce wówczas, gdy losuje się pojedyncze elementy (jednostki
badania) z populacji generalnej. Losowanie zespołowe natomiast polega na tworzeniu zespołów (grup),
składających się z pewnej liczby jednostek badania i wylosowaniu pewnej liczby tychże zespołów
według określonej zasady. Próbę stanowią wówczas wszystkie jednostki badania z wylosowanych
zespołów (grup). W tym schemacie losowania w przeciwieństwie do losowania indywidualnego
jednostka losowania ≠ jednostka badania.
Ad. 3. W losowaniu jednostopniowym stosowany jest tylko jeden etap losowania próby – losowane są od
razu jednostki populacji generalnej. W losowaniu wielostopniowym cała populacja jest dzielona na
szereg coraz bardziej szczegółowych podgrup jednostek badania. Podgrupy te nazywa się jednostkami
losowania kolejnych stopni. Najpierw losuje się duże podgrupy jednostek badania zwane jednostkami
losowania 1 stopnia, następnie mniejsze podgrupy zwane jednostkami losowania 2 stopnia spośród
wylosowanych wcześniej jednostek losowania 1 stopnia itd.
Ad. 4. Losowanie jest nieograniczone jeśli odbywa się z całej populacji. Losowanie ograniczone dokonuje
się z poszczególnych rozłącznych części oddzielnie. Schematami losowania ograniczonego są losowanie
warstwowe (losowanie z pewnych rozłącznych i wewnętrznie jednorodnych części populacji (warstw),
na które poprzednio podzielono populację) i losowanie systematyczne (po losowym uporządkowaniu
jednostek do próby włączamy co k-ty element populacji).
Wnioskowanie statystyczne
Losowanie indywidualne, nieograniczone, niezależne nosi nazwę losowania prostego, a otrzymana próba
określana jest mianem próby prostej.
Próbą prostą o liczebności n elementów wylosowaną ze skończonej lub nieskończonej populacji
nazywa się taką próbę losową, której wyniki są niezależnymi zmiennymi losowymi o
jednakowych rozkładach identycznych z rozkładem populacji. Próbę prostą ze skończonej
populacji uzyskuje się stosując schemat losowania indywidualnego, nieograniczonego,
niezależnego (zwrotnego).
Próba prosta może być ściślej zdefiniowana jako n–wymiarowa zmienna losowa (wektor losowy)
X = (X1, X2, ..., Xn) o własnościach:
→ X1, X2, ..., Xn są niezależnymi zmiennymi losowymi,
→ każda zmienna losowa Xi (i–ty wynik w próbie) ma rozkład identyczny z rozkładem populacji,
tzn. jeżeli F(x) jest dystrybuantą rozkładu populacji, to F(xi) = F(x) dla i = 1, 2, ..., n.
Realizacją próby X nazywamy wektor x realizacji zmiennych losowych X1, X2, ..., Xn tworzących
próbę.
Wnioskowanie statystyczne
Estymacja to wnioskowanie o wartościach nieznanych wielkości charakteryzujących populację generalną
na podstawie próby losowej. Estymacja statystyczna dzieli się na: parametryczną i nieparametryczną.
Estymacja parametryczna to postępowanie prowadzące do szacowania parametrów rozkładu populacji
generalnej, zaś estymacja nieparametryczna dotyczy szacowania postaci funkcyjnej rozkładu populacji
generalnej.
Wyróżniamy parametryczną estymację:
– punktową (metodę szacunku, za pomocą której jako wartość parametru zbiorowości generalnej
przyjmuje się jedną konkretną wartość estymatora wyznaczonego na podstawie n-elementowej próby),
– przedziałową (wyznacza się przedział liczbowy, który z pewnym prawdopodobieństwem zawiera
nieznaną wartość szacowanego parametru zbiorowości generalnej).
Estymatorem Tn parametru Q rozkładu populacji generalnej nazywamy funkcję z próby
Tn= t(X1, X2, ... , Xn), która służy do oszacowania wartości parametru Q.
Oceną lub szacunkiem parametru jest konkretna wartość liczbowa estymatora z danej próby. Jeżeli jako
ocenę (szacunek) podajemy jedną wartość liczbową, nazywamy ją oceną punktową (szacunkiem
punktowym) parametru populacji.
Wyrażenie będące różnicą pomiędzy estymatorem a wartości parametry Q, czyli Tn – Q = z określamy błędem
szacunku lub błędem estymacji (jest to zmienna losowa o rozkładzie indukowanym przez rozkład estymatora).
Wnioskowanie statystyczne
Podstawowe własności estymatorów:
– nieobciążoność – estymator jest nieobciążony, jeżeli jego wartość oczekiwana jest równa parametrowi
populacji, do oszacowania której służy – E(Tn) = Q, n = 1, 2, ...,
Wyrażenie E(Tn) – Q = b(Tn) określamy jako obciążenie estymatora, zaś estymator jest
asymptotycznie nieobciążony, jeżeli:
lim b(Tn )=0
n
Własność nieobciążoności oznacza, że przy wielokrotnym losowaniu próby średnia z wartości
przyjmowanych przez estymator nieobciążony równa się wartości szacowanego parametru.
Własność ta gwarantuje otrzymanie za jego pomocą ocen wolnych od błędu systematycznego.
– zgodność – estymator jest zgodny, jeżeli prawdopodobieństwo, że jego wartość będzie bliska
wartości szacownego parametru, wzrasta wraz ze wzrostem liczebności próby tzn. dla dostatecznie
licznej próby szansa otrzymania oceny estymatora różnego od parametru jest bliska 0 (estymator jest
zgodny, jeżeli podlega działaniu prawa wielkich liczb).
lim PTn  Q   = 1,   0,
n 
przy  → minimum
Wraz ze wzrostem liczebności próby wzrasta dokładność oszacowania parametru Q. Przy małych
liczebnościach ważniejsza praktycznie jest zwykle kwestia nieobciążoności lub rozmiarów obciążoności
estymatora.
Wnioskowanie statystyczne
Współzależności pomiędzy własnościami zgodności i nieobciążoności:
 jeżeli estymator Tn parametru jest zgodny, to równocześnie jest asymptotycznie nieobciążony;
twierdzenie odwrotne nie jest prawdziwe,
 jeżeli estymator Tn parametru Q jest nieobciążony (lub asymptotycznie nieobciążony) oraz jeżeli jego
wariancja w miarę wzrostu liczebności próby zmierza do zera, to Tn jest estymatorem zgodnym.
Drugą zależność można również zapisać jako – jeżeli estymator Tn parametru Q spełnia następujące
warunki:
1) wariancja D2(Tn) tego estymatora dąży do zera przy n → ∞,
2) estymator jest nieobciążony lub jego obciążenie b(Tn) spełnia warunek lim b(Tn )=0
n
to estymator jest zgodny (dowód twierdzenia opiera się na nierówności Czebyszewa).
Jeżeli Tn jest zgodnym estymatorem parametru Q i h jest innym parametrem rozkładu związanym z Q
przekształceniem ciągłym h = h(Q), to estymator h(Tn) jest estymatorem zgodnym parametru h.
Wnioskowanie statystyczne
–
efektywność – estymator jest efektywny, jeżeli ma niewielką wariancję (a tym samym niewielkie
odchylenie standardowe) – pośród wszystkich nieobciążonych estymatorów parametru Q, ten o
najmniejszej wariancji nazwiemy najefektywniejszym (nierówność Rao-Cramera)
 
 
D 2 Tn*  D 2 Tni
Miarą efektywności estymatora jest
 
 
 
D 2 Tn*
eT = 2 i
D Tn
*
n
Estymator asymtotycznie najefektywniejszy:
 
0  e Tn*  1
 
lim e Tn* = 1
n 
Efektywność estymatora związana jest z wielkością rozrzutu wartości estymatora dookoła jego
nadziei matematycznej (w przypadku estymatora nieobciążonego, wariancja estymatora mierzy
rozrzut realizacji Tn dookoła prawdziwej wartości parametru)
– dostateczność – estymator Tn parametru Q jest dostateczny (wystarczający), jeżeli zawiera wszystkie
informacje, jakie na temat parametru Q można uzyskać na podstawie próby i żaden inny estymator nie
umożliwia otrzymania dodatkowych informacji o szacowanym parametrze.
Wnioskowanie statystyczne
Estymator Tn zgodny, nieobciążony i najefektywniejszy pozwoli najlepiej oszacować nieznany parametr Q,
ponieważ z dużym prawdopodobieństwem można przyjąć, że zaobserwowana wartość estymatora Tn jest
bliska rzeczywistej wartości Q.
Przy estymacji punktowej za ocenę parametru przyjmuje się wartość estymatora, więc korzystniejsza
jest sytuacja, że im wartości Tn grupują się bliżej wartości Q, tym niższa jest wariancja estymatora
(wybiera się ten, który w rozpatrywanym zbiorze jest najefektywniejszy, czyli e(Tn*) jest największe)
Pierwiastek z wariancji estymatora nieobciążonego nazywany jest błędem średnim szacunku. D(Tn)
mierzy oczekiwany rząd odchyleń wartości estymatora od prawdziwej wartości parametru (mierzy
przeciętną wielkość błędów szacunku jakie popełniono by in plus i in minus, gdyby z wyróżnionej
zbiorowości wielokrotnie pobierano próby złożone z n obserwacji i na ich podstawie szacowano Q za
pomocą estymatora Tn). Względny błąd średni szacunku określony jest jako D(Tn)/Q.
Wnioskowanie statystyczne
Statystyka jako zmienna losowa posiada pewien rozkład, który nazywamy rozkładem statystyki z próby.
Zależy on przede wszystkim od rozkładu populacji, z której pochodzi próba oraz od liczebności próby. Ze
względu na liczebność n próby rozkłady statystyk dzielimy na dokładne (rozkłady prawdopodobieństwa
wyznaczone dla dowolnej liczby naturalnej n, będącej liczebnością próby; są one wykorzystywane dla
małych prób) oraz graniczne (rozkład prawdopodobieństwa statystyki, który otrzymuje się przy założeniu
nieograniczenie dużej próby, n → ∞ (nie ma jednej, określonej wartości n od której uznajemy prób za
dużą. W niektórych przypadkach rozkład dokładny już dla n > 30 niewiele różni się od rozkładu
granicznego, w innych przypadkach potrzebujemy n > 100)).
Relacje między estymatorami a parametrami
Estymator (statystyka z próby)
Parametr populacji
x

s( x )

m
n
r
p

Wnioskowanie statystyczne
Przegląd ważniejszych estymatorów
Parametr
Estymator Tn
Wartość średnia 
X
X=
E(Tn)
Własności estymatora

Nieobciążony, zgodny,
najbardziej efektywny
2
Nieobciążony, zgodny,
najbardziej efektywny
i
n
Wariancja 2
2
*
S
S
2
 X
=
 X
=
 
2
i
n
i
X

2
n
n
Sˆ =
 S2
n 1
2
Wskaźnik struktury p
Współczynnik
korelacji 
Częstość względna
m/n
r=
cov(X, Y)
SX  SY
n  1 2
Zgodny
n
2
Nieobciążony, zgodny
p
Nieobciążony, zgodny,
najbardziej efektywny
1
  O 
n
Zgodny
Wnioskowanie statystyczne
Metody wyznaczania estymatorów

metoda momentów – estymatory zgodne, ale przeważnie obciążone i mało efektywne,

metoda największej wiarogodności – estymatory zgodne, asymptotycznie nieobciążone i
asymptotycznie efektywne,

metoda najmniejszych kwadratów (estymacja parametrów wyrażających różne zależności
pomiędzy zmiennymi losowymi) – estymatory zgodne, nieobciążone i najefektywniejsze w
klasie estymatorów liniowych.
Wnioskowanie statystyczne
Estymacja średniej
Rozkład średniej z próby to rozkład prawdopodobieństwa wszystkich wartości, jakie może przybrać
losowa zmienna
, gdy próba o liczebności n jest pobierana z określonej populacji.
Analizując centralne twierdzenie graniczne: jeżeli pobieramy próbę z populacji o średniej  i
skończonym odchyleniu standardowym , to rozkład średniej z próby dąży do rozkładu normalnego o
średniej  i odchyleniu standardowym 
n , gdy liczebność próby wzrasta nieograniczenie, czyli
przy dostatecznie dużych n: X : N;  / n , można zauważyć, rozkład średniej z próby zmierza do
rozkładu normalnego, niezależnie od rozkładu populacji, z której próba została pobrana.
Czy znane jest 
tak
nie
Czy próba jest duża (n-1 > 120)
nie
tak
Wnioskowanie statystyczne
Rozkład średniej arytmetycznej z próby
1. Cecha X w populacji generalnej ma rozkład normalny N (, ), gdzie  jest znane. Z populacji tej
pobieramy próbę n-elementową (X1, X2, …, Xn). Średnia arytmetyczna z próby ma rozkład:
N(  n . W praktyce wykorzystujemy zmienną standaryzowaną u, która ma rozkład normalny
N(0, 1). Zmienna standaryzowana ma postać:
x 
u=

n
2. Cecha X ma rozkład normalny N (, ), gdzie  jest nieznane (próba mała). Dokonujemy
przekształcenia zwanego studentyzacją
t=
x 
n 1
s( x )
Zmienna t ma rozkład t Studenta z n-1 stopniami swobody. Liczba stopni swobody jest równa
liczbie niezależnych obserwacji określających statystykę t (w tym przypadku jest równa n-1).
3. Cecha X w populacji ma rozkład dowolny,  nieznane (próba duża). Dla dużych prób zakładamy,
że  ≈ s . Korzystamy ze statystyki: u = x   n
s( x )
która ma rozkład normalny N(0, 1).
Wnioskowanie statystyczne
Rozkład wariancji z próby
1.
Cecha X ma w populacji generalnej rozkład N(, ; ,  – nieznane; n ≤ 30. Estymatorem parametru
2 jest wariancja z próby s2(x)
n  s 2 (x)
 =
2
2
która ma rozkład chi-kwadrat z n-1 stopniami swobody.
2. Cecha X ma w populacji generalnej rozkład N(, ; ,   nieznane; n > 30. Estymatorem
parametru 2 jest wariancja z próby s2(x) – korzystamy z rozkładu granicznego


2 2  N 2k  1;1
u = 2 2  2k  1, k = n  1
Statystyka u ma rozkład N(0,1)
Rozkład wskaźnika struktury z próby
Cecha X ma w populacji generalnej rozkład dwupunktowy, p – prawdopodobieństwo sukcesu, n > 100.
Gdy liczebność próby wzrasta ma zastosowanie centralne twierdzenie graniczne – frakcja rozkładu z
próby zbliża się do rozkładu normalnego o średniej p i odchyleniu standardowym
Statystyka u =
m
p
n
p1  p 
n
ma rozkład N(0, 1).
p1  p 
n
Wnioskowanie statystyczne
Estymacja przedziałowa – polega na budowie przedziału zwanego przedziałem ufności, który z
określonym prawdopodobieństwem będzie zawierał nieznaną wartość szacowanego parametru
P(t1(Q) < Q < t2(Q)) = 1 – a,
gdzie:
t1(Q), t2(Q) – oznaczają granice przedziałów ufności,
1 – a = g – jest to z góry przyjęte prawdopodobieństwo, iż przedział ufności pokryje daną wartość parametru,
które nazywa się współczynnikiem ufności (samo a określane jest prawdopodobieństwem błędu)
Przedział ufności to losowy przedział wyznaczony za pomocą rozkładu estymatora (statystyki z próby), a
mający tę własność, że z dużym, z góry zadanym prawdopodobieństwem, pokrywa wartość zadanego
parametru Q.
Interpretacja współczynnika ufności:
przy wielokrotnym pobieraniu prób n-elementowych i wyznaczaniu na ich podstawie funkcji t1(Q) oraz t2(Q)
średnio w (1 – a)100% przypadków otrzymalibyśmy przedziały pokrywające nieznaną wartość parametru Q,
a ·100% przypadków – przedziały nie pokrywające tej wartości.
Z reguły za 1 – a przyjmujemy: 0,9; 0,95, 0,99. Im wyższy współczynnik ufności (bliższy 1), tym większa
pewność co do tego, że skonstruowany przedział będzie pokrywał estymowany parametr populacji generalnej.
Niestety skutkuje to mniejszą precyzją oszacowania, gdyż długość przedziału ufności powiększa się.
Maksymalny błąd szacunku d: jest to połowa długości przedziału ufności.
Wnioskowanie statystyczne
Precyzja oszacowania jest to miara dokładności dopasowania. Jeżeli:
d≤5%
– oszacowanie charakteryzuje się dużą precyzją (wyniki z próby można uogólnić
na całą populację),
5 % < d ≤ 10 %
– uogólnienia wyników na populację generalną należy dokonywać ostrożnie,
d > 10 %
– nie należy dokonywać żadnych uogólnień na populację generalną.
Im krótszy przedział (różnica między górną i dolną granicą przedziału), tym bardziej precyzyjna
jest estymacja przedziałowa.
Im wyższa jest wartość współczynnika ufności, tym większa jest długość przedziału.
Im liczniejsza próba, tym węższy jest przedział ufności.
Wnioskowanie statystyczne
Przedziały ufności dla nadziei matematycznej
Budowa przedziału ufności dla wartości średniej (oczekiwanej)  = E(X) rozkładu populacji zależy od:
 typu rozkładu cechy X w populacji generalnej,
 znajomości wariancji (odchylenia standardowego)
 wielkości próby
1. Założenia: próba losowa pobrana z populacji o rozkładzie N(, ), gdzie  jest znane. Cel: budowa
przedziału ufności dla  przy współczynniku ufności 1-a. Przedział ufności ma postać:

 

P x  u a 
   x  ua 
 = 1 a
n
n

gdzie: ua – wartość zmiennej losowej u odczytana
z tablic dystrybuanty rozkładu normalnego
dla 1-a/2
Przedział ufności dla  jest to przedział, który z prawdopodobieństwem 1-a pokrywa nieznaną
wartość przeciętną w całej populacji generalnej.
Maksymalny błąd szacunku wynosi: d = u a 
Precyzja oszacowania wynosi:
dx =
ua 
x

n

n 100 %
Wnioskowanie statystyczne
2. Założenia: próba losowa pobrana z populacji o rozkładzie N(, ), gdzie  jest nieznane, liczebność
próby – mała (do 120). Cel: budowa przedziału ufności dla  przy współczynniku ufności 1-a.
Przedział ufności ma postać:
s(x)
s(x) 

Px  t a ,n1 
   x  t a ,n 1 
 = 1 a
n 1
n 1 

ta – wartość statystyki t-Studenta odczytana dla a i n-1
stopni swobody
Maksymalny błąd szacunku wynosi: d = t
Precyzja oszacowania wynosi:
dx =
ta 
a ,n 1

s( x )
n 1
s( x )
n  1 100 %
x
3. Założenia: próba losowa pobrana z populacji o dowolnym rozkładzie, gdzie  jest nieznane, a
liczebność próby jest duża (n > 120). Cel: budowa przedziału ufności dla  przy współczynniku ufności
1-a. Przedział ufności ma postać:
s( x )
s( x ) 

P x  u a 
   x  ua 
 = 1 a
n
n

s( x )
a
n
s( x )
ua 
n 100 %
Precyzja oszacowania wynosi: d x =
x
Maksymalny błąd szacunku wynosi: d = u 
Wnioskowanie statystyczne
Przykład:
1. W celach antropometrycznych dokonano na wylosowanych niezależnie 400 studentach Uniwersytetu
Szczecińskiego pomiarów mierząc m.in. długość stopy. Przeciętna długość stopy wyniosła 26,4 cm,
natomiast wiadomo, że w całej populacji długość stopy odchyla się od wartości przeciętnej średnio o
±1,7 cm. Oszacować punktowo i przedziałowo średnią długość stopy studenta (g = 0,9).
2. W grupie 50 studentów dokonano analizy czasu poświęconego na naukę statystyki. W próbie tej średni
czas wynosił 2,5 godziny, a odchylenie 1,5 godziny. Oszacuj przedziałowo przeciętny czas poświęcany
na naukę, jeżeli g = 0,98
3. W spółdzielni mieszkaniowej przeprowadzono badanie struktury mieszkań oddawanych do zasiedlenia
według ich powierzchni. Otrzymano wyniki:
Powierzchnia [m2]
Liczba mieszkań
30-40
13
40-50
17
50-60
48
60-70
30
70-80
15
Oszacować punktowo i przedziałowo przeciętną powierzchnię mieszkania (współczynnik ufności 0,95)
Wnioskowanie statystyczne
Przedziały ufności dla wariancji
1. Założenia: populacja generalna ma rozkład N(, ), ,  są nieznane, a próba jest mała (poniżej 30).
Cel: budowa przedziału ufności dla  przy współczynniku ufności 1-a. Przedział ufności ma postać:
Wartości 2a odczytujemy z tablic kwantyli
rozkładu 2 dla zadanego poziomu a i n-1
stopni swobody
2. Założenia: populacja generalna ma rozkład N, , ,  – są nieznane, a próba jest duża (n > 30).
Cel: budowa przedziału ufności dla  przy współczynniku ufności 1-a. Przedział ufności ma postać:
Wnioskowanie statystyczne
Przykład
1. W 5 gminach województwa zachodniopomorskiego określono poziom stopy bezrobocia: 17,1;
28,4; 13,3; 13,4; 18,0%. Na poziomie ufności 0,9 oszacuj odchylenie standardowe.
2. W spółdzielni mieszkaniowej przeprowadzono badanie struktury mieszkań oddawanych do zasiedlenia
według ich powierzchni. Otrzymano wyniki:
Powierzchnia [m2]
Liczba mieszkań
30-40
40-50
50-60
60-70
70-80
13
17
48
30
15
Oszacować przedziałowo odchylenie standardowe powierzchni mieszkań (współczynnik ufności 0,98).
Wnioskowanie statystyczne
Przedziały ufności dla odsetka (udziału, frakcji, wskaźnika struktury)
Założenia: liczba elementów w próbie n >100. Cel: budowa przedziału ufności dla frakcji (procentu) p
elementów posiadających wyróżnioną cechę w populacji generalnej. Przedział ufności ma postać:
Przykład:
W pewnym przedsiębiorstwie zbadano strukturę wypłat nagród pracowniczych. Wyniki przedstawia tabela:
Wysokość nagrody
Liczba pracowników
400-500
500-600
600-700
700-800
800-900
900-1000
20
30
60
80
40
20
Na poziomie ufności 0,92 oszacować odsetek osób, które otrzymały nagrodę powyżej 700 zł.
Wnioskowanie statystyczne
Problem minimalnej liczebności próby
Minimalna liczebność próby – taka liczebność próby, która zapewni wymaganą dokładność
(precyzję oszacowania) przy danym poziomie wiarygodności (prawdopodobieństwa).
Dokładność estymacji przedziałowej parametru Q mierzona jest długością przedziału ufności
wyznaczonego na podstawie wyników próby losowej. Z reguły z populacji generalnej pobiera się
tylko jedną n - elementową próbę:
• zbyt duża próba => zbyt duże koszty, opóźnienia czasu analizy wyników,
• zbyt mała próba => nie zapewnia danej dokładności i wiarygodności wnioskowania.
Aby wyznaczy minimalną liczebności próby należy ustalić:
• poziom współczynnika ufności,
• maksymalny błąd szacunku (długość przedziału ufności).
Wnioskowanie statystyczne
Dla estymacji przedziałowej średniej  w populacji
– przy znanym odchyleniu standardowym σ w populacji: poszukujemy takiej liczebność próby n,
dla której przy danym współczynniku ufności (1-α) połowa długości przedziału ufności d –
maksymalny błąd szacunku (tj. połowa długości przedziału ufności) – nie przekroczy ustalonej z
góry wartości.
u a2 2
n= 2
d
– przy nieznanym odchyleniu standardowym σ w populacji: losujemy próbę wstępną n0, obliczamy
średnią i wariancję z próby i na jej podstawie wyznaczamy właściwą liczebność próby:
n=
n=
t a2 ,n 0 1  Sˆ 2 ( x)
d2
t a2 ,n 0 1  s 2 ( x )
d2

n0
n 0 1
Jeżeli n ≤ n0 to próbę wstępną traktujemy jako właściwą.
Jeżeli zaś n > n0 to musimy próbę powiększyć o n – n0.
Wnioskowanie statystyczne
Dla estymacji przedziałowej wskaźnika struktury w populacji
W przypadku, gdy populacja generalna ma rozkład dwupunktowy z parametrem p; należy
oszacować metodą przedziałową ten parametr tak, by przy współczynniku ufności 1 – a
maksymalny błąd szacunku wskaźnika struktury nie przekroczył danej liczby d, wówczas:
 u a2 pq
,

 d2
n= 2
 ua ,

 4d 2
q = 1 – p,
gdy znany jest rząd wielkości p,
gdy nieznany jest rząd wielkości p,
ua – wartość odczytana z tablic dystrybuanty N(0, 1) dla 1 – a, tak aby P u  u a  = 1  a.
Wnioskowanie statystyczne
Przykład
1. W celu wyznaczenia przeciętnej długości drogi hamowania samochodu na asfalcie, przeprowadzono
przy prędkości 40 km/h 12 prób i otrzymano wyniki w metrach: 17,0; 19,0; 22,0; 20,5; 20,0; 21,0; 20,5;
20,0; 21,0; 18,0; 20,0; 21,0. Czy liczba prób jest wystarczająca do wyznaczenia przedziału ufności
średniej o długości 0,5 m i dla 1 – α = 0,95. Ewentualnie, jaką liczbę prób należy jeszcze
przeprowadzić?
2. W celu oszacowania przeciętnych miesięcznych wydatków studentów US na usługi kserograficzne w 2005
roku, wylosowano niezależnie 125 studentów. Jeżeli wiadomo, że odchylenie standardowe w całej
populacji wynosi 12zł, a średnie wydatki w próbie wyniosły 30 zł.
a) z jakim maksymalnym dopuszczalnym błędem można się pogodzić się, aby przy
prawdopodobieństwie 0,95 próba była wystarczająco liczna,
b) zakładając, że próba jest wystarczająca, przy jakim prawdopodobieństwie maksymalny błąd wyniesie
2 zł.
3. Jak liczna powinna być próba, aby oszacować odsetek pracowników awansujących trzykrotnie w
karierze zawodowej z maksymalnym błędem 2% przy prawdopodobieństwie 0,92?
Wnioskowanie statystyczne
Przedziały ufności dla współczynnika korelacji
Estymatorem współczynnika korelacji liniowej Pearsona jest współczynnik .
– przedział ufności dla współczynnika korelacji w populacji o rozkładzie normalnym N(, σ). Działa on
dla dowolnej próby, choć jest zwykle stosowany tylko dla prób małych (n < 30, choć wielokrotnie w
literaturze mówi się, że n < 200).
– przedział ufności dla współczynnika korelacji w populacji o rozkładzie normalnym N(, σ) dla dużej
próby
Wnioskowanie statystyczne
Przykład
Na podstawie transakcji kupna-sprzedaży działek budowlanych w Szczecinie w grudniu 1995 roku
otrzymano następujące informacje:
Wartość działki [w tys. zł]
9
10
15
16
18
18
19
19
Powierzchnia działki [w arach]
2
3
3
3
4
5
4
4
Oszacować przedziałowo współczynnik korelacji wartości sprzedanych działek względem ich powierzchni
(1-a = 0,95)

Wnioskowanie statystyczne

Transcript Wnioskowanie statystyczne

Directory