Estymacja parametrów populacji

Download Report

Transcript Estymacja parametrów populacji

Estymacja parametrów populacji

Populacja generalna, populacja próbna, estymacja punktowa i przedziałowa

Populacja generalna

Zbiór wartości interesującej badacza cechy (lub cech) u wszystkich jednostek populacji fizycznej tworzy tzw.

populację generalną

.

Jeżeli zbiór elementów populacji generalnej jest skończony, to będziemy ją określać jako populację

skończoną

.

Przykładem może być np.

zbiór pracowników pewnego zakładu produkcyjnego.

W przypadku, gdy zbiór elementów populacji jest nieskończony, to populację określamy jako

nieskończoną.

Przykładem niech będzie zbiór możliwych relacji złotego do euro (czy innej waluty).

2

Populacja generalna (c.d.)

W populacji mogą nas interesować cechy ilościowe, które będziemy nazywać

mierzalnymi

jak i cechy jakościowe, czyli

niemierzalne

.

Przykładowo koszt produkcji pewnego detalu jest cechą mierzalną, a jego kolor cechą jakościową.

Formalnie, populację generalną będziemy traktować jako

zbiór niezależnych realizacji pewnej zmiennej losowej jedno lub wielowymiarowej

.

3

Badanie statystyczne

Celem badania statystycznego będzie najczęściej poznanie rozkładu danej cechy jak i oszacowanie charakterystyk tego rozkładu.

Jeżeli zmienna losowa

X

jest modelem probabilisty cznym dla pewnej cechy w populacji generalnej, to

rozkład częstości

występowania różnych wartości tej cechy jest opisany

rozkładem prawdopodobieństwa

zmiennej modelowej, a parametry rozkładu tej zmiennej są jednocześnie

parametrami populacji

.

4

Badanie statystyczne (c.d.)

Badanie statystyczne może być badaniem  .

pełnym

- jeżeli obejmuje wszystkie elementy populacji generalnej; 

częściowym

- jeżeli ograniczone jest do pewnej części populacji generalnej.

Tę część populacji generalnej, na której wykonywane jest badanie statystyczne nazywamy

populacją próbną

lub krótko

próbą

.

Statystyka matematyczna zajmuje się tylko badaniami częściowymi, przy czym muszą być jeszcze spełnione określone warunki

doboru próby

.

5

Losowy dobór próby

Podstawowym warunkiem, jaki musi być spełniony w badaniach częściowych jest losowy dobór próby. Tak otrzymaną próbę nazywamy

próbą losową

.

Jeżeli elementy próby zostały pobrane w taki sposób, aby:  każdy element populacji generalnej miał tę samą szansę znalezienia się w próbie;  losowanie elementów próby było niezależne; to możemy oczekiwać, że prawidłowości występujące w populacji znajdą swoje odbicie w próbie.

6

Rozkład empiryczny cechy

Podstawą analizy statystycznej dowolnej cechy jest określenie jej empirycznego rozkładu. Badając czas obsługi przy kasie sklepowej 100 losowo wybranych klientów uzyskano następujące wyniki (w sekundach): (

x

1

j

x

2

j

n j

< 20 5 20 – 40 9 40 – 60 18 60 – 80 31 80 – 100 21 100 – 120 13 > 120  3 100

w j

n j n

0.05

0.09

0.18

0.31

0.21

0.13

0.03

1 7

Rozkład empiryczny cechy (c.d.)

Dane empiryczne zestawione w w naszym

szereg rozdzielczy

przykładzie zostały . Analizowana cecha (czas obsługi klienta przy kasie) jest cechą ciągłą, stąd częstości (prawdopodobieństwa empiryczne) zostały przyporządkowane odpowiednim przedziałom wartości cechy.

Przedziały te nazywamy różnicę między krańcami przedziału nazywamy

rozpiętością przedziału

.

przedziałami klasowymi

, a 8

Graficzna prezentacja rozkładu

Histogram for Czas 15 10 5 0 35 30 25 20 0 20 40 60 Czas 80 100 120 140 9

Rozkład z próby

Jak wcześniej powiedzieliśmy, próba ma dostarczyć informacji o analizowanej zmiennej w populacji, między innymi na podstawie elementów próby będziemy szacować (oceniać, estymować) nieznane parametry populacji.

Estymatorem (statystyką) będziemy nazywać określoną funkcję wyników próby. Przykładowo estymatorem średniej z próby jest funkcja:

x

 1

n i n

  1

x i

Estymator (statystyka) dla konkretnych prób będzie przyjmował na ogół

różne wartości

, ponieważ jako funkcja zmiennych losowych sam jest

zmienną losową

. Tym samym ma pewien rozkład, który będziemy nazywać

rozkładem z próby

.

10

Rozkład z próby, estymator nieobciążony

W zastosowaniach praktycznych najczęściej korzystamy z estymatorów nieobciążonych.

Rozważmy w populacji generalnej pewną zmienną losową

X

charakteryzowaną parametrem 

.

Niech statystyka:

f x

1

x n

)

będzie oceną nieznanego parametru  ten spełnia warunek:

E

 

.

Jeżeli estymator to nazywamy go

estymatorem nieobciążonym

.

11

Estymatory punktowe

~  oraz niech

x i

(

i = 1, 2, ..., n

) oznacza

n

-elementową próbę losową. Ocenami niebciążonymi

średniej

generalnej są odpowiednio: i

wariancji w populacji

1

n i n

  1

x i

  2 

s

2 

i n

  1 (

x i n

  1

x

) 2 Estymatorem odchylenia standardowego w populacji jest

odchylenie standardowe w próbie

:  

s

2 12

Rozkład średniej arytmetycznej

x

 1

n

 

i x i

będzie

oceną nieobciążoną średniej w populacji

. Średnia arytmetyczna jest oczywiście także zmienną losową normalną o parametrach:

X

~ 

n

) Oznacza to, że wartość oczekiwana średniej jest taka sama jak cechy

X

w populacji, a wariancja jest

n

-krotnie mniejsza.

13

Rozkład średniej arytmetycznej (c.d)

Oszacowaniem odchylenia standardowego średniej jest wyrażenie:  

x

s x

s

2

n

które będziemy nazywać

błędem średniej arytmetycznej

.

Parametr ten można zinterpretować następująco: przyjmując za ocenę nieznanej średniej generalnej

m

ocenę nieobciążoną z próby

popełniamy błąd

rzędu jej 

S x

14

Przykład estymacji punktowej danych z przykładu o czasie obsługi klientów (dane z szeregu)

Summary Statistics for Czas Liczebność Count = 100 Average = 71.39

Variance = 812.18

średnia Wariancja w próbie Standard deviation = 28.4988

Minimum = 7.0

standardowe Maximum = 132.0

Sum = 7139.0

The StatAdvisor -------------- 15 This table shows summary statistics for Czas. It includes measures of central tendency, measures of variability, and measures of shape. Of particular interest here are the standardized skewness and standardized kurtosis, which can be used to determine whether the sample comes from a normal distribution. Values of these statistics outside the range of -2 to +2 indicate significant departures from normality, which would tend to invalidate any statistical test regarding the standard deviation. In this case, the standardized skewness value is within the range expected for data from a normal distribution. The standardized kurtosis value is within the range expected for data from a normal distribution.

Wykres typu “pudełko z wąsami” dla danych dotyczących czasu obsługi

Box-and-Whisker Plot 0 30 60 Czas 90 120 150 16

Wpływ wielkości próby na dokładność oceny

m

Dla zademonstrowania znaczenia wielkości próby można zrealizować mały eksperyment symulacyjny. Ze sztucznie utworzonej normalnej populacji generalnej o zadanych parametrach (m=28,45 i  =8) będziemy kolejno pobierać serie 100 prób losowych o liczebnościach kolejno n=10, n=20 i n=100.

Dla każdej z serii wyznaczymy estymatory nieobciążone średniej generalnej m.

Uzyskane wyniki przedstawimy graficznie na kolejnych wykresach.

17

Symulacja, n=10

I seria, n=10, 29,2 29,0 28,8 28,6 28,4 28,2 28,0 27,8 0 20 40 60 80 100 120 18

Symulacja, n=20

II seria, n=20 29,2 29,0 28,8 28,6 28,4 28,2 28,0 27,8 0 20 40 60 80 100 120 19

Symulacja, n=100

III seria, n=100 29,2 29,0 28,8 28,6 28,4 28,2 28,0 27,8 0 20 40 60 80 100 120 20

Symulacja, n=10 i n=100

29,2 29,0 28,8 28,6 28,4 28,2 28,0 27,8 0 20 40 60 80 100 120 29,2 29,0 28,8 28,6 28,4 28,2 28,0 27,8 0 20 40 60 80 100 120 21

Estymacja przedziałowa parametrów populacji

Prawdopodobieństwo tego, że estymator punktowy przyjmie wartość szacowanego parametru, jest zawsze równe zero (dla populacji ciągłych). Oznacza to, że przy estymacji punktowej zawsze popełniamy błąd. Jest to jeden z powodów, dla którego wprowadza się tzw.

estymację przedziałową.

Pojęcie przedziału ufności zostało wprowadzone do statystyki przez Jerzego

Spławę-Neymana

.

22

Przedział ufności

Niech cecha parametrem dobieństwa

X

ma w populacji rozkład określony nieznanym  . Jeżeli dla ustalonego z góry prawdopo-

1-

 wyznaczymy takie dwie funkcje wyników próby

a = f(x 1 , x 2 , ..., x n )

będzie warunek: i

b = f(x 1 , x 2 , ..., x n ),

że spełniony

P(a <

< b) = 1 -

 to uzyskany przedział (

a,b

) będziemy nazywać

działem ufności

parametru  .

Ustalone z prawdopodobieństwo

1-

,

z jakim wyznaczony przedział pokrywa nieznany parametr  nazywamy

prze-

góry

poziomem ufności

.

23

Przedział ufności (c.d.)

Granice przedziału ufności są

losowe

, a więc dla konkretnych prób będziemy uzyskiwać różne wartości. Uzyskany konkretny przedział będziemy interpretować następująco:

w

1-

procentach przypadków przedział (

a, b

) pokrywa nieznaną wartość parametru

.

Oznacza to jednocześnie, że średnio w przypadków wyznaczony przedział 

nie

procentach

pokrywa

szacowanego parametru.

Prawdopodobieństwo  jest ryzykiem takiego błędu, najczęściej prawdopodobieństwo to będziemy nazywać

poziomem istotności

.

24

Przedział ufności (c.d.)

Dokładność granicą: estymacji

d = b - a.

parametru określa rozpiętość przedziału ufności będąca różnicą między jego górną i dolną Rozpiętość przedziału ufności zależy między innymi od przyjętego poziomu ufności

1-

:

im to prawdopo dobieństwo jest bliższe jedności, tym rozpiętość przedziału jest większa (a precyzja oceny mniejsza).

W zastosowaniach praktycznych najczęściej stosujemy poziomy ufności rzędu 0.90, 0.95 czy 0.99 (  odpowiednio 0.10, 0.05 czy 0.01) 25

Przedział ufności dla średniej

m

~ 

x i

(

i = 1, 2, ..., n

) oznacza

n

-elementową próbę losową.

Statystyka:

t

x

m s n

x

m s x

ma rozkład

t

-Studenta z liczbą stopni swobody

v = n - 1.

26

Przedział ufności dla średniej

m

(cd)

Dla ustalonego  znajdziemy zawsze taką wartość której spełniona będzie równość: P( |t| <

t

,v

) = 1 

t

,v

dla Po niezbędnych przekształceniach otrzymujemy przedział ufności dla średniej generalnej

m

:

t

 ,

s v x x t

 ,

s v x

)  27

Wpływ wielkości próby na rozpiętość przedziału ufności dla średniej generalnej m

Dla zademonstrowania znaczenia wielkości próby można zrealizować mały eksperyment symulacyjny. Ze sztucznie utworzonej normalnej populacji generalnej o zadanych parametrach (m=28,45 i  =8) będziemy kolejno pobierać serie 100 prób losowych o liczebnościach n=10, n=20 i n=100.

Dla każdej z serii zbudujemy 95% przedziały ufności dla każdej ze 100 prób losowych.

Uzyskane wyniki przedstawimy graficznie na kolejnych wykresach.

28

Symulacja, n=10,

=0,05

91 81 71 61 51 41 31 21 11 1 27,0 27,5 28,0 28,5 29,0 29,5 30,0

29

Symulacja, n=20,

=0,05

91 81 71 61 51 41 31 21 11 1 27,0 27,5 28,0 28,5 29,0 29,5 30,0

30

Symulacja, n=100,

=0,05

91 81 71 61 51 41 31 21 11 1 27,0 27,5 28,0 28,5 29,0 29,5 30,0

31

Symulacja, n=10 i n=100,

=0,05

91 81 71 61 51 41 31 21 11 1 27,0 27,5 28,0 28,5 29,0 29,5 30,0

N=10

91 81 71 61 51 41 31 21 11 1 27,0 27,5 28,0 28,5 29,0 29,5 30,0

N=100 32

Przedział ufności dla wariancji

2

w populacji normalnej

~ 

x i

(

i = 1, 2, ..., n

) oznacza

n

-elementową próbę losową. Statystyka  2  (

n

 1 )

s

2  2 ma rozkład  2 z liczbą stopni swobody

v = n - 1

.

Dla ustalonego   2  2 ,

n

 1  1 2 ,

n

można można określić takie dwie wartości  1

P

(  2   2  2 ,

n

 1 )   2

P

(  2   2 1   2 ,

n

 1 )  2 33

Przedział ufności dla wariancji

2

w populacji normalnej (c.d.)

Z obu wzorów wynika, że

P

(  2 1   2 ,

n

 1   2   2  2 ,

n

 1 )  Po odpowiednich przekształceniach otrzymujemy przedział ufności dla wariancji:

P

( (

n

  2  2 1 )

s

2 ,

n

 1   2  (

n

 1 )

s

2  2 1   2 ,

n

 1 )  34

Przedział ufności dla odchylenia standardowego

populacji normalnej.

w

Pierwiastkując krańce przedziału ufności dla wariancji otrzymujemy poszukiwany przedział dla odchylenia standardowego:

P

( (

n

 1 )

s

2  2  2 ,

n

 1 (

n

 1 )

s

2  2 1   2 ,

n

 1 )  35

Przedział ufności dla parametru

p

w rozkładzie dwumianowym.

Niech zmienna losowa

X

ma rozkład dwumianowy z nieznanym parametrem

p

. Estymatorem tego parametru jest częstość sukcesów obserwowana w

n

-elementowej próbie określona wzorem: 

k n

W przypadku dużej próby można przyjąć, że statystyka ta ma w przybliżeniu rozkład normalny o parametrach: 

N p

 ,

p

( 1 

n p

)  , a statystyka

z

 

p

( 1 

p p

)

n

rozkład

N(0, 1).

36

Przedział ufności dla parametru

p

w rozkładzie dwumianowym (c.d.)

Tym samym dla ustalonego  

p P

(

z

p

( 1 

p

) mamy: 

z

 )

n

 i dalej po odpowiednich przekształceniach: 

z

p

( 1 

p

)

n z

p

( 1 

p

) )

n

 37

Minimalna wielkość próby

Rozpiętość przedziału ufności dla średniej populacji wynosi odpowiednio: 2

t

 ,

s

 2

t

 ,

v s

2

n

Widzimy więc, że rozpiętość przedziału ufności dla średniej generalnej

m

zależy od:  poziomu istotności   liczebności próby

n

 od rozproszenia cechy w populacji 38

Minimalna wielkość próby (c.d.)

Przez

maksymalny błąd szacunku

rozumiemy połowę rozpiętości przedziału. Możemy więc tak dobrać liczebność próby, aby wielkość ta nie przekroczyła pewnej, ustalonej przez eksperymentatora, dokładności

d

. Mamy odpowiednio:

t

 ,

v s

2 

d n t

2  ,

v s

2

d

2 39

Rozkład różnicy średnich z prób dla dwóch populacji

Załóżmy, że obserwujemy dwie zmienne normalne o tej samej wariancji:

X

1 ~ ( 1 ;  2 )

X

2 ~ ( 2 ;  2 ) Można wykazać, że statystyka:

t

 (

x

1 

x

2

s r m

1 

m

2 )  (

x

1 

x

2

m

1 

s e

2  1

n

1  1

n

2 

m

2 ) ma rozkład

t

-Studenta z liczbą stopni swobody:

v

n

1 

n

2  2 40

Rozkład różnicy średnich z prób dla dwóch populacji (c.d.)

Wyrażenie

s r

s e

2  1

n

1  1

n

2  nazywamy

błędem różnicy średnich

, a

wariancją

dla obu prób:

s e

2 jest

wspólną

s e

2  (

n

1  1 )

n

1

s

1 2  (

n

  2 2 2  1 )

s

2 2 41

Przedziały ufności dla różnicy średnich

Korzystamy z faktu, że statystyka

t

 (

x

1 

x

2 )  (

m

1 

m

2 )

s r

ma rozkład

t

-Studenta z liczbą stopni swobody Dla ustalonego równość:  istnieje taka wartość 

t

 ,

v

) 

t

  ,

v v

n

1  .

n

2  2 , dla której spełniona jest Po odpowiednich przekształceniach otrzymujemy:  1 

x

2 ) 

t

s

,

v r

m

1 

m

2  (

x

1 

x

2 ) 

t

s

,

v r

  42