Szereg rozdzielczy

Download Report

Transcript Szereg rozdzielczy

Szereg rozdzielczy
Konstrukcja, estymacja parametrów
1
Próba mała i duża
W praktyce, przy estymowaniu nieznanych parametrów
populacji, pobieramy próby losowe o stosunkowo niewielkiej
liczebności (rzędu 10-20 obserwacji).
W próbach tego typu (tzw. próba mała)
dysponowaliśmy wszystkimi elementarnymi wynikami.
W badaniach statystycznych stosuje się także próby o
znacznie większej liczebności, rzędu 100 i więcej
obserwacji (tzw. próby duże).
2
Próba duża, szereg rozdzielczy
W sytuacjach tego typu z reguły oryginalne wyniki są
zestawiane w tzw. szereg rozdzielczy lub w ogóle
nie dysponujemy dokładnymi pomiarami.
W tym ostatnim przypadku jedynie odnotowujemy
fakt przynależności konkretnego pomiaru do
odpowiedniego przedziału wartości badanej cechy.
Zestawienie takie będziemy nazywać szeregiem
rozdzielczym.
3
Konstrukcja szeregu rozdzielczego
Przy konstrukcji szeregu rozdzielczego dzielimy
spodziewany zbiór wartości badanej cechy na k
przedziałów klasowych o krańcach odpowiednio x1i i x2i
(dolny i górny kraniec i-tego przedziału klasowego).
Ustalenia wymaga także sposób domknięcia przedziału,
najczęściej stosuje się przedziały prawostronnie
domknięte (wynik “dokładnie” zostanie zapisany w i-tym
przedziale klasowym.
Różnicę będziemy nazywać rozpiętością i-tego
przedziału klasowego, szereg powinien być tak
konstruowany, aby rozpiętości przedziałów były
jednakowe. Liczba przedziałów klasowych powinna być
rzędu 8-15, proporcjonalnie do wielkości próby losowej.
4
Szereg rozdzielczy - przykład
Badając czas obsługi 250 losowo wybranych klientów przy
kasach w pewnym markecie uzyskano następujące wyniki
zestawione w szereg rozdzielczy (kolejny slajd)
W pierwszej kolumnie podano numery poszczególnych
przedziałów klasowych, kolumny druga i trzecia
zawierają dolne i górne krańce poszczególnych
przedziałów.
Kolumna czwarta zawiera liczebności obserwowane w
poszczególnych przedziałach klasowych.
5
Szereg rozdzielczy - przykład (cd)
6
Szereg rozdzielczy - przykład (cd)
Proszę zauważyć, że pierwszy przedział jest „otwarty” z
dołu aż do minus nieskończoności, podobnie ostatni
przedział jest „otwarty” od góry aż do plus
nieskończoności.
Jest to konieczne, jeżeli chcemy modelować badaną cechę
(czas obsługi klientów) zmienną losową normalną.
Suma liczebności empirycznych (kolumna 4) daje
liczebność całej próby losowej:
k
n
n
i
i 1
7
Szereg rozdzielczy - przykład (cd)
W kolumnie piątej wyznaczono skumulowane liczebności
obserwowane n ( x 2 i ) , a w kolejnych kolumnach częstości
empiryczne wi:
wi 
ni
n
i empiryczną dystrybuantę
empiryczne) F ( x 2 i ) .
(skumulowane
częstości
8
Szereg rozdzielczy - przykład (cd)
Proszę zauważyć, że częstości empiryczne wi są ocenami
prawdopodobieństw przyjęcia przez badaną cechę wartości z
poszczególnych przedziałów klasowych, a ich skumulowane
wartości są ocenami dystrybuanty (prawdopodobieństwem
nieprzekroczenia przez badaną cechę ustalonych wartości).
Częstości empiryczne jak i wartości dystrybuanty
empirycznej przyjmują oczywiście wartości z przedziału
domkniętego <0; 1>.
9
Szereg rozdzielczy - przykład (cd)
Na podstawie szeregu rozdzielczego można wykonać
histogram, czyli wykres częstości empirycznych (lub
liczebności obserwowanych), który daje nam orientację
o rozkładzie badanej cechy.
Z pokazanego na kolejnym slajdzie wykresu wynika, że
rozkład czasu obsługi klientów przy kasach może być
modelowany zmienną losową normalną.
10
Szereg rozdzielczy - histogram
0,25
0,20
0,15
0,10
0,05
0,00
<60
60-80
80-100 100-120 120-140 140-160 160-180 180-200 200-220
>220
11
Szereg rozdzielczy –dystrybuanta empiryczna
Skumulowane częstości empiryczne (empiryczną dystrybuantę)
można także przedstawić graficznie :
1,00
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
<60
60-80
80-100
100-120
120-140 140-160
160-180 180-200 200-220
>220
12
Wykorzystanie histogramu do ustalenia dominanty
Histogram może być wykorzystany także do graficznego
wyznaczania dominanty.
0,25
0,20
0,15
0,10
0,05
0,00
<60
60-80
80-100 100-120 120-140 140-160 160-180 180-200 200-220
>220
13
Szereg rozdzielczy, wykorzystanie wykresu
dystrybuanty do wyznaczania kwantyli
1,00
0,75
0,50
0,25
K0,4
K0,75
0,00
<60
60-80
80-100
100-120
120-140 140-160
160-180 180-200 200-220
>220
14
Wyznaczanie parametrów - średnia
Średnią arytmetyczną w szeregu wyznaczamy wg wzoru:
k
n
x 
k
i
n
 xi
i 1

k
n
i
 xi
i 1
n
i
i 1
gdzie
xi 
x 1i  x 2 i
jest środkiem i-tego przedziału
2
15
Wyznaczanie parametrów – średnia (cd)
Środki pierwszego i ostatniego przedziału klasowego
(otwartych przedziałów) są wyznaczane wg zasady:
x 1  x 2  rozstęp
x k  x k 1  rozstęp
16
Wyznaczanie parametrów – średni kwadrat
Średni kwadrat odchyleń w szeregu rozdzielczym
znajdziemy z wzoru:
k
S
2

  xi  x 
k
2
i 1
k
n
i
1
ni


i 1
k
xi ni  x  xi ni
2
i 1
n 1
i 1
17
Wyznaczanie parametrów – kwantyl rzędu p
W przypadku szeregu rozdzielczego kwantyl rzędu p
znajdziemy z wzoru:

k p  x1 p  p  F ( x 2 p )

hp
wp
X1p - jest dolnym krańcem tego przedziału, w którym
znajduje się kwantyl rzędu p,
F(x2p) - wartość dystrybuanty empirycznej w przedziale
o pozycję wcześniej niż przedział zawierający kwantyl
kp
hp - rozpiętość przedziału zawierającego kwantyl kp
wp - częstość empiryczna przedziału zawierającego
kwantyl kp
18
Wyznaczanie parametrów – dominanta
W przypadku szeregu rozdzielczego dominantę
znajdziemy z następującego wzoru:
Do  x1 d 
n d  n d 1
( n d  n n 1 )  ( n d  n d  1 )
 hd
Gdzie xid oznacza dolny kraniec przedziału dominanty,
nd, nd-1, nd+1 liczebności przedziału dominanty i dwóch
sąsiednich przedziałów, a hp oznacza rozpiętość
przedziału dominanty.
19