Miary położenia

Download Report

Transcript Miary położenia

Charakterystyki opisowe
rozkładu jednej cechy
Wykład 3
dr Małgorzata Radziukiewicz
Klasyfikacja miar statystycznych
 ze względu na informacje, jakie przynoszą one o rozkładzie
cechy w zbiorowości:
  Miary poziomu
 Miary dyspersji
 Miary asymetrii
Klasyfikacja miar statystycznych
 ze względu zakres danych niezbędnych do wyliczenia tych
miar:
 ● miary klasyczne
dla wyliczenia tych miar wykorzystuje się wartości cechy
zaobserwowane u wszystkich badanych jednostek
● miary pozycyjne
dla wyliczenia tych miar wykorzystuje się wartości cechy
tylko niektórych jednostek, wybranych ze względu na
pozycję, jaka zajmują one w uporządkowanym ciągu
zaobserwowanych jednostek cechy
Klasyfikacja miar statystycznych
 dodatkowo, miary statystyczne mogą być miarami:
 ● absolutnymi
mianowanymi, a więc wyrażonymi w mianie badanej cechy
– lata, metry, sztuki, kilogramy, godziny itp..
● względnymi (stosunkowymi)
niemianowanymi, wyrażonymi w ułamku lub w procencie –
uzyskanymi poprzez podzielenie przez siebie odpowiednich
miar absolutnych
Miary jednej cechy
 Miary poziomu
 Miary poziomu rozkładu liczebności
zwane są wartościami przeciętnymi
(lub średnimi)
 najbardziej rozpowszechnione w praktyce
 zacierają różnice indywidualne badanych jednostek
 o wartości liczbowej tej miary decydują wartości liczbowe
cechy posiadane przez wszystkie jednostki populacji
 za pomocą jednej liczby podają centralną tendencję
(poziom wartości zmiennej)
Miary przeciętne
Miary klasyczne
Miary pozycyjne
Średnia arytmetyczna
Średnia geometryczna
Mediana
Dominanta (moda)
Kwantyle
Miary przeciętne
klasyczne
są wypadkowymi wartościami
wszystkich odmian cechy
wszystkich badanych
jednostek zbiorowości
Średnia arytmetyczna
Średnia geometryczna
Miary przeciętne
pozycyjne
Mediana
Dominanta (moda)
Kwantyle
wskazują na
określoną pozycję
jednostek
Miary przeciętne
pozycyjne
wskazują na
określoną pozycję
jednostek
Mediana
Dominanta (moda)
Kwantyle
pozycja środkowa
pozycja najczęstsza (typowa)
uporządkowaną populację
dzielą na części
 Podstawową i najbardziej znaną miarą
położenia i jednocześnie miarą tendencji
centralnej jest średnia
 Jest to średnia arytmetyczna wartości cechy
 Aby wyznaczyć poziom średniej badana
cecha musi być mierzalną
Jak otrzymać wartość średniej
arytmetycznej dla danych indywidualnych?
 dysponując n wartościami cechy:
x 1 , x 2 , x 3 ,....., x n
 w pierwszej kolejności obliczamy sumę tych wartości:
x1  x 2  x 3  .....  x n
 a następnie dzielimy przez liczbę obserwacji n:
średnia 
x1  x 2  x 3  ...  x n
n
x


x
n

Średnia arytmetyczna jest pewną abstrakcyjną
wielkością, wypadkową wszystkich
zaobserwowanych wartości cechy, powstałą wskutek
operacji matematycznej

Obliczona wartość średnia z reguły przyjmuje
wartość w zbiorowości nie występującą

Średnia arytmetyczna zaciera różnice indywidualne

Zmiana jakiejkolwiek wartości w zbiorze danych
pociąga za sobą zmianę wartości średniej
Jak otrzymać wartość średniej
arytmetycznej dla danych pogrupowanych?
 w tym przypadku można uzyskać jedynie pewne
przybliżenie, przyjmując, że każda jednostka ni należąca do
danej klasy ma wartość cechy równą wartościom środka
przedziału klasowego:
k
x
x 1 n 1  x 2 n 2  x 3 n 3  x 4 n 4  ....  x k n k
n 1  n 2  n 3  n 4  ....  n k
 x n
i

i 1
k
n
i 1
i
i
Właściwości średniej
arytmetycznej
Właściwości średniej arytmetycznej
 Wartość liczbowa średniej arytmetycznej ma
takie samo miano jak badana cecha
Właściwości średniej arytmetycznej
 Średnia arytmetyczna zawiera się między
krańcowymi wartościami cechy:
x min  x  x max
Właściwości średniej arytmetycznej
 Średnia arytmetyczna obliczona z wartości sum xi + yi jest
równa sumie średnich arytmetycznych obliczonych oddzielnie
dla obu wartości:
x yx y
Właściwości średniej arytmetycznej
 Wartość średniej
arytmetycznej nie ulega
zmianie, jeśli wszystkie
wagi pomnożymy
przez liczbę stałą c:
 n .x
n
i
i
i
( c n ). x


 (c n )
i
i
i
x
Właściwości średniej arytmetycznej
 Jeżeli zbiorowość (populację) liczącą n elementów podzielimy
na r podgrup (podpopulacji) o liczebnościach w1, w2,
w3,…….wr, wówczas średnia arytmetyczna całej zbiorowości
(populacji) jest równa średniej ważonej średnich
arytmetycznych ( gdzie j = 1,2,…r) podgrup (podpopulacji), z
wagami wj :
r
k

x 
w
ni xi
i 1

k
n
i 1
i
j
xj
j 1
r
w
j 1
j
Właściwości średniej arytmetycznej
 Jeśli zmniejszymy każdy wariant cechy xi o stałą c, to
średnia arytmetyczna też ulegnie zmniejszeniu o stałą c:
 n ( x  c)  x  c
n
i
i
i
Właściwości średniej arytmetycznej
 Jeśli pomnożymy każdy wariant cechy xi przez stałą
c, to nowa średnia arytmetyczna będzie c –
krotnością średniej pierwotnej:
 n .( c x
n
i
i
i
)
 cx
Właściwości średniej arytmetycznej
 Jeśli od każdego wariantu xi odejmiemy średnią
arytmetyczną wówczas suma tych różnic jest równa
zeru:
n
i
( xi  x )  0
 Powyższą własność formułujemy często w innej
formie: suma odchyleń od średniej arytmetycznej
jest równa zeru:

 (x
i
 x)  0
Właściwości średniej arytmetycznej
 Suma kwadratów odchyleń
wartości zmiennych badanej
cechy od średniej
arytmetycznej rozkładu jest
najmniejsza
 Oznacza to, że suma
kwadratów odchyleń
poszczególnych wartości
zmiennych badanej cechy od
jakiejkolwiek innej wartości
zmiennej rozkładu, różnej od
średniej, będzie zawsze
większa
 (x
 x )  min
2
i
Ograniczenia
w stosowaniu
średniej arytmetycznej
 Niejednokrotnie średnia arytmetyczna nie
może być uznana za wielkość
reprezentatywną dla całego danego zbioru, w
sensie wyrażania tendencji centralnej, jej
wartość poznawcza jest niewielka (lub nawet
żadna), a niekiedy wprowadza po prostu w
błąd
Ograniczenia w stosowaniu średniej arytmetycznej
A. W przypadku, gdy przedziały klasowe są
otwarte (górny i dolny lub jeden z nich).

a) gdy liczebności przedziałów otwartych
są stosunkowo nieliczne, można je zamknąć
i umownie ustalić środek przedziału;

b) gdy udział liczebności przedziałów
otwartych w ogólnej sumie liczebności jest
znaczny, rezygnujemy z obliczania średniej
Ograniczenia w stosowaniu średniej arytmetycznej
B. Gdy największe liczebności skupiają się zdecydowanie
wokół najniższych lub najwyższych wartości cechy (szereg
jest skrajnie asymetryczny).
Mężczyźni w wieku produkcyjnym, bierni zawodowo,
według wieku
23,52
25
21,04
20
%
15
9,59
10
10,69
6,73
4,87
5
4,3
2,73
2,84
35
40
3,69
0
20
25
30
45
wiek w latach
50
55
60
65
Ograniczenia w stosowaniu średniej arytmetycznej
C. Wartość poznawcza średniej jest żadna,
wówczas, gdy ustalamy średnią ze zbiorów
niejednorodnych
Ograniczenia w stosowaniu średniej arytmetycznej
D. Obliczanie średniej mija się z celem również w
tych szeregach, które dają rozkłady z kilkoma
skupiskami dominującymi (są to tzw. szeregi
wielomodalne)
Rys. Rozkład dwumodalny
 W większości przypadków rozkłady cech mierzalnych
(zwanych zmiennymi) charakteryzują się pewną
tendencja centralną, która polega na tym, że w miarę
wzrostu liczebności (częstości) zmniejszają się różnice
pomiędzy wartościami zmiennej a wartością centralną.
 Rozkłady, które nie odpowiadają temu warunkowi, nie
powinny być opisywane za pomocą wartości średniej.

rozkłady skrajnie asymetryczne
Średnia
geometryczna
Średnią geometryczną n liczb jest
pierwiastek stopnia n z iloczynu tych liczb.
 Wykorzystywana jest
do badania
zbiorowości, w których
wartości jednostek są
przedstawiane w
liczbach względnych
x g  n x1  x 2  ...  x n
Mediana
 Mediana odpowiada środkowi zbioru
danych, w którym to zbiorze wartości
cechy uporządkowano kolejno od
najmniejszej do największej (czyli według
rosnącej wartości cechy).
 cecha jest skokowa
 jeśli liczba obserwacji n jest liczbą nieparzystą, mediana
jest wartością, którą przybiera 0,5(n+1) jednostka
liczebności populacji (obserwacja środkowa):
M ( x )  x ( n 1)
2
 jeśli liczba obserwacji n jest liczbą parzystą, mediana jest
średnią arytmetyczną wartości cechy dwóch sąsiadujących
jednostek o numerach porządkowych 0,5n oraz 0,5(n+2):
x n  x n2
M ( x) 
2
2
2
 cecha jest ciągła
 wtedy szereg rozdzielczy jest pod postacią klasowych
przedziałów odmian cechy i wówczas kumulacja
liczebności wskazuje tylko klasę, w której znajduje się
mediana
 wyznaczenie mediany wymaga posłużenia się wzorem
interpolacyjnym:
M ( x )  xm 0
 gdzie:
 n 1


 2
 xm0 –dolna granica klasy mediany
 hm –rozpiętość przedziału klasy mediany
 nm – liczebność przedziału klasy dominanty
m 1

i 1
 hm
ni 
 nm

medianę M(X) można zdefiniować jako taką wartość cechy, że
prosta pionowa przechodząca przez nią dzieli obszar pod
krzywą na dwie równe części

w praktyce medianę obliczamy w sytuacji, gdzie jedna lub
kilka wartości leży daleko od środka zbioru

mediana ma często zastosowanie w ekonomii w rozkładach
dochodów


Uwaga!!!
mediana ma sens tylko wtedy, gdy zbiór danych jest
uporządkowany rosnąco lub malejąco.
 przykład
 Sprzedaż filmowych kaset video ma ograniczenia czasowe
(na ekrany wchodzą coraz to nowsze filmy i „stare” szybko
schodzą z ekranów kin).
Właściciel musi decydować rozsądnie, z jakimi filmami
nabyć taśmy.
W tej sytuacji miary: - średnia i mediana – nie będą jemu
pomocne.
Zamiast tego, właścicielowi potrzebna jest wiedza na temat,
które filmy są najbardziej popularne i cieszą się
największym zainteresowaniem, a zatem które filmy
prawdopodobnie będą sprzedawać się najlepiej.
Dominanta (moda)
charakterystyczne własności dominanty




dominanta znajduje zastosowanie wówczas, gdy
chcemy jedną liczbą wyrazić wartość cechy
najbardziej typową i najczęściej występującą
istnieje możliwość stosowania dominanty w przypadku
analizy cech mierzalnych i niemierzalnych
dla cechy niemierzalnej dominantą jest ten wariant
cechy, która ma największą częstość występowania w
badanej zbiorowości
dominanta jest jedyną miarą przeciętną, która można
wyznaczyć dla cech niemierzalnych
charakterystyczne własności dominanty




jest również możliwe - dla dużych liczebności i
odpowiadającym im różnym wartościom - więcej niż
jedna dominanta (moda);
zbiór z 2-oma modami nazywamy dwumodalnym,
zbiory z 3-ema modami trzymodalnymi;
zbiory mające powyżej 2 mód zwą się
wielomodalnymi;
w diametralnie różnym przypadku, gdy każda wartość
w zbiorze występuje tylko raz – zbiór nie ma mody.
 w przypadku, kiedy wartości zmiennej pogrupowane są
w szereg rozdzielczy sposób wyznaczanie dominanty
(mody) w oparciu o jej definicję nie może być
zastosowany
 analizując liczebności poszczególnych klas można
określić przedział wartości cechy, który dominuje w
badanej zbiorowości. Nie wiadomo jednak, która
wartość dominuje w badanej zbiorowości
 dominantę (modę) wyznacza się wówczas w sposób
przybliżony poprzez interpolację jej wartości z
przedziału klasowego
metoda obliczania dominanty
 Metoda interpolacyjna polega na obliczeniu dominanty według
wzoru:
D ( x)  xD 0 

lub:
D ( x)  xD 0 






n D  n D 1
( n D  n D 1 )  ( n D  n D  1 )
w D  w D 1
( w D  w D 1 )  ( w D  w D  1 )
 hD
 hD
gdzie:
Dx0 - dolna granica przedziału dominującego;
n D - liczebność (częstości względne) przedziału dominującego;
nD-1 - liczebność (częstości względne) przedziału poprzedzającego przedział
dominujący;
nD+1 - liczebność (częstości względne) przedziału następującego po przedziale
dominującym;
hD - rozpiętość przedziału dominującego.
Uwaga!!!
obliczając dominantę (modę) należy pamiętać o tym, że:
 w szeregu rozdzielczym może występować jedno wyraźnie
zaznaczone maksimum (tzn. rozkład empiryczny jest
jednomodalny);
 przedział dominanty (mody) oraz dwa sąsiadujące z nim
przedziały muszą mieć takie same rozpiętości (szerokości);
 jeśli dominanta w szeregu rozdzielczym występuje w
skrajnych przedziałach klasowych, wówczas nie oblicza
się jej według wzoru interpolacyjnego
Średnie pozycyjne
wyższych rzędów




W statystyce często używane są:
percentyle – dzielimy całkowitą liczebność na
100 części (a=100 elementów, b=99 percentyli)
decyle – całkowitą liczebność dzielimy na 10
części (a=10 elementów, b=9 decyli)
kwartyle – całkowitą liczebność dzielimy na 4
części (a=4 elementy, b=3 kwartyle)
kwintyle - całkowitą liczebność dzielimy na 5
części (a=5 elementów, b=4 kwintyle)
 k-ty percentyl zbioru danych
uporządkowanych rosnąco jest to wartość x
mająca tę własność, że k procent liczebności
zbioru leży na lub poniżej wartości x
 Przy dzieleniu zbiorowości statystycznej na a równych
elementów i uzyskiwaniu b = a-1 charakterystyk
korzystamy z formuły:
Q a ,b  x q 0

 a

n 1
b
q 1


i 1
 hq
ni 
 nq
 gdzie:
 Qa,b – symbol przeciętnej pozycyjnej
 xq0 –dolna granica przedziału, w której znajduje się poszukiwana przeciętna
pozycyjna
 hq –rozpiętość przedziału klasy liczonej przeciętnej pozycyjnej
 nq – liczebność klasy liczonej przeciętnej pozycyjnej
Kwartyle
 kwartyle to takie wartości cechy Q4,1, Q4,2 i
Q4,3 , że ¼ obserwacji leży poniżej Q4,1, ¼
powyżej Q4,3 , ¼ obserwacji leży między Q4,1
a medianą a ¼ obserwacji leży między
medianą a Q4,3.
 wielkość Q4,1 zwana jest kwartylem dolnym a
Q4,3 kwartylem górnym.
Uwaga!
 Posługiwanie się przeciętnymi pozycyjnymi
wyższych rzędów ma sens tylko wówczas,
gdy liczebność zbiorowości statystycznej jest
znaczna.