Biostatystyka_4ZPZ

Download Report

Transcript Biostatystyka_4ZPZ

Biostatystyka
inż. Jacek Jamiołkowski
Wykład 2
Statystyka opisowa
Statystyka opisowa
Klasyfikacja parametrów statystycznych
Parametry statystyczne
Analiza danych powinna doprowadzić do zwięzłego
przedstawienia wyników badań za pomocą charakterystyk
liczbowych zwanych parametrami statystycznymi.
Parametry statystyczne to wielkości liczbowe służące do
syntetycznego opisu struktury zbiorowości statystycznej.
Stosowane parametry dzieli się na:
• miary położenia
• miary zmienności (miary rozproszenia, dyspersji)
• miary asymetrii
• miary koncentracji
Statystyka opisowa
Miary położenia
Miary położenia
Miary położenia opisują umiejscowienie typowych wartości
cechy statystycznej na osi liczbowej.
Miary położenia
średnia arytmetyczna
klasyczne
średnia harmoniczna
średnia geometryczna
miary położenia
modalna
pozycyjne
kwartyl pierwszy
mediana
kwantyle
kwartyl trzeci
centyle
Miary położenia
Miary klasyczne, to miary, których wartość jest wyznaczona w oparciu o
wszystkie obserwacje.
Miary pozycyjne, to miary, na których wartość wpływają tylko wybrane
obserwacje z próby uporządkowanej.
Poszczególne rodzaje średnich są obliczane na podstawie wszystkich
wartości przyjmowanych przez cechę w badanej zbiorowości.
Dla każdego konkretnego przypadku powinno się obliczać tylko jedną
średnią, bo tylko jedna z nich jest odpowiednia dla danej cechy
statystycznej, a pozostałe nie mają sensu.
Wartość modalna, jest tym wariantem cechy statystycznej, który był
najczęściej obserwowany.
Kwantyle to takie warianty cechy statystycznej, które dzielą badaną
zbiorowość na części w określonych proporcjach, np. na połowy (mediana).
Wśród miar położenia można wyróżnić miary przeciętne lub inaczej miary
tendencji centralnej wskazujące średni lub typowy poziom cechy, które
mówią o przeciętnym poziomie badanej cechy (średnie, modalna, mediana).
Średnia arytmetyczna
Średnia arytmetyczna jest najczęściej wykorzystywaną miarą
spośród klasycznych miar położenia. Inne średnie
wykorzystywane są zdecydowanie rzadziej. Jest stosunkowo
prosta do obliczenia. Jej wadą (wynikającą z tego, że w jej
wyznaczaniu uwzględniane są wszystkie pomiary) jest
wrażliwość na przypadki odstające. Przypadki odstające to
pomiary, których wartość zdecydowanie odbiega od
większości pozostałych. Zwykle są wynikiem błędów, np.
błędów przy zapisywaniu przecinka (wzrost osoby 1,76 cm
zamiast 176 cm).
Średnią arytmetyczną wyznacza się ze wzoru:
n
x 
xi

i
1
n
x 1  x 2  ... x n

n
Średnia arytmetyczna
Przykład:
Dwóch lekarzy bada pacjentów. Przeprowadzono obserwację
czasu trwania tych badań w minutach. Zanotowano następujące
wyniki:
Dla lekarza A: 12, 15, 15, 18, 20
Dla lekarza B: 10, 10, 12, 12, 15, 15, 18, 20, 21, 21
Korzystając ze wzoru uzyskujemy:
12  15  15  18  20 80

 16 min
5
5
10  10  12  12  15  15  18  20  21  21 154


 15,4 min
10
10
xA 
xB
Średnia harmoniczna
Średnia harmoniczna jest stosowana zdecydowanie rzadziej niż
arytmetyczna. Konieczność jej użycia zachodzi, gdy wartości
cechy statystycznej podawane są w przeliczeniu na stałą
jednostkę innej zmiennej, np. prędkość w km/h, gęstość
zaludnienia w osobach/km2, spożycie w kg/osobę, itp.
Średnią harmoniczną można wyznaczyć ze wzoru:
xH 
n
n
1

x
i
1
i

n
1
x1

1
x2
 ...
1
xn
Średnia harmoniczna
Przykład:
W ciągu 8 godzin pracy w przychodni obserwowano pracę
trzech pielęgniarek. Na wykonanie obowiązków związanych z
jednym pacjentem pielęgniarka A potrzebowała 4 min
pielęgniarka B – 6 min, a pielęgniarka C – 12 min. Jaki jest
średni czas zużywany na jednego pacjenta? (proszę zwrócić
uwagę na rzeczywistą jednostkę badanej cechy:
min/osobę!!!)
xH
3

 6 min
1 1 1
 
4 6 12
Średnia harmoniczna
Gdyby w omawianym przykładzie zastosować średnią
arytmetyczną uzyskalibyśmy inny wynik:
4  6  12
1
x 
 7 min
3
3
Jest to wynik nieprawidłowy, bo przy takim tempie pracy, trzy
pielęgniarki w ciągu 8 godzin (480 minut) obsłużyłyby
3×480÷7,333 min=196 osób. W rzeczywistości jednak,
pielęgniarka A mogłaby zająć się 480÷4=120 pacjentami,
pielęgniarka B - 480÷6=80, a pielęgniarka C - 480÷12=40, co
daje łącznie 120+80+40=240 pacjentów.
Średnia geometryczna
Średnią geometryczną stosuje się przy badaniu średniego
tempa zmian zjawisk, tzn. w sytuacji, gdy zjawiska są
ujmowane w sposób dynamiczny.
Średnią geometryczną wyznacza się korzystając ze wzoru:
xG  n
n
xi

i
1
 n x 1  x 2  ... x n
Średnia geometryczna
Przykład:
W ciągu trzech kolejnych lat liczba osób nowozakażonych
wirusem HIV wynosiła odpowiednio: 500, 750, 825. Jaki był
średni względny przyrost liczby nowych zakażeń?
Wartości cechy statystycznej w tym zadaniu to przyrosty liczby
zakażeń w kolejnych latach, tzn.:
750
x1 
 1,5
500
825
x2 
 1,1
750
Zgodnie ze wzorem, średni przyrost, to:
x G  1,5  1,1  1,28
Średnia geometryczna
Gdyby w tym przykładzie zastosować średnią arytmetyczną
uzyskalibyśmy wynik: (1,5+1,1)÷2=1,3. Wynikałoby z tego, że
w 3 roku, powinno być 500×1,3×1,3=845 osób
nowozakażonych.
Modalna
Wartość modalna, określana także jako dominanta, moda lub
wartość najczęstsza, to wartość cechy statystycznej, która w
danym rozkładzie empirycznym występuje najczęściej, a zatem
jest to maksimum funkcji rozkładu empirycznego cechy
statystycznej.
Mo
Modalna
Przykład:
Wykorzystując dane z przykładu dla średniej arytmetycznej
(czasy badania pacjentów):
Dla lekarza A: 12, 15, 15, 18, 20
Dla lekarza B: 10, 10, 12, 12, 15, 15, 18, 20, 21, 21
W przypadku lekarza A wartością modalną jest czas 15 minut.
W przypadku lekarza B nie możemy określić wartości modalnej,
ponieważ żadna z wartości cechy nie przyjęła pozycji
dominującej (cztery wartości cechy powtarzały się dwukrotnie).
Jeśli przyjmiemy, że próbę stanowiły łączne wyniki pracy obu
lekarzy, to modalną jest wartość 15 (występująca w tym
przypadku 4 razy):
Mo=15 min
Modalna
Wartość modalna, jako miara pozycyjna, jest odporna na
występowanie przypadków odstających. Jeśli przykładowo
następujące dane (czas pobytu pacjenta w szpitalu w dniach):
6, 7, 8, 8, 9, 11, 11, 11, 14, 14, 15, 16, 117
To średni czas pobytu wyniósłby
(6+7+8+8+9+11+11+11+14+14+15+16+117)÷13=19 dni
Pomimo, że hospitalizacje nie były dłuższe niż 16 dni (poza
jednym pacjentem, który z jakiejś przyczyny był leczony bardzo
długo), wartość średniej arytmetycznej jest stosunkowo
wysoka. Jest ona silnie zawyżana przez jeden przypadek
odstający. Gdyby jednak do opisania typowego czasu
hospitalizacji użyć wartości modalnej, uzyskamy wynik 11 dni,
który jest zbliżony do czasy hospitalizacji prawie wszystkich
pacjentów (poza jednym przypadkiem odstającym).
Kwantyle
Kwantyle definiuje się jako wartości cechy badanej populacji, przedstawionej
w postaci szeregu statystycznego, które dzielą zbiorowość na określone
części pod względem liczby jednostek. Części te pozostają do siebie w
określonych proporcjach.
Kwartyl pierwszy (Q1) dzieli zbiorowość na dwie części tak, że 25%
jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi
pierwszemu, a 75% równe bądź wyższe.
Mediana (Me, kwartyl drugi) dzieli zbiorowość na dwie równe części;
połowa jednostek ma wartości cechy mniejsze bądź równe medianie, a
połowa wartości cechy równe lub większe od Me. W szeregu szczegółowym
medianą jest wartość znajdująca się w jego środku, stąd mediana jest
nazywana wartością środkową.
Kwartyl trzeci (Q3) dzieli zbiorowość na dwie części tak, że 75% jednostek
zbiorowości ma wartości cechy niższe bądź równe kwartylowi trzeciemu, a
25% równe bądź wyższe.
Mediana
Medianę wyznacza się ze wzoru:
gdy n jest nieparzyste
x n 1


2
Me  1
gdy n jest parzyste (mediana jest średnią dwu
(
x

x
)

n
n
środkowych elementów szeregu)
1
2
2
2

Przykład:
Dane czasów hospitalizacji pacjentów:
6, 7, 8, 8, 9, 11, 11, 11, 14, 14, 15, 16, 117
Ponieważ szereg liczy 13 elementów, to zgodnie ze wzorem,
środkowym jest element (13+1)÷2=7 w szeregu
uporządkowanych wartości, czyli 11.
Łatwo udowodnić, że także mediana jest niewrażliwa na
przypadki odstające. Obok średniej arytmetycznej, mediana jest
najczęściej stosowanym parametrem statystycznym.
Kwartyle
Kwartyle wyznacza się w sposób analogiczny do mediany.
Wyznaczając medianę, dzielimy badany szereg na dwie połowy.
Wyznaczenie kwartyla pierwszego sprowadza się do znalezienia
mediany w połowie zawierającej jednostki mniejsze od
mediany, a wyznaczenie kwartyla trzeciego to znalezienie
mediany w połowie zawierającej jednostki większe od mediany.
Opierając się na poprzednim przykładzie, kwartylem pierwszym
będzie mediana szeregu: 6, 7, 8, 8, 9, 11, 11, czyli 8, natomiast
kwartylem trzecim będzie mediana szeregu 11, 11, 14, 14, 15,
16, 117, czyli 14.
Podsumowując, dla przytoczonego przykładu:
Q1=8, Me=11, Q1=14
Centyle
Centyle stosowane są dla prób o dużej liczebności. Wskazują
jaki procent jednostek w próbie uzyskał wynik mniejszy od
danego. Tym samym centyl 50 odpowiada medianie, a centyle
25 i 75 to odpowiednio pierwszy i trzeci kwartyl.
Centyle są często stosowane do odnoszenie różnych pomiarów
antropometrycznych u badanego dziecka do ogółu populacji
dzieci. Służą do tego siatki centylowe. Są to wykresy kilku
wybranych centyli (zwykle 3, 10, 25, 50, 75, 90 i 97) w
zależności od wieku dla wybranego parametru
antropometrycznego (np. wagi, wzrostu, obwodu głowy, itp.).
Centyle
Siatka centylowa wzrostu u chłopców
Przykład:
Ocenić wzrost 13 letniego chłopca,
mierzącego 170 cm.
Ponieważ dla populacji 13-letnich
chłopców, wzrost 170 cm jest 90-tym
centylem, zatem w tej grupie
wiekowej 90% chłopców jest niższych
niż 170 cm, a 10% ma wzrost wyższy
od 170 cm.
Statystyka opisowa
Miary zmienności
Miary zmienności
Miary zmienności (rozproszenia, dyspersji) opisują rozrzut
wartości cechy statystycznej w populacji wokół wartości
przeciętnej. Charakteryzują stopień zróżnicowania jednostek
zbiorowości pod względem badanej cechy.
Miary zmienności
wariancja
odchylenie standardowe
klasyczne
odchylenie przeciętne
współczynnik zmienności
miary
zmienności
rozstęp
pozycyjne
odchylenie ćwartkowe
współczynnik zmienności
Miary klasyczne, to miary, których wartość jest wyznaczona w oparciu o
wszystkie obserwacje.
Miary pozycyjne, to miary, na których wartość wpływają tylko wybrane
obserwacje z próby uporządkowanej.
Wariancja
Wariancja jest średnią arytmetyczną kwadratów odchyleń
poszczególnych obserwacji od średniej arytmetycznej
zbiorowości:
n
s2 
2
(
x

x
)
 i
i 1
n

(x 1  x )2  (x 2  x )2  ... (x n  x )2
n
Ważną cechą wariancji jest to, że nie jest wyrażona w
jednostkach cechy, ale w jednostkach podniesionych do
kwadratu, np. wariancja dla wzrostu może mieć jednostkę cm2
Odchylenie standardowe
Aby uzyskać miarę zmienności o jednostce zgodnej z mianem
badanej cechy statystycznej, można posłużyć się odchyleniem
standardowym, które jest pierwiastkiem kwadratowym
wariancji:
n
s 
2
(
x

x
)
 i
i 1
n

(x 1  x )2  (x 2  x )2  ... (x n  x )2
n
Odchylenie standardowe określa przeciętne zróżnicowanie
poszczególnych wartości cechy od średniej arytmetycznej.
Odchylenie standardowe bywa także oznaczane symbolem SD.
Odchylenie standardowe
Znając średnią arytmetyczną i odchylenie standardowe próby,
można określić typowy obszar zmienności:
x  s  x typ  x  s
W tym obszarze mieszczą się wartości cechy 68% wszystkich
jednostek badanej zbiorowości statycznej.
Odchylenie standardowe
68%
95%
99,7%
x  3s x  2s
x s
x
x s
x  2s
x  3s
Poza przedział +/- jednego odchylenia standardowego od średniej wykracza około 32%
obserwacji.
Poza przedział +/- dwóch odchyleń standardowych od średniej wykracza tylko około 5%
obserwacji.
Prawdopodobieństwo, wystąpienia obserwacji spoza przedziału +/- trzech odchyleń
standardowych od średniej jest znikome i wynosi ok. 0,3%.
Odchylenie przeciętne
Odchylenie przeciętne (d) jest średnią arytmetyczną
bezwzględnych odchyleń wartości cechy od jej średniej
arytmetycznej.
n
d 
| xi

i
1
n
x |

| x 1  x |  | x 2  x | ... | x n  x |
n
Odchylenie przeciętne jest miarą rzadziej stosowaną w
analizach statystycznych niż odchylenie standardowe, mimo że
jego interpretacja jest podobna. Odchylenie przeciętne jest
zawsze mniejsze od odchylenia standardowego, policzonych dla
tego samego szeregu:
d<s
Wariancja, odchylenie standardowe i przeciętne
Przykład:
Czasy badania pacjentów przez dwóch lekarzy w minutach były
następujące:
Dla lekarza A: 12, 15, 15, 18, 20
Dla lekarza B: 10, 10, 12, 12, 15, 15, 18, 20, 21, 21
Obliczone wcześniej średnie arytmetyczne wynoszą
odpowiednio 16 min i 15,4 min dla lekarza A i B.
Wariancja czasu badania lekarza A wynosi:
(12  16)2  (15  16)2  (15  16)2  (18  16)2  (20  16)2
sA 

5
16  1  1  4  16 38


 7,6 min 2  s A  7,6  2,76 min
5
5
2
s B2  17,24 min 2  s B  17,24  4,15 min
Wariancja, odchylenie standardowe i przeciętne
Dla lekarza A średni czas badania wynosi 16 min, a przeciętne
zróżnicowanie ±2,76 min, natomiast dla lekarza B 15,4±4,15
min.
Typowy obszar zmienności wynosi:
dla lekarza A – (13,24 min; 18,76 min)
dla lekarza B – (11,25 min; 19,55 min)
Odchylenie przeciętne dla lekarza A jest następujące:
| 12  16 |  | 15  16 |  | 15  16 |  | 18  16 |  | 20  16 |
dA 

5
4  1  1  2  4 12


 2,4 min  s A
5
5
d B  3,68 min  s B
Rozstęp
Rozstęp jest najprostszą miarą zmienności. Definiuje się go jako
różnicę między najwyższą i najniższą zaobserwowaną wartością
cechy statystycznej:
R = xmax – xmin
Rozstęp opisuje empiryczny obszar zmienności badanej cechy,
nie daje jednak informacji o zróżnicowaniu poszczególnych
wartości cechy w całej zbiorowości. Jest miarą pozycyjną.
Np. dla przytoczonego wcześniej przykładu czasu badania dwu
lekarzy:
RA = 20 – 12 = 8 min
RB = 21 – 10 = 11 min
Łatwo zauważyć że wartość rozstępu, zależy od tego jak bardzo
skrajny przypadek trafi się w próbie, czyli od jednostkowych
przypadków ekstremalnych, a nie od zróżnicowania typowych
obserwacji przeważających w zbiorowości.
Odchylenie ćwiartkowe
Tak jak odchylenie standardowe jest najczęściej stosowane do
opisania odchylenia wartości cechy od średniej arytmetycznej,
tak odchylenie ćwiartkowe jest miarą zmienności najczęściej
używaną w parze z medianą. Odchylenie ćwiartkowe (Q) jest
połową różnicy między trzecim, a pierwszym kwartylem:
(Q 3  Q1 )
Q 
2
Odchylenie ćwiartkowe mierzy poziom zróżnicowania tylko
części jednostek, pozostałej po odrzuceniu 25% jednostek o
wartościach najmniejszych i 25% jednostek o wartościach
największych.
Kwartyli można użyć również do wyznaczenia typowego obszaru
zmienności: (Q1 < xtyp < Q3) do którego należy 50% obserwacji.
Odchylenie ćwiartkowe
W przykładzie dotyczącym czasów badania pacjentów przez
lekarzy A i B, wartości kwartyli są następujące:
Q1A = 15, Q3A = 18
Q1B = 12, Q1B = 20
zatem:
QA = (18-15)÷2=1,5 min
QB = (20-12)÷2=4 min
Współczynniki zmienności
Współczynnik zmienności jest ilorazem bezwzględnej miary
zmienności cechy i średniej wartości tej cechy. W konstrukcji
współczynnika zmienności można użyć zarówno miar
klasycznych, jak i pozycyjnych.
Współczynnik zmienności stosuje się zwykle, gdy chcemy ocenić
zróżnicowanie kilku zbiorowości pod względem tej samej cechy,
ewentualnie tej samej zbiorowości pod względem kilku cech.
Współczynnik zmienności jest wielkością niemianowaną.
Wartości współczynników podaje się z reguły w procentach.
Przyjmuje się, że jeżeli współczynnik zmienności jest mniejszy
niż 10%, to zróżnicowanie cechy jest statystycznie nieistotne.
Duże wartości współczynnika zmienności świadczą o
zróżnicowaniu, a więc niejednorodności zbiorowości.
Współczynniki zmienności
Klasyczne współczynniki zmienności:
s
Vs 
x
oraz
d
Vd 
x
gdzie
x 0
W przykładzie dotyczącym czasów badania pacjentów przez
lekarzy A i B, wartości średnich i odchyleń są następujące:
x A  16 min, s A  2,76 min, d A  2,4 min
x B  15,4 min, s B  4,15 min, d B  3,68 min
zatem odpowiednie współczynniki zmienności są następujące:
V sA
V sB
2,76

 17,25%
16
4 ,15

 26,95%
15,4
V dA
V dB
2,4

 15%
16
3,68

 23,9%
15,4
Współczynniki zmienności
Pozycyjne współczynniki zmienności:
Q
VQ 
Me
gdzie
Me  0
oraz
VQ ,Q
1
3
Q 3  Q1

Q 3  Q1
W przykładzie dotyczącym czasów badania pacjentów przez
lekarzy A i B, wartości kwartyli są następujące:
MeA = 15, Q1A = 15, Q3A = 18, QA = 1,5
MeB = 15, Q1B = 12, Q1B = 20, QB = 4
zatem odpowiednie współczynniki zmienności są następujące:
VQA
VQB
1,5

 10%
15
4

 26,67%
15
VQ
1 ,Q 3 A
VQ
1 ,Q 3B
18  15

 9,09%
18  15
20  12

 25%
20  12
Statystyka opisowa
Miary asymetrii
Miary asymetrii
Często zdarza się, że porównanie średniego poziomu cechy i jej
rozproszenia nie wykazuje różnic między badanymi
zbiorowościami, a jednak obserwacja rozkładów empirycznych
wyklucza podobieństwo struktury.
Rozważmy następujący przykład: w trzech szpitalach
wylosowano po 20 pracowników w celu określenia ich
zarobków. Uzyskano następujące wyniki:
Szpital A - 750, 750, 1250, 1250, 1250, 1250, 1750, 1750,
1750, 1750, 1750, 1750, 1750, 1750, 2250, 2250, 2250, 2250,
2750, 2750
Szpital B - 750, 1250, 1250, 1250, 1250, 1250, 1250, 1250,
1750, 1750, 1750, 1750, 1750, 2250, 2250, 2250, 2250, 2250,
2750, 2750
Szpital C - 750, 750, 1250, 1250, 1250, 1250, 1250, 1750,
1750, 1750, 1750, 1750, 2250, 2250, 2250, 2250, 2250, 2250,
2250, 2750
Miary asymetrii
Gdyby obliczyć średnie arytmetyczne i odchylenia standardowe,
w każdym szpitalu uzyskamy 1750±562 zł. Przedstawienie
rozkładów empirycznych zarobków w tych 3 szpitalach w
postaci histogramów pozwala zaobserwować różnice:
Szpital A
10
20
30
40
Szpital B
50
rozkład symetryczny
60
10
20
30
40
Szpital C
50
60
rozkład asymetryczny
prawostronnie
10
20
30
40
50
60
rozkład asymetryczny
lewostronnie
Miary asymetrii
Asymetrię można ocenić porównując różnice pomiędzy średnią
arytmetyczną, a medianą lub modalną.
W przypadku asymetrii prawostronnej spełniona jest
nierówność:
x  Me  Mo
Natomiast w przypadku asymetrii lewostronnej spełniona
jest nierówność:
x  Me  Mo
Można to wyrazić za pomocą wskaźnika skośności, który
przyjmuje wartość 0 przy braku asymetrii, wartości dodatnie
przy asymetrii prawostronnej, a wartości ujemne przy
asymetrii lewostronnej (przy użyciu miar klasycznych i
pozycyjnych):
lub
(Q3  Me )  (Me  Q1 )
x  Mo
Miary asymetrii
Im większa wartość bezwzględna wskaźnika skośności, tym
silniejsza asymetria.
Można użyć także klasycznego współczynnika asymetrii,
wyrażonego wzorem:
n
A
3
(
x

x
)
 i
i 1
s 3 n
(x 1  x )3  (x 2  x )3  ... (x n  x )3

s 3 n
Obliczenie tego współczynnika jest stosunkowo czasochłonne,
dlatego praktyczniej jest oceniać asymetrię rozkładu korzystając
z miar pozycyjnych (wskaźnik asymetrii)