Temelji biostatistike
Download
Report
Transcript Temelji biostatistike
Temelji biostatistike
Osnovni pojmi
Zbiranje statističnih podatkov
Priporočena literatura
Štefan Adamič, Temelji biostatistike,
Medicinska fakulteta Univerze Edvarda
Kardelja v Ljubljani, 1980.
Wayne W. Daniel, Biostatistics, a foundation
for analysis in the health sciences.
Hoboken: John Wiley and Sons
Boris Petz, Osnovne statističke metode za
nematematičare. Zagreb: Udžbenici
sveučilišta u Zagrebu.
Statistika
Veda, ki kvantitativno proučuje masovne
pojave v naravi in družbi, odkriva
zakonitosti teh pojavov
Kot znanost je del matematike
Matematična statistika razvija metode,
druge vede jih uporabljajo za odkrivanje
povezav in zakonitosti med različnimi pojavi
Prilagojenost statističnih metod
posameznim vedam – ločene veje statistike
V biomedicini
Biostatistika ali biometrika (bíostatístika veda, ki proučuje biološke in medicinske
pojave s statističnimi metodami). Za
proučevanje osnovnih pojmov v biologiji,
medicini, veterini, pri analizi
znanstvenoraziskovalnega dela.
Zdravstvena statistika. Se ukvarja s podatki
o obolenjih, o zdravstvenem stanju, o
organizaciji in uspešnosti zdravstvene
službe.
Iz podatkov, dobljenih na manjši skupini živali,
skušamo sklepati o splošnih zakonitostih, veljavnih
za vse živali enakih značilnosti.
Deskriptivna statistika – pomaga zbrati, urediti,
prikazovati statistične podatke.
Analitična statistika – omogoča sklepanje iz
zbranih podatkov, dobljenih pri proučevanju
manjših skupin živali.
Moramo poznati značilnosti verjetnosti, da lahko
kritično ocenimo podatke, pridobljene v neki
proučevani skupini.
Proučujemo značilnosti statističnih enot, npr.:
živali v Sloveniji;
svinje na farmi Ihan;
ovce, obolele za praskavcem;
črnodlaki labradorci.
Populacija (realna) – vse statistične enote, ki ustrezajo
opredeljujočim pogojem. Pogoji, ki opredeljujejo realno
populacijo, morajo biti natančno opredeljeni.
krajevno: vsi psi v Rožni dolini,
ali časovno: vsi psi od 1.1.1980 do 1.1.1990, ipd.
Populacija (hipotetična) – značilnosti take populacije niso
časovno ali krajevno omejene. Število enot v populaciji
ni znano, populacija ni jasno omejena. Parametrov take
populacije ne moremo natančno opredeliti:
populacija belih miši,
populacija sladkornih bolnikov,
populacija ovc s praskavcem.
Vzorec – del populacije, omogoča
proučevanje značilnosti te populacije.
Skupina enot, vzeta iz hipotetične populacije.
Mora biti pravilno izbrana.
Omogoča poznavanje hipotetične populacije s
pomočjo proučevanja vzorca in sklepanja.
Potrebno je naključno izbiranje enot iz
populacije za oblikovanje primernega vzorca –
vzorčenje.
Vse enote v populaciji so enake glede značilnosti, ki jih
opredeljuje v določeno populacijo.
Poleg tega pa imajo tudi značilnosti, glede katerih se
razlikujejo – statistične spremenljivke.
Pri statistični analizi izberemo eno (ali mogoče nekaj), ki
je povezana z vsebino raziskovalnega problema –
statistična spremenljivka
(starost živali, obolelih za praskavec;
genotip živali, obolelih za praskavec).
spremenljívka - količina, ki zavzame
različne vrednosti:
atributivna ~ ki opisno označuje kvalitativno
lastnost ali značilnost (npr. krvna skupina, spol),
lahko so:
Dihotomne – le dve vrednosti (preživeli –
mrtvi);
Nominalne – enote se razlikujejo glede
vrednosti, vendar med njimi ni logične
povezave (barva oči – nezgode)
Ordinalne – lahko povežemo v neko logično
zaporedje (prehrana – majhna žival, večja,
največja)
numerična ~ ki označuje kvantitativno,
merljivo lastnost ali značilnost in so
vrednosti števila (npr. starost, teža);
Nezvezne – imajo vrednosti podane le s celimi
števili (število mladičev v gnezdu, število
obolelih živali)
Zvezne numerične spremenljivke – katerakoli
vrednost znotraj določenega razmika, zvezne
vrednosti dobimo praviloma z merjenjem.
Natančnost števila opredeljuje natančnost
meritve (količina holesterola v krvi, krvni
pritisk, telesna teža).
Spremenljivka je lahko:
neodvisna ~ s katero se skuša pojasniti vrednost
druge spremenljivke in pri poskusni metodi lahko
pomeni vzrok spremembe odvisne spremenljivke;
odvisna ~ katere vrednosti se skuša razložiti z
drugimi, pri poskusni metodi lahko pomeni
posledico; prim. funkcija
moteča ~ ki lahko moti oceno povezanosti dveh ali
več spremenljivk;
Definirajte neodvisno spremenljivko, odvisno
spremenljivko in navedite nekaj možnih
motečih spremenljivk.
Preizkušamo zdravilo za zniževanje krvnega
pritiska. Krvni pritisk merimo skupini
bolnikov (različnega spola, različne starosti,
različnih konstitucij) pred aplikacijo zdravila.
Apliciramo zdravilo. Krvni pritisk ponovno
merimo skupini bolnikov po aplikaciji
zdravila.
Označevanje spremenljivk
Dihotomne – le dve vrednosti (x in y)
Zvezne numerične - vrednosti do neskončno
Xi – katerakoli spremenljivka od 1 do n
Dve skupini istih spremenljivk (dva vzorca) –
označujemo x1 (spremenljivke v eni skupini) in
x2 (spremenljivke v drugi skupini)
Zbiranje statističnih podatkov
Podatki morajo biti točni, zanesljivi,
čimmanj napak
Napake:
Slučajne napake (premajhna natančnost
merskih metod, malomarnost) – po zakonu o
velikih številih se njihov vpliv v veliki populaciji,
vzorcu izgubi
Sistematične napake – posledica konstantnih
vzrokov, ki delujejo v isto smer (nepravilno
uravnane naprave, pristrano osebje). Učinek se
z večanjem populacije, vzorca sešteva – privede
do napačnih sklepov.
Urejanje statističnih podatkov
Veliko podatkov – potrebno urejanje – grupiranje.
Urejanje atributivnih spremenljivk v kategorije
(število ovc na posestvu, koz na posestvu, število
plemenskih ovnov na posestvu; vzrok smrti; vzrok
bolezni).
Ugotavljamo število posameznih enot v skupini.
Ugotavljamo frekvenco posamezne kategorije.
Pri urejanju več atributivnih spremenljivk pogosto
uporabljamo točno opredeljene klasifikatorje.
Klasifikatorji jasno opredelijo (kot dogovorjeno) vsako
vrednost spremenljivke.
Urejanje numeričnih spremenljivk
Tabela 1. Koncentracija glukoze v krvi pri
laboratorijskih podganah (v mg/100 ml).
89
97
102
93
97
91
110
99
102
102
104
98
104
111
89
Urejeno zaporedje – po velikosti od najnižje
do najvišje vrednosti.
Tabela 2. Koncentracija glukoze v krvi pri
laboratorijskih podganah (v mg/100 ml)
86
89
91
93
97
97
98
99
102
102
102
104
104
110
111
Ranžirna vrsta – rang - položaj enote v vrsti enot,
urejenih po velikosti. Za vsako vrednost je določen rang
v lestvici vrednosti.
Rang moramo vedno navajati skupaj s številom vseh
enot v ranžirni vrsti.
Tabela 3. Koncentracija glukoze v krvi pri laboratorijskih podganah
(v mg/100 ml)
1
od
15
2
od
15
3
od
15
4
od
15
5,5
od
15
5,5
od
15
7
od
15
8
od
15
10
od
15
10
od
15
10
od
15
12,5
od
15
12,5
od
15
14
od
15
15
od
15
86
89
91
93
97
97
98
99
102
102
102
104
104
110
111
Urejanje podatkov v skupine – razrede – kadar imamo veliko
število podatkov za določene karakteristike. Če so podatki
kontinuirani, razrede (njihove meje) določimo sami.
Izberemo razredni interval.
Število podatkov, razvrščenih v isti razred, imenujemo frekvenca
tega razreda.
Izračunamo lahko relativno frekvenco – f% = (f/n) x 100
Tabela 4. Koncentracija glukoze v krvi pri laboratorijskih podganah (v
mg/100 ml)
2
2
4
86-90
91-95 96-100
5
1
1
101-105
106-110
111-115
Prikazovanje statističnih podatkov
Tabelarično – podatki podani v obliki tabele
Lahko sami določimo natančnost podatkov
Preprosta priprava
Grafično – podatki podani v obliki grafa
Nazorneje prikazuje medsebojno povezanost
podatkov
Bolj zahtevna priprava
Velika izbira različnih oblik prikazovanja
Tabele
Naslov
Glava
Čelo
Telo
Vrstice - vodoravno
Stolpci - navpično
Polja
Zbirni stolpec – praviloma na desni
Zbirna vrstica – praviloma spodaj
Legenda – opombe, ki dopolnjujejo podatke v
tabeli
Tabela 1. Shematski prikaz tabele.
Gla
va
Č
e
Zbirni
l
o
Stolpec
polje
Zbirna
vrstica
Vsebina tabele in naslova mora biti pregledna
in razumljiva
Naslov pojasnjuje, kaj tabela prikazuje
Podana mora biti enota variabel
V vsakem polju mora biti ustrezna številka ali
znak – prazna polja niso dovoljena
Grafikoni
Grafikon - grafično prikazana velikost, struktura ali
potek kakega pojava.
Grafikoni lažje predstavijo podatke.
Merske enote za vrednosti, predstavljene v grafikonu
morajo biti jasno navedene.
Vrednost lestvic se običajno začne z nič – če ne, je to
posebej označeno.
Uporabljamo:
aritmetično lestvico – odnos med podatkom in
razdaljo na premici je linearen
logaritmično lestvico – daljice med dvema
vrednostima so v sorazmerju z logaritmi podatkov, ki
jih lestvica meri
Histogram
Prikazujemo kvantitativne spremenljivke,
urejene v frekvenčno porazdelitev.
Vrednosti so urejene v razredne intervale.
Frekvenca enot v vsakem razredu je prikazana
s površino ustreznega stolpca na grafikonu.
Starost obolelih živali (v mesecih) – razvrstite v urejeno
zaporedje, v razrede
60
39
23
30
29
63
22
32
52
46
20
25
42
34
29
58
21
24
55
51
32
21
30
31
25
43
34
35
22
33
23
26
57
23
26
34
51
40
50
35
26
48
17
45
45
43
25
27
21
53
Starost obolelih živali (v mesecih), razvrščenih v
urejeno zaporedje. Starost narašča od leve proti
desni od zgoraj navzol
17
20
21
21
21
22
22
23
23
23
24
25
25
25
26
26
26
27
29
29
30
30
31
32
32
33
34
34
34
35
35
39
40
42
43
43
45
45
46
46
50
51
51
52
53
55
57
58
60
63
Starost obolelih
živali v mesecih
(po razredih)
Število
obolelih
živali
Starost obolelih živali (v mesecih), razvrščenih v
razrede
1
21
od 21 do 30
11
od 31 do 40
8
od 41 do 50
25
20
15
Niz1
10
5
0
11 do 20 21 do 30 31 do 40 41 do 50 51 do 60 61 do 70
8
od 51 do 60
od 61 do 70
število obolelih živali
od 11 do 20
1
starost v mesecih
Poskus – določanje inkubacijske dobe
praskavca pri ovcah
Injiciranje homogenata možganov obolelih ovc v 294 zdravih
ovc
Opazovanje kliničnih znakov
Prve živali so obolele po 93 dnevih
123 živali je zbolelo do 356 dneva
156 živali je zbolelo do 495 dneva
Med 870. in 1049. dnem je zbolelo še 30 živali.
Ovce lahko razdelimo na:
skupino živali s kratko inkubacijsko dobo (od 93 do 356
dneva)
in skupino živali z dolgo inkubacijsko dobo (od 870 dni do
1049 dni)
Nekaj živali sploh ni obolelo –
mogoče so te živali odporne
ali pa je inkubacija daljša od življenjske dobe živali
(vprašanje karanten pri uvozu živali)
Injiciranje homogenata možganov ovac, obolelih za praskavec, v
45 zdravih ovc. Tabela prikazuje dolžino inkubacije (v dnevih) do
nastopa kliničnih znakov.
Z – zdrave živali – ni prišlo do razvoja kliničnih znakov.
Zaporedna
številka
ID ovce
1
1234
2
Dnevi do pojava
kliničnih znakov
Zaporedna
številka
ID ovce
Dnevi do pojava
kliničnih znakov
Zaporedna
številka
ID ovce
Dnevi do pojava
kliničnih znakov
Z
16
1546
186
31
1565
238
1245
356
17
1768
405
32
1676
Z
3
1222
357
18
1897
99
33
1787
283
4
1333
Z
19
1000
Z
34
1034
Z
5
1457
93
20
1223
Z
35
1035
180
6
1235
1023
21
1444
312
36
1088
125
7
1267
103
22
1656
395
37
1908
1049
8
1879
Z
23
1787
277
38
1676
251
9
1654
495
24
1888
Z
39
1989
Z
10
1090
333
25
1777
421
40
1359
Z
11
1091
Z
26
1999
189
41
1789
199
12
1902
207
27
1398
Z
42
1546
397
13
1092
904
28
1666
316
43
1675
160
14
1542
Z
29
1665
Z
44
1884
Z
15
1786
Z
30
1440
965
45
1564
194
Injiciranje homogenata možganov ovac, obolelih za praskavec, v
45 zdravih ovc. Tabela prikazuje dolžino inkubacije (v dnevih) do
nastopa kliničnih znakov – v urejenem zaporedju.
Z – zdrave živali – ni prišlo do razvoja kliničnih znakov.
zaporedna
številka
ID ovce
dnevi do pojava
kliničnih znakov
zaporedna
številka
ID ovce
dnevi do
pojava
kliničnih
znakov
zaporedna
številka
ID ovce
dnevi do
pojava
kliničnih
znakov
5
1457
93
21
1444
312
4
1333
Z
18
1897
99
28
1666
316
8
1879
Z
7
1267
103
10
1090
333
11
1091
Z
36
1088
125
2
1245
356
14
1542
Z
43
1675
160
3
1222
357
15
1786
Z
35
1035
180
22
1656
395
19
1000
Z
16
1546
186
42
1546
397
20
1223
Z
26
1999
189
17
1768
405
24
1888
Z
45
1564
194
25
1777
421
27
1398
Z
41
1789
199
9
1654
495
29
1665
Z
12
1902
207
13
1092
904
32
1676
Z
31
1565
238
30
1440
965
34
1034
Z
38
1676
251
6
1235
1023
39
1989
Z
23
1787
277
37
1908
1049
40
1359
Z
33
1787
283
1
1234
Z
44
1884
Z
Podatki o dolžini inkubacijske dobe do nastopa kliničnih znakov
praskavca pri ovcah – urejeni v razrede (v izbranih razrednih
intervalih)
Trajanje inkubacijske dobe (v
dnevih)
Število živali
93 - 495
25
496 - 869
0
870 - 1049
4
nikoli obolele
16
Histogram
Razdelitev ov ac glede na traj anj e inkubacij ske dobe pred nastopom kliničnih znakov praskav ca
30
25
število živali
20
93
49
15
87
nik
10
5
0
93 - 495
496 - 869
870 - 1049
dnevi inkubacije
nikoli obolele
Frekvenčni poligon
Podatke, urejene v frekvenčno porazdelitev,
prikažemo tudi s frekvenčnim poligonom.
Na sredino vsakega razreda nanesemo točko v
višini, ki ustreza frekvenci tega razreda. Točke
so prikazane v sredini razrednega intervala.
Dobljene točke povežemo s daljicami.
Frekvenčni poligon
razdelitev ovac glede na trajanje inkubacijske dobe pred nastopom kliničnih znakov praskavca
30
25
število živali
20
15
Število živali
10
5
0
93 - 495
496 - 869
870 - 1049
trajanje inkubacijske dobe (v dnevih)
nikoli obolele
Solpičasti diagram
Število receptorjev za dopamin
Stopnja
reprodukci
jskega
ciklusa
st. dev.
1. serija
2. serija
3. serija
4. serija
5. serija
Diestrus 1
11
11
11
10
11
0,447214
10,75
Diestrus 2
12
12
11
12
12
0,447214
11,75
Proestrus
8
9
8
8
9
0,547723
8,25
Estrus
6
6
5
6
5
0,547723
5,75
Število receptorjev za dopamin v različnih stopnjah
reprodukcijskega ciklusa
N=5
število receptorjev
srednja
vrednost
20
15
10
5
0
Diestrus 1
Diestrus 2
Proestrus
stopnja reprodukcijskega ciklusa
Estrus
Prikazovanje struktur s strukturnimi
stolpci ali strukturnimi krogi.
Stolpič/krog, ki predstavlja celoto, je
razdeljen sorazmerno na deleže
posameznih struktur celote.
Strukturni krog
Genotip Prnp
ARR/ARR
Frekvenca
6
ARR/ARQ
4
ARR/ARH
5
VRR/ARQ
10
ARQ/ARQ
65
ARQ/VRQ
5
VRQ/VRQ
5
Deleži genotipov Prnp v populaciji ovac v Sloveniji v
letu 2005
VRQ/VRQ ARR/ARR
ARR/ARQ
6%
5%
4%
ARQ/VRQ
ARR/ARH
5%
5%
VRR/ARQ
10%
ARR/ARR
ARR/ARQ
ARR/ARH
VRR/ARQ
ARQ/ARQ
ARQ/VRQ
ARQ/ARQ
65%
VRQ/VRQ
Linijski (črtni) diagram
Običajno prikazujemo neko dogajanje skozi časovni interval.
Časovni interval
od aplikacije
Koncentracija
antibiotika v krvi
podgan po aplikaciji
antibiotika v
različnih časovnih
intervalih (v mg/ml)
60 min
100
120min
80
180 min
60
240 min
45
300 min
38
Koncentracija antibiotika v krvi podgan po aplikaciji
antibiotika, merjena v različnih časovnih intervalih po
aplikaciji
koncentracija
antibiotika v krvi (v
mg/ml)
150
100
Niz1
50
0
60 min
120min
180 min 240 min
časovni interval po aplikaciji
300 min
Srednje vrednosti
Vrednosti spremenljivk pri homogenih
populacijah (vzorcih) se običajno nahajajo
okoli neke srednje vrednosti.
Z vrednostjo srednje vrednosti lahko
ocenimo preiskovano populacijo.
Srednja vrednost je eden izmed
parametrov populacije (ali eden izmed
statistik vzorca)
Več meril za oceno srednje vrednosti:
Aritmetična sredina
Mediana
Modus
Aritmetična sredina
Najpogosteje uporabljena srednja
vrednost
Seštejemo vrednost spremenljivke
vseh enot, vsoto delimo s številom
enot
m = ΣX/n (za populacijo)
x = ΣX/n (za vzorec)
m – povprečje populacije, Σ – vsota, n – število enot, x – vrednost
posameznega primera, x – povprečje vzorca
Predstavlja težišče podatkov.
Vsota odklonov od aritmetične
sredine navzdol je enaka vsoti
odklonov od aritmetične sredine
navzgor.
Povprečje:
aritmetična sredina,
najpogostejša vrednost
Če imamo podatke v frekvenčni tabeli, računamo aritmetično
sredino, kot da bi bile vrednosti spremenljivk vseh enot v razredu
enake sredini razreda.
Starost obolelih
živali v mesecih
(po razredih)
(sredina
razreda)
(fx)
Število obolelih
živali
(frekvenca)
50
1790
1 15
11 do 20 (15)
21 525
21 do 30 (25)
11 385
31 do 40 (35)
8 360
41 do 50 (45)
8 440
51 do 60 (55)
61 do 70 (65)
1 65
m= Σfx/n
m = 1790/50 = 35,8
Mediana – centralna vrednost
Tista vrednost, od katere ima polovica enot
manjše, polovica pa večje vrednosti.
Liho število – mediana je enaka vrednosti
srednje enote.
Sodo število – mediana je enaka povprečju
srednjega para podatkov.
6, 7, 6, 8, 35, 29, 7 – trajanje bolezni
6, 6, 7, 7, 8, 29, 35 – rangirani podatki
8 – mediana
14 – aritmetična sredina
Modus
Najpogostejša vrednost
spremenljivke.
Dober predstavnik za velike
populacije.
Nemirnost med počitkom (prebujanja, opazovana
med 30 min spanjem)
1. serija
2. serija
3. serija
4. serija
srednja
vrednost
5. serija
Diestrus 1
Stopnja
reprodukcij
skega
ciklusa
6
7
5
6
5
6
7
6
7
6
10
11
10
10
8
7
8
8
9
7
Diestrus 2
Proestrus
Estrus
Mere variacije
Populacijo opisuje:
srednja vrednost
odstopanja posameznikov populacije od
srednje vrednosti
Manjše je odstopanje od srednje
vrednosti – bolj je reprezentativna
srednja vrednost.
Vzroki variiranja
Napake pri meritvah
Zaradi aparatur, osebja, vplivov okolja, netočnost
metode, čistosti reagentov…
Občasno biološko variiranje pri subjektih
Različni dejavniki vplivajo na iste spremenljivke pri
istih subjektih – emocionalna stanja, utrujenost po
aktivnosti, spanje – budnost, različne stopnje
fiziološkega ciklusa, spremembe mikroklime, dnevni
ritem, hranjenje…
Biološko variiranje med subjekti
Posledica delovanja različnih dejavnikov, ki jih
običajno proučujemo – genetski dejavniki, starost,
spol, prehrana, zdravstveno stanje, različne stopnje
fiziološkega ciklusa, emocionalna stanja, utrujenost
po aktivnosti, spanje – budnost, spremembe
mikroklime, dnevni ritem, hranjenje…
Pri proučevanju se moramo zavedati teh
variiranj
Napake pri meritvah
poskušamo izenačiti pogoje merjenja in
opredeliti natančnost metode, ponavljanje
meritev
Občasno biološko variiranje pri subjektih
Poskušamo izenačiti čim več dejavnikov, ki
vplivajo na osebek, ponavljanje meritev v
različnih obdobjih.
Biološko variiranje med subjekti
Poskušamo izenačiti čim več dejavnikov, ki
vplivajo na osebeke
Mere variacije
Razpon
Varianca
Standardna deviacija
Koeficient variacije
Kvantilni razmik
Variacijski razmik
Razpon
Razlika med najnižjim in najvišjim rezultatom
Najpreprostejša ocena, vendar tudi najmanj
zanesljiva ocena variabilnosti.
Velik vpliv ekstremnih vrednosti.
8; 8,5; 8,5; 9; 9; 9; 9; 9,5; 9,5; 10
1; 2; 3; 5; 9; 9; 13; 15; 16; 17
Varianca
Varianca je povprečje kvadratov odklonov
posameznih vrednosti od aritmetične
sredine.
Pri vzorcu jo označujemo z s2
Pri populaciji jo označujemo s s2
S2 = S(X – X)2 / n – 1
s2 = S(X – m)2 / n - 1
Matematiki in statistiki
uporabljajo pojem
variance.
Biomedicinci raje
uporabljamo kvadratni
koren variance standardno deviacijo
ali standardi odklon (s,
s, SD) ki ga tudi
grafično prikazujemo.
Kadar so rezultati pravilno, simetrično
in “normalno” porazdeljeni okoli
aritmetične sredine, potem se v
intervalu, ki obsega
aritmetično sredino + 1 s nahaja 68,26%
vseh rezultatov
aritmetično sredino + 2 s nahaja 95,44%
vseh rezultatov
aritmetično sredino + 3 s nahaja 99,73%
vseh rezultatov
Polje, obarvano temno modro, predstavlja populacijo, ki odstopa
manj kot eno standardno deviacijo od aritmetične sredine. Pri
populaciji z normalno razporeditvijo pade v to skupino 68,3odstotkov populacije. 95,4-odstotkov populacije pade v skupino, ki
odstopa za 2 standardni deviaciji od aritmetične sredine (modro in
rjavo), tri standardne deviacije zavzemajo 99,7-odstotkov
populacije.
Izračunajte aritmetično sredino,
razpon, SD za populaciji
Trajanje bolezni v dnevih:
8; 8,5; 8,5; 9; 9; 9; 9; 9,5; 9,5; 10
8; 8,5; 8,5; 9; 9; 9; 9; 9,5; 9,5; 10
x=9
x
x–x
(x – x)2
8
-1
1
8,5
-0,5
0,25
8,5
-0,5
0,25
9
0
0
9
0
0
9
0
0
9
0
0
9.5
0,5
0,25
9.5
0,5
0,25
10
1
1
S x = 90
Sx – x = 0
S (x – x)2 = 3
Koeficient variacije
Kadar poznamo aritmetično sredino in
standardno deviacijo nekaterih variabel v
proučevanih skupinah, jih lahko primerjamo s
podobnimi rezultati v drugi proučevani skupini.
KV % = s x 100 / aritmetična sredina
Koeficient variacije je podan v odstotku
aritmetične sredine
Primerjava dveh skupin
Aritmetična sredina1= 100 cm
S1 = 10 cm
Aritmetična sredina2= 8 cm
S2 = 2 cm
Koeficient variabilnosti uporabljamo,
če želimo vedeti
Katera lastnost je bolj variabilna v
preiskovani skupini
Katera skupina bolj variira za isto
proučevano lastnost
Kvartilni razmiki
Uporabljamo, kadar so podatki nesimetrično
porazdeljeni in uporabljamo za srednjo
vrednost mediano (varianca in standardna
deviacija se uporabljata le v povezavi z
aritmetično sredino).
Delimo na razdelke (kvantile), kjer se nahaja
določen odstotek podatkov
če je razdeljeno na četrtine – kvartili
Če je razdeljeno na sto delov – centili.
Variacijski razmik
Razlika med najvišjo in najnižjo
vrednostjo
Ni pomembna za biostatistiko
Teoretične porazdelitve
Stvarne porazdelitve spremenljivk (dejanske,
izmerjene)
Teoretične porazdelitve spremenljivk –
matematična idealizacija stvarnih porazdelitev
– omogočajo oceno populacije glede na
poznavanje nekega modela.
Omogočajo pripravo modelov vzorčenja.
Normalna porazdelitev
Porazdelitev t
Binomska porazdelitev
Porazdelitev x2
Porazdelitev F
Vsi osebki enaki
višina
60
60
50
višina ovce
50
40
40
30
višina
Niz1
višina ovac 30
20
20
10
10
0
0
1
1
2
3
4
5
6
številka ovce
7
8
9
10
oznaka skupine
Normalna porazdelitev
Praviloma so rezultati nekako porazdeljeni,
kažejo tendenco grupiranja okoli srednje
vrednosti
razpršenosti okoli srednje vrednosti.
Takšna krivulja, ki grafično prikazuje
porazdelitev rezultatov meritev vzorcev –
normalna krivulja, Gaussova krivulja, zvonasta
krivulja
Gaussova krivulja je simetrična
Zvonaste oblike
Podana je z aritmetično sredino (določa, kje na
osi x leži) in s standardno deviacijo (določa
širino obsega krivulje).
Polovica vrednosti je pod aritmetično sredino,
polovica nad aritmetično sredino
Polje, obarvano temno modro, predstavlja populacijo, ki odstopa
manj kot eno standardno deviacijo od aritmetične sredine. Pri
populaciji z normalno razporeditvijo pade v to skupino 68odstotkov populacije. 95-odstotkov populacije pade v skupino, ki
odstopa za 2 standardni deviaciji od aritmetične sredine (modro in
rjavo), tri standardne deviacije zavzemajo 99,7-odstotkov
populacije.
Razporeditve v biomedicini večinoma padejo v to
teoretično skupino – večina kvantitativnih statističnih
spremenljivk ima normalno razporeditev.
Normalna razporeditev je posledica delovanja mnogih
različnih dejavnikov, ki delujejo na naključnem
spodbujanju ali zaviranju razvoja neke lastnosti.
Potrebno je veliko število meritev, da ugotovimo
normalno razporeditev.
Skupina mora biti homogena glede na vse druge
lastnosti, ki jih ne proučujemo, in heterogena na
proučevano lastnost.
Lastnost mora biti merjena pri vseh osebkih z enako
metodo.
Narišite normalno razporeditev dveh populacij,
ki imata enako aritmetično sredino, s1 je
manjša kot s2.
Narišite normalno razporeditev dveh populacij,
s1 = s2, aritmetična sredina prve populacije je
manjša od aritmetične sredine druge
populacije.
Standardizirana normalna porazdelitev
Če pri normalni porazdelitvi odklonov posameznih
vrednosti od aritmetične sredine vzamemo za enoto
standardno deviacijo – dobimo novo enoto za merjenje
odklonov – standardizirani (normirani) odklon (z).
z=x–m/s
Pri interpretaciji pomena vrednosti z si pomagamo s
tabelami, ki nam povedo odnos med vrednostjo z in
deležem površine pod krivuljo, ki jo ta vrednost omejuje.
V različnih priročnikih so različne tabele. Ugotavljanje,
kolikšen delež celotne populacije ima večje oziroma
manjše vrednosti od določene vrednosti z.
Nivo glukoze v krvi zdravega
prebivalstva.
Normalna porazdelitev.
m = 87 mg/100 ml
s = 12 mg/100 ml
Koliko prebivalcev ima nivo glukoze
nižji od 60 mg/100 ml.
Izračunamo vrednost z.
(60 – 87) / 12 = -2,25
Delež ustrezne površine pod krivuljo
ocenjujemo s pomočjo tabel ali
računalniških programov.
Normalno krivuljo lahko
interpretiramo tudi kot verjetnostno –
vrednost p.
Tabela - (Adamič Š. Temelji biostatistike, 1980)
Tabela: (Petz B. Osnovne statističke metode za nematematičare,
1985)
Tabela: Daniel WW. Biostatistics, 2005
Merjenje višine skupine študentov ženskega
spola.
m =170,0 cm
s = 10,0 cm
Kam spada (na standardizirani normalni
krivulji) študentka, visoka 180 cm.
Kolikšen delež študentk je višji od 180,0 cm.
Studentova razporeditev t
Teorijo te razporeditve je 1908 leta objavil William
Gosset. Njegov nadrejeni je zahteval, da je teorija
objavljena pod psevdonimom, zato je William izbral
psevdonim: Student.
Je modifikacija standardizirane normalne porazdelitve, ki
omogoča sklepanje o parametrih populacije iz ocen,
dobljenih na majhnih vzorcih.
t=x–m/s
Studentova razporeditev je osnova za
popularni test – studentov t test za
oceno statistične signifikantnosti
(značilnosti) razlik med dvema
sredinama vzorcev.
Studentova razporeditev je zelo podobna
normalni razporeditvi, pri večjem številu
vzorcev je enaka kot normalna razporeditev.
Interpretacijo rezultatov tudi dobimo s
tabelami, ki določajo verjetnost, da se neka
vrednost t pojavi pri določenem deležu
populacije
Vzorčenje
V biomedicini redko proučujemo celotne populacije
Delamo z deli teh populacij – vzorci.
Hitrejše, cenejše, izvedljivo
Vzorec mora biti reprezentativen.
Reprezentativnost ni nikoli popolna.
Sklepanje iz vzorca na celotno populacijo je zato
vedno povezano s tveganjem, ki ga ocenjujemo z
verjetnostnim računom.
Verjetnosti račun lahko uporabimo, če so enote vzorca
izbrane po slučajnostnem načelu.
Vzorec ne sme biti selekcioniran, mora biti
reprezentativen.
Naključni vzorec
Vse enote imajo enako možnost priti v vzorec.
Zagotovimo nepristranost vzorca.
Lahko uporabimo več različnih načinov
izbiranja vzorcev:
Tabela naključnih vzorcev.
Metanje kovanca
Žreb
Tabela naključnih števil
39634
14595
30734
64628
42831
80583
00209
05409
95836
65358
72249
41692
61885
48917
88378
77800
24028
62349
35050
71571
89126
95113
70361
90404
20830
22530
70469
04037
40581
50796
48129
84299
25734
03405
74088
40469
83722
91254
43511
41047
99457
01911
91785
87149
36192
93050
96822
48624
12193
09801
01178
65564
27478
79712
24090
42082
26792
72570
60767
80210
89509
40221
48734
82002
48248
03785
92087
06316
16379
44526
25775
25752
15140
78466
42194
55248
34361
72176
14918
34652
07973
91465
49314
02955
81916
19713
67331
65178
03091
34733
03395
49043
79253
52228
18103
53437
41577
52925
54898
39761
12872
40170
39153
93365
07763
39411
68076
17635
24330
12317
33869
55169
60571
04631
75467
61220
99132
89848
53665
69459
54526
82928
73146
18292
09697
14939
84120
94332
79954
40995
49184
86013
18721
28775
48579
87202
17986
22356
31131
06089
69486
82447
09865
77772
83868
72002
55006
39295
98072
67387
45276
06028
88638
24537
93208
30196
15630
80468
31405
45906
50103
61672
20582
10694
81776
91942
66575
91816
13827
47121
Sistematični vzorec
Uporabljamo, kadar so podatki o enotah
populacije že urejeni v seznamih, kartotekah,
skupinah.
Prvo enoto izberemo iz skupine po
slučajnostnem modelu, drugo pa po določenem
sistemu, ki velja za vse skupine (npr. vsak 30.
vzorec).
Lahko postane pristransko, če interval sovpada
z učinkom nekega dejavnika, ki se pojavlja v
intervalu.
Stratificirani vzorec
Pri heterogeni populaciji
Populacijo najprej razdelimo na sloje (spol,
starost, pasma…)
V populaciji, razdeljeni na sloje, jemljemo
naključni vzorec določene velikosti iz vsakega
sloja posebej.
Omogoča ocenjevanje vsakega parametra
posebej, ocena celotne populacije je bolj
zanesljiva.
V biomedicini pri preskusnih metodah vedno
uporabljamo tudi kontrolni vzorec – kjer proučujemo
vplive na statistike, ki jih ne moremo predvideti.
Kontrolni vzorec je izbran iz iste populacije kot
preiskusni vzorec.
Pri statistični analizi vpliva neke snovi na preskusni
vzorec primerjamo statistično razliko med lastnostmi
kontrolnega vzorca (ki ga nismo obdelovali) in
preskusnega vzorca (ki je bil obdelan). Ugotavljamo
razlike med povprečjema dveh vzorcev.
Kontrolni vzorec je lahko isti preskušanec:
v različnih časovnih obdobjih
ena stran je obdelana, druga ne
Velikost vzorca
Velikost vzorca je odvisna od variiranja
podatkov, od stopnje zaupanja za oceno
parametra, ki jo želimo doseči in od odklona
zaupanja pri izbranem tveganju. Potrebni so
podatki o standardni deviaciji populacije –
določimo s pilotskim poskusom.
Manjša variabilnost – možen manjši vzorec
Večja zanesljivost – potreben večji vzorec.