Transcript Slide 1

Slide 1

OSNOVE
STATISTIČKE OBRADE PODATAKA

Darko Hren
Croatian Medical Journal
Medicinski Fakultet u Zagrebu


Slide 2

CILJ ISTRAŽIVANJA
Opisati
Objasniti

Predvidjeti

uzorak

Oruđe:
STATISTIKA

populacija


Slide 3

UZORAK
Kakvo je stanje u populaciji?

Nezavršena
osnovna škola
19%
Nereprezentativan

Osnovna škola
22%

Više ili visoko
obrazovanje
12%
Srednja škola
47%

Nereprezentativan

Reprezentativan


Slide 4

UZORAK
Vrste uzoraka (načini uzimanja uzoraka)
Slučajni

Svaki član populacije ima jednaku vjerojatnost biti odabran
(izvlačenje brojeva iz šešira, tablice slučajnih brojeva,
računalni programi...)

Sustavni

Uzima se svaki n-ti član populacije

Stratificirani

Populacija se dijeli na “slojeve” pa se iz njih uzimaju
slučajni uzorci

Prigodni

Podatci se uzimaju od ispitanika koje imamo “pri ruci”


Slide 5

UZORAK
Veličina uzorka
Željena preciznost
mjerenja

Varijabilnost mjerene
pojave

Snaga istraživanja –
vjerojatnost pronalaženja razlike koja zaista i postoji u populaciji

Pogreške:
alfa – pronašli smo statistički značajnu razliku, a razlike zapravo nema
beta – nismo pronašli razliku, a razlika zapravo postoji


Slide 6

OBLIKOVANJE SKUPINA
Uzorak

randomizacija

Kontrolna

Eksperimentalna (1 ili više)


Slide 7

VJEŽBA
Želimo ispitati stavove studenata prema znanosti.
Tijekom prvog tjedna upisa, upitnikom od 10 pitanja
ispitali smo studente koji su čekali ispred referade.

Slučajni?
Stratificirani?
Sustavni?


Slide 8

LJESTVICE MJERENJA
NOMINALNA

broj stoji umjesto imena (npr. spol – muški=0, žene=1)

ORDINALNA

brojevi označavaju redoslijed, ali ne znamo KOLIKE su razlike
(npr. pokretljivost bolesnika: I nepokretan, II slabo ili ograničeno
pokretan, III pokretan)

INTERVALNA

imamo redoslijed i razlike ali brojčani odnosi ne označavaju
odnose u mjerenoj pojavi jer nema apsolutne nule

(npr. temperatura – 20ºC nije dvostruko toplije od 10ºC)

OMJERNA

brojčani odnosi označavaju odnose u mjerenoj pojavi jer
postoji apsolutna nula
(npr. dužina – 20 cm je dvostruko duže od 10 cm)


Slide 9

VJEŽBA
Stupanj opeklina

ordinalna

Dob

omjerna

Brojevi na majicama nogometaša

nominalna

Zbroj bodova na ljestvici stavova prema znanosti
(najmanji mogući rezultat je 10, a najveći 50)

intervalna

Doza lijeka koji se daje pacijentu (izražena u mg)

omjerna


Slide 10

OBRADA PODATAKA:
Opis
Kakvi su stavovi studenata medicine
prema znanosti?

Usporedba
Postoje li razlike u stavovima prema
znanosti između studenata različitih godina?

Povezanost
Postoji li povezanost između stavova prema znanosti
prosjeka ocjena?


Slide 11

OPIS
Raspodjela

Srednje vrijednosti i raspršenja
Dominantna vrijednost (Mode)
-najčešći rezultatatSredišnja vrijednost (Median)
-središnji rezultatatAritmetička sredina (Mean)
-prosjek-

Raspon

Poluinterkvartilno raspršenje
Standardna devijacija


Slide 12

SREDNJE VRIJEDNOSTI
Aritmetička sredina

Zbroj svih rezultata
Broj rezultata

Ovisi o vrijednosti rezultata, pa je osjetljiva na vrijednosti koje jako odstupaju

Središnja vrijednost

Vrijednost koja se nalazi točno u sredini niza
rezultata poredanih po veličini

Ne ovisi o vrijednosti rezultata, pa je vrijednosti koje jako odstupaju ne
mijenjaju, ali ju može promijeniti broj rezultata

Dominantna vrijednost

Vrijednost koja se najčešće pojavljuje

Ne ovisi ni o vrijednosti ni o broju rezultata


Slide 13

SREDNJE VRIJEDNOSTI
I RASPRŠENJA


Slide 14

SREDNJE VRIJEDNOSTI
1+2+2+3+3+3+4+4+5
9

=3

M=C

1+2+2+2+2+3+3+4+8
9

M=3

C=2

1

2

3

4

5

1

2

3

4

8

=3


Slide 15

RASPODJELA PODATAKA

45

45

40

40

35

35

30

30

25

25

20

20

15

15

10

10

5

5

0

0
1

2

3

C=4

4

5

1

2

3

C=4

4

5


Slide 16

VRIJEDNOSTI KOJE SE JAKO RAZLIKUJU
151
Pažnja! Možda je
pogreška, a
možda
neistražena
pojava!
105 110 115 120 125 130 135 140 145 150 155
sfenoidni kut [o]


Slide 17

NORMALNA RASPODJELA

Testiranje normaliteta raspodjele:
Kolmogorov-Smirnov test


Slide 18

DRUGE RASPODJELE

Asimetrična udesno
Asimetrična ulijevo
Stožasta
Spljoštena

Bimodalna


Slide 19

Aritmetička sredina i
standardna devijacija
Parametrijska statistika

Središnja/dominantna vrijednost
i interkvartilno raspršenje/totalni raspon

Neparametrijska statistika


Slide 20

ZBOG POGREŠKE MJERENJA DOBIVENI REZULTATI
UVIJEK SU SAMO PROCJENA STANJA U POPULACIJI

RASPON POUZDANOSTI
(CONFIDENCE INTERVAL)

RASPON U KOJI,
UZ ODREĐENU SIGURNOST (95%, 99%),
ZAHVAĆA “PRAVI” REZULTAT U POPULACIJI

Npr. M=20, 95%CI 18-24
C=76, 99%CI 69-85


Slide 21

IZBOR ODGOVARAJUĆEG STATISTIČKOG POSTUPKA


Slide 22

VJEŽBA
1. Kakvi su stavovi studenata medicine
prema znanosti?
2. Postoje li razlike u stavovima prema
znanosti između studenata različitih godina?
3. Postoje li razlike u stavovima prema
znanosti između studenata i studentica?
4. Postoji li povezanost između stavova prema
znanosti i prosjeka ocjena?


Slide 23

1. Kakvi su stavovi studenata medicine prema znanosti?


Slide 24

2. Postoje li razlike u stavovima prema znanosti između studenata
različitih godina?


Slide 25

3. Postoje li razlike u stavovima prema znanosti između
studenata i studentica?


Slide 26

4. Postoji li povezanost između stavova prema znanosti
i prosjeka ocijena?


Slide 27

TUMAČENJE REZULTATA
Statistički
značajno!!!

p<0.05


Slide 28

ŠTO ZNAČI “STATISTIČKI ZNAČAJNO”?

p<0.05 – 95% sigurnosti da dobivena
razlika/povezanost nije posljedica slučaja
p<0.01 – 99% sigurnosti da dobivena
razlika/povezanost nije posljedica slučaja
PRIKAZ p-vrijednosti – tri decimalna mjesta
Npr. p=0.024
p=0.007
p<0.001


Slide 29

Statistički
značajno
ne mora biti i
STVARNO
značajno!!!


Slide 30

PRIMJER
Rezultati randomiziranog kontroliranog pokusa
pokazuju da je novi lijek u pokusnoj skupini
prosječno smanjio dijastolički tlak
s 99 mmHg na 96 mmHg, p<0.001

Statistički značajno, ali ne i klinički!


Slide 31

PRIMJER
p<0.001
99,5

120
110
100
90
80
70
60
50
40
30
20
10
0

99
98,5
98
97,5
97
96,5
96
95,5
95
94,5
1

2

1

2


Slide 32

POVEZANOST
NE ZNAČI I UZROČNOST

SAMO POKUSOM
MOŽEMO UTVRDITI
UZROČNOST!!!

Korelacija između stavova prema znanosti
i slušanja kolegija “Uvod u znanstveni rad u medicini”
iznosi ρ=0.84, p<0.001
Studenti koji su slušali kolegij vjerojatno
imaju pozitivnije stavove prema znanosti
Slušanje kolegija utječe na stvaranje pozitivnijih
stavova prema znanosti


Slide 33

BIOSTATISTICS INSTRUCTIONAL MANUAL
http://www.sjsu.edu/faculty/gerstman/StatPrimer/
ELEMENTARY CONCEPTS IN STATISTICS
http://www.statsoftinc.com/textbook/esc.html
ONLINE STATISTICS TEXTBOOK
http://www2.chass.ncsu.edu/garson/pa765/statnote.htm
POWER CALCULATION
http://calculators.stat.ucla.edu/powercalc/


Slide 34

Procjena veličine uzorka
• “Koliki uzorak mi treba?”
– često pitanje
– važno pitanje
– odgovor nije sasvim jednostavan

• grafički način procjene veličine uzorka – Altmanov nomogram


Slide 35

Procjena veličine uzorka
• potrebna 3 parametra
– (klinički) relevantna razlika
– razina značajnosti (0.05, 0.01)
– snaga

• na temelju razlike koju smatramo relevantnom možemo izračunati
standardiziranu razliku koja ovisi o vrsti podataka
(kontinuirani/kvantitativni ili kategorijski/kvalitativni)
– za kategorijske varijable:
SR=δ/√p(1-p) , pri čemu je: δ=p1-p2 (razlika u proporcijama)
p=(p1+p2)/2 (prosječna proporcija)
– za kontinuirane varijable:
SR=δ/σ0, pri čemu je: δ – klinički relevantna razlika
σ0 – očekivana standardna devijacija


Slide 36

Procjena veličine uzorka – primjer 1
kategorijske varijable
Ispitujemo novi antibiotik. Dosad korišteni lijek učinkovit je
u 40% slučajeva, a novi, da bi se isplatio mora biti
učinkovit u barem 60% slučajeva.
Koliko ispitanika trebamo da bismo, uz dvosmjernu
značajnost od 0.05 i snagu od 80%, provjerili takvu razliku
u učinkovitosti lijekova?
SR=δ/√p(1-p) , pri čemu je: δ=p1-p2 (razlika u proporcijama)
p=(p1+p2)/2 (prosječna proporcija)

SR=(0.6-0.4)/0.5=0.4


Slide 37

Procjena veličine uzorka – primjer 1
kategorijske varijable
Koliki uzorak biste trebali
da je sve isto, samo uz
značajnost od 0.01?


Slide 38

Procjena veličine uzorka – primjer 2
kontinuirane varijable
Koliki uzorak je potreban da bi se, uz dvosmjernu značajnost od 0.05 i
80% snage, provjerila razlika u razini kolesterola od 1.0 mmol/l između
aritmetičkih sredina dviju skupina ispitanika? Očekujemo podjednaku
standardnu devijaciju u obje skupine od 3.0 mmol/l.

SR=δ/σ0, pri čemu je: δ – klinički relevantna razlika
σ0 – očekivana standardna devijacija

SR=1/3=0.333


Slide 39

Procjena veličine uzorka – primjer 2
kontinuirane varijable
150 po skupini


Slide 40

Procjena veličine uzorka – zaključno
• u procjenu veličine uzorka treba uključiti i očekivano
osipanje ispitanika
npr. dodati 20-30% za istraživanja koja će duže trajati

• zaokružite na cijeli broj
• veličina uzorka jest važna, ali ne znači ništa ako uzorak
nije dobro odabran


Slide 41

PRIKAZ PODATAKA - NAČELA
Tablice i slike
• Svaka tablica / slika mora biti samorazumljiva (bez
čitanja teksta)
• Svaka tablica / slika mora imati naslov – što
informativniji
• Gdje god su podatci statistički obrađeni,
podbilješke tablica / opisi slika moraju donijeti
osnovne statističke informacije
• Ne štediti na potrebnim opisima i objašnjenjima
legendi (legende – opisne)


Slide 42

PRIKAZ PODATAKA - NAČELA
• Svaka tablica / slika treba donijeti jednu
poruku
• Ta poruka je odgovor na jedno pitanje koje
proistječe iz deduktivne raščlambe hipoteze

• Prije izbora tablice / slike, mora se točno i
jasno definirati što se njome želi reći


Slide 43

TABLICE
• kategorijske varijable
(numerički podatci, prebrojivi), frekvencije...
• velik broj podataka
• jednoznači, jasni i informativni naslovi stupaca i
redova u tablici
• u podbilješkama (* † ‡ § ¶...) su navedena
objašnjenja (statističkih testova, kratica...)
Primjeri:
– podatci o ispitanicima (broj, dob, spol, indeks tjelesne mase)
– broj bolničkih kreveta, broj liječnika, sestara, tehničara, pomoćnog
osoblja na odjelu....


Slide 44

SLIKE
– RTG, EKG, PHD, fotografije, zemljovidi, grafovi...
Grafovi – vremenski odnos (linijski graf)
– odnos proporcija (stupčani graf)

– korelacije
– apscisa i ordinata uvijek jasno označene
(naziv, mjerne jedinice)


Slide 45

TABLICA VS. SLIKA
Tablica

Slika

• numerički podatci

• RTG, PHD, EKG...

• veliki broj podataka

• linijski graf vremenski odnos

• podatci o ispitanicima
(BMI, dob, spol...), broj
bolničkih kreveta, broj
muških bolesnika...

• stupčani graf -odnos
proporcija


Slide 46

Racionalan prikaz podataka u tablici:
Pretvaranje dvaju stupaca u jedan
broj pacijenata postotak pacijenata
43
34.4%
27
21.6%
32
26.1%
17
...
6

No. (%) of patients
43 (34.4)
27 (21.6)
32 (26.1)
...

Uporaba nadnaslova za stupce

Broj (%) pacijenata

broj (%) pacijenata

koji su dobili infarkt

koji nisu dobili infarkt

17 (12.4)

74 (78.3)

broj (%) pacijenata
s infarktom
17 (12.4)

bez infarkta
74 (22.8)


Slide 47

Raspored podataka u tablici
• Organizirati podatke tako da se srodni elementi slažu u
stupac, a ne u red (npr. dob, spol, srednji tlak, težina
infarkta)
• Stupce slažite ovom logikom:
DOBSPOL SIMPTOMI FIZIKALNI NALAZ RTG
NALAZ TERAPIJA ISHOD
• Nastojte stupac s p vrijednostima staviti između stupaca
s vrijednostima koje uspoređujete
• P vrijednosti možete staviti i u redove ako uspoređujete
podatke koji stoje jedni iznad drugih
• P vrijednosti uvijek pišite na tri decimale, bez obzira na to
je li razlika značajna