Grundläggande biostatistik

Transcript Grundläggande biostatistik

Grundläggande Biostatistik
Joacim Rocklöv, Lektor
Epidemiologi och global hälsa
Umeå Universitet
Modellbaserad analys
Regression
Logistisk regression
Överlevnadsanalys
Hitta misstag
Hantera extremvärden
Bortfall
Hur samlas
data in?
Konfidensintervall
P-värden (enkla tester)
Formell
analys
Informell data
analys
Design och mätning
Lär känna data,
tabeller, mått,
grafer
Mätskalor
reliabilitet
validitet
Syften..
•Skatta prevalens och risker för insjuknande av
sjukdom
•Jämföra utfall av behandling tex
läkemedel/rehabiliteringsmetoder
•Kartlägga riskfaktorer, dvs faktorer som ökar
risken för sjukdom
•Följa förlopp – tillväxtkurvor, etc…
Strategi vid kliniska prövningar
- Sample size beräkningar
-Datainsamling
-Beskrivande statistik
-Statistisk analys
-Inferens
- Presentation/publikation
Mätning
Variabel
Kvantitativ
Diskret
Kontinuerlig
Kategorisk
Ordnad
Ej ordnad
Grupper av variabler
• Utfallsvariabler – primära/sekundära
• Behandlingsvariabler/riskfaktorer – variabler som
påverkar utfallet
• Bakgrundsvariabler – demografiska variabler
• Förväxlingsvariabler – confounders/inflytelserika
men ej intressanta variabler för frågeställningen
Datanivåer
(typer av variabler)
Kvalitativa variabler =
kategorivariabler
Kvantitativa variabler =
numeriska variabler
Nominala
variabler
Ordinala
variabler
Intervallvariabler
Kvotvariabler
Utfallen är
kategorier som
inte kan
rangordnas
Utfallen är
ordnade
kategorier
Kan beräkna
differenser men
inte kvoter
Kan beräkna
differenser och
kvoter
Blodtyp
Kön
Yrke
Rökning
(ja/nej)
VAS-skalan
Betyg
Självskattad
hälsa, smärta
Rökning (nej,
lite, mycket)
Temperatur
Mätt i C° F°
K°
Längd
Vikt, ålder
Rökning (antal
cigaretter per
dag)
Variabel
Kategorier
Typ av
variabel
Datanivå
Kön
Man/Kvinna
Kat
Nominal
Binär
Blodgrupp
O, A, B, AB
Kat
Nominal
VIKT
Mätt i kg
Kvant
Kontinuerlig
Rökare
Nej, Ja
Kat
Nominal
Binär
Smärta
Obetydlig, Måttlig,
Svår, Outhärdlig
Kat
Ordinal
Vårddagar
Antal vårdagar
Kvant
Diskret
ID
Orsak verkan samband?
x
y
x påverkar y
x
y
x är associerad med y
Studiedesign
Experiment
Klinisk prövning
Observationsstudie
Tvärsnittsundersökning
Longitudinell
undersökning
Kohortstudie
Fall-kontroll
studie
Randomiserad kontrollerad studie
Behandling
Patienter
Utfall
Randomisering
Kontroll/
Placebo
Fler armar kan förekomma
Utfall
Kohort studie
Exponerade
Utfall
Ej
exponerade
Utfall
Population
Fall kontroll studie
Exponerade
Ej exponerade
Fall
Kontroller
Tvärsnitts-studie
Mätningar
Population
Urval
Analys och inferens
Inferens
Skattning av
sant medelvärde
Sant
medelvärde
Urvalsmetod
Population
Urval
Inferens 2: Hypotesprövning
Skiljer sig män och kvinnor åt vad avser kroppstemperatur?
Report
temp_c
sex
Man
Mean
36,7248
N
Kvinna
36,8855
65
,41305
Total
36,8051
130
,40732
P-värde = 0.024 Slutsats: ?
Std. Deviation
65
,38820
Statistisk inferens
de metoder som används för att utifrån
ett stickprov dra slutsatser om en hel
population.
Hypotesprövning
Vid prövning av behandlingsmetod på två grupper:
H0: ingen skillnad mellan grupper
HA: skillnad mellan grupper
När väljer vi nollhypotesen och när förkastar vi den till
fördel för den alternativa hypotesen?
Konfidensintervall
•Skattningar är osäkra på grund av att vi studerar
en del av populationen.
•Skattningar kan ges med FELMARGINAL.
•Det kallas KONFIDENSINTERVALL.
•Konfidensintervallet anges med grad av osäkerhet
som kallas konfidensnivå (95%, 99%, etc)
Konfidensintervall
intervall som inkluderar det sanna medelvärdet
nästan säkert (95%).
Kroppstemperatur
Konfidensintervallet blir 36.73 – 36.88
Detta intervall inkluderar populationens
medelvärde nästan säkert (med 95% konfidens)
P-värde
p-värde = sannolikheten för det erhållna utfallet eller
extremare under förutsättning att nollhypotesen är sann.
• Om denna sannolikhet är liten tror vi att nollhypotesen är
falsk. Vi förkastar nollhypotesen.
• Om denna sannolikhet är stor kan vi inte förkasta
nollhypotesen.
Praxis för bedömning av p-värden
p > 0.05
ingen skillnad (ej signifikant)
0.05>p>0.01 skillnad (signifikant *)
0.01>p>0.001 skillnad (signifikant **)
0.001>p
skillnad (signifikant ***)
Typ I och II fel
H0: grupp1=grupp2
HA: grupp1≠grupp2
Null Hypothesis is
true (H0)
Alternative
Hypothesis is true
(HA)
Reject Null
Hypothesis
-Negative
Right decision
Type 2 error (β)
Reject Null
Hypothesis
-Positive
Type 1 error (α)
Right decision
Type 1 error is referred to as false positive
Type 2 error is referred to as false negative
Begreppet power – studiens styrka
• Sannolikheten att kunna påvisa en skillnad mellan
grupper (tex behandlingsgrupper) om den finns där
• Utgör en komponent vid bestämning av studiens storlek
• Andra komponenter är:
• Den minsta skillnad vi vill kunna påvisa
• Risk för ett falskt positivt fynd (alfa-fel)
• Storleken av spridningen i utfallet
• Val av metod
Presentation av data
Bild
Mått
Tabell
Val styrs av variabeltyp
Lägesmått
n
Medelvärde
x 

xi
i 1
36.8 gr C
n
Median
”Mittersta värdet”
36.8 gr C
Variationsmått
n
Standardavvikelse
Kvartilavstånd
(IQR)
Variationsvidd
(Range)
s 

( xi  x )
2
i 1
s = 4.13 år
n 1
q1 = 36.56, q3 = 37.06
IQR= 0.5 grC
max =38.22, min = 35.72 VV = 2.5
Grafisk beskrivning: Histogram
0
.
4
Y
0
.
3
0
.
2
0
.
1
0
.
0
3
2
1
0
1
2
3
4
X
Referens
40
30
20
10
Std . Dev = 4 58 .3 9
Mea n = 37 93 .7
N = 2 84 .0 0
0
49
47
45
43
41
39
37
35
33
31
29
27
00
00
00
00
00
00
00
00
00
00
00
00
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
W e ig h t o f c h ild a t b irth (g )
Grafisk bild av samband (scatter plot)
År styrka i höger och vänster hand associerade?
Grafisk beskrivning: Boxplot
Tabellpresentation
Jämförelse mellan grupper

Grundläggande biostatistik

Transcript Grundläggande biostatistik

Directory