Varför behöver Ni kunskap i medicinsk statistik?

download report

Transcript Varför behöver Ni kunskap i medicinsk statistik?

Medicinsk statistik I
Läkarprogrammet
T5
HT 2013
Susann Ullén
FoU-centrum Skåne
Skånes Universitetssjukhus
Medicinsk statistik
Varför behöver Ni kunskap i medicinsk statistik?
• Självständigt arbete
• Framtida arbete
• Kunna tolka resultat från andra studier
• Analysera data
• Presentera resultat
•…
Medicinsk statistik
LITTERATURTIPS
Jonas Björk
”Praktisk statistik för medicin och hälsa”
Målpopulation
Stickprov
Stickprov
Datainsamling
Slutsats
Beskrivning
Analys
Deskriptiv statistik
Analytisk statistik
Vilka personer gäller resultatet
för?
• Gruppen personer som man vill kunna dra
slutsatser om kallas målpopulation
• Exempel på målpopulationer:
– Personer som kommer till akuten med
bröstsmärtor
– Barn under 5 år
– Rökare
– Typ 2-diabetiker
Systematiska fel - bias
• Kan ge fel tolkning av resultatet
• Olika typer av systematiska fel:
– Urvalet inte är representativt för populationen
• Icke-slumpmässigt urval
• Bortfall
– Felaktigheter i datainsamling
• Fel svar från apparatur
• Otydligt formulerade enkätfrågor
– Bristande jämförbarhet i de grupper som jämförs
• Skillnader i utgångsläge mellan patientgrupper
Undersökningsupplägg
• Undersökningen påverkar skeendet
– Experiment, tex klinisk prövning
• Undersökningen påverkar inte skeendet
– Observationsundersökning
• Tvärsnittsundersökning
• Longitudinell undersökning
Observationsundersökning
• Påverkar inte skeendet utan jämför
grupperingar som har uppstått utan påverkan
– Rökare jämfört med icke rökare
– Boende i stad jämfört med boende på landsbygd
– Personer med en viss diagnos jämfört med
personer utan den diagnosen
• Gruppskillnaden behöver inte bero på den
faktor vi vill studera
Experiment - Randomisering
• Slumpvis bestämning av vilka patienter som
får vilken av två (eller flera) behandlingar
• Är ofta lämpligt vid kliniska prövningar
• Ger två grupper som är lika vid start-tillfället
och eventuella skillnader som uppstår kan
antas bero på behandlingseffekten
Placeboeffekt
• Patientens förväntade effekt av behandlingen
• Kan medföra att effekt kan observeras av
verkningslös behandling
• Kontrollgrupp kan användas för att skilja på
behandlingseffekt och placeboeffekt
• Bäst att låta kontrollgruppen använda
nuvarande behandling, ”gold standard”
• Blindning
– Enkelblind
– Dubbelblind
Datatyper
Kontinuerliga data – mäts på en
intervallskala
Exempel: Vikt, längd, ålder, blodtryck
Diskreta data – data som mäts på en
intervallskala men bara kan anta vissa
värden
Exempel: Antal barn, antal bakterier
Datatyper
Ordinaldata – klassdata/kategoriindelning
med rangordning
Exempel: klassificering av smärta enligt
låg – måttlig – hög – outhärdlig, 1 – 2 – 3 – 4
• Ej säkert att 2-1 = 3-2
• Ej säkert att 4 är dubbelt så mycket som 2
Nominaldata – klassdata/kategoriindelning
utan rangordning
Exempel: Kön, bostadsort, behandlingsgrupp
Målpopulation
Stickprov
Stickprov
Datainsamling
Slutsats
Beskrivning
Analys
Deskriptiv statistik
Analytisk statistik
Deskriptiv statistik
Beskrivning av materialet
• Grafiskt
• Figurer
• Numeriskt
• Genomsnittsmått
• Spridningsmått
Genomsnittsmått
Lägesmått, centralmått, tyngdpunkt
Var ligger tyngdpunkten?
Hur kan tyngdpunkten anges?
Genomsnittsmått
• Medelvärde
– Summan av observationerna dividerat med antalet
observationer
• Median
– Den mittersta observationen om observationerna
sorteras i storleksordning
Medelvärde eller median ?
Valet görs utifrån hur data ser ut
•
Symmetriska data på intervallskala
•
Asymmetriska data på intervallskala
•
Ordinaldata
Symmetriska kontinuerliga data
Medelvärde = Median
Exempel: Födelsevikt, längd
I figuren: Medelvärde = 24
Median = 24
Använd medelvärdet!
Asymmetriska kontinuerliga data
Data är skevt åt höger eller
åt vänster
Medelvärdet < Medianen
Medelvärdet > Medianen
I figuren: Medelvärdet = 8
Medianen = 5
Använd medianen!
Utfall på ordinalskala – Exempel
Modified Ranking Scale – Grad av handikapp efter stroke
(Hacke et al. 2008)
Använd medianen!
(Kasner 2006)
Varför inte alltid använda medelvärdet?
Exempel
I en enkätundersökning fanns följande fråga:
Hur ofta tränar du?
Aldrig
0 poäng
1-4 gånger i månaden
1 poäng
5-8 gånger i månaden
2 poäng
Mer än 8 gånger i månaden
3 poäng
0 poäng
eller
Medelvärdet blir beroende av hur man kodar variabeln!
1 poäng
3 poäng
6 poäng
Nominaldata
Här är lägesmått inte
meningsfulla.
I figuren:
Malmö = 24% (60)
Göteborg = 50% (125)
Stockholm = 26% (65)
Ange andelar och antal!
Sammanfattning
Lägesmått
Symmetriska
data
Asymmetriska
data
Ordinaldata
Medelvärde
Median
Median
Spridning
Stor spridning
Liten spridning
Spridningsmått
• Beskriver hur pass koncentrerade data är kring
centralvärdet
• Olika mått används för symmetriska och asymmetriska data
– Symmetri – spridningsmått baseras på medelvärde
– Asymmetri – spridningsmått baseras INTE på
medelvärde
Spridningsmått
• Standardavvikelse,
genomsnittliga avvikelsen från
medelvärdet
• Percentiler och kvartiler, delar data i bestämda
proportioner
• Variationsvidd, differensen mellan max och min
Percentiler
Beskriver hur stor andel av observationerna som ligger
under värdet
• 10% ligger under 10:e percentilen
• 20% ligger under 20:e percentilen etc.
n  1 
q 
 1
 100
Kvartiler delar upp data i fyra lika stora delar;
25 
Undre kvartil = n 1  100
 1

Övre kvartil =

n  1  75   1
 100
Sammanfattning
Lägesmått
Spridning
Symmetriska data Medelvärde
Varians/
Standardavvikelse
Asymmetriska
data
Median
Percentiler
Ordinaldata
Median
Percentiler
Hur vet vi om det är symmetriskt?
• Grafiskt se om värdena ser symmetriska ut, tex med histogram eller
boxplot (lådagram)
• Medianen och medelvärdet skall vara lika
• Avståndet mellan median och symmetriska percentiler skall vara lika stora,
t.ex. jämföra avståndet av övre kvartilen med medianen och undre kvartilen
med medianen. Dessa avstånd skall vara lika.
Max
Övre kvartil
Median
Undre kvartil
Min
Normalfördelningen
X=medelvärde
S=SD=standardavvikelse
Referensintervall
Medelvärdet ± 1 SD täcker 68% av
data
Medelvärdet ± 2 SD täcker 95%
av data
Medelvärdet ± 3 SD täcker
99.7% av data
Målpopulation
Stickprov
Stickprov
Datainsamling
Slutsats
Beskrivning
Analys
Deskriptiv statistik
Analytisk statistik
Punktskattning
• Stickprovet används för att skatta värden i
studiepopulationen
- Medelvärdet är exempel på en
punktskattning.
Skattningar – standardfel
(medelfel)
• Varje skattning har en osäkerhet
• Osäkerheten kan mätas med standardfelet
(standard error, SE)
• SE för medelvärde:
s = standardavvikelsen
s2
SE 
n = antal observationer
n
• Ju större n ju mindre blir SE
Standardfel - exempel
Medellängden hos individer i två populationer
Stor spridning
•Patienter i ett väntrum på en akutmottagning
Medelvärde=150cm; standardavvikelse=25
Liten spridning
•Barn i årskurs 5
Medelvärde=150cm; standardavvikelse=10
Standardfel - exempel
Patienter i ett väntrum på en
akutmottagning
Medel=150, s=25
Elever i årskurs 5
Medel=150, s=10
100 observationer
100 observationer
Medel = 150,4
Medel = 149,2
s = 28,9
10 observationer 10 observationer
s = 8,6
SE = 2,9
Medel = 141,2
Medel = 149,2
SE = 0,9
s = 32,4
s = 8,2
SE = 10,2
SE = 2,6
Konfidensintervall
• SE kan användas för att beräkna ett
konfidensintervall (KI)
• Med en viss säkerhet täcker
konfidensintervallet det sanna värdet
• Konfidensintervallets bredd beror av
– Storleken på SE (och därmed antalet
individer i stickprovet samt spridningen)
– Konfidensgraden – hur säker man vill vara
Konfidensintervall
• Om man gör 100
konfidensintervall
med konfidensgrad
95% så kommer i
genomsnitt 95 av de
100 intervallen att
innehålla den sanna
parametern.
120
130
140
150
160
170
Beräkning av konfidensintervall
Generell formel för konfidensintervall
Skattning ± konstant*SE
Konfidensgrad på 90% ger en konstant = 1.64
Konfidensgrad på 95% ger en konstant = 1.96
Konfidensgrad på 99% ger en konstant = 2.58
Konstanterna kommer från Normalfördelningen.
Konfidensintervall
Exempel
• Patienter i ett väntrum på en akutmottagning
• Tar ut ett stickprov på 100 individer
• Beräknar ett 95% KI
x  1.96 SE  150.4 1.96 2.9  [144.7;156.1]
Med 95 procent säkerhet finns den genomsnittliga längden i
den underliggande målpopulationen mellan 144.7 och
156.1 cm.
Det ”sanna” medelvärdet ligger med 95% säkerhet i
intervallet medelvärdet ± 2*SE
Referensintervall
• Ett referensintervall säger något om
spridningen i studiepopulationen
• Istället för att använda SE används
standardavvikelsen, s.
Referensintervall
Exempel
•Stickprov om 100 individer till patienter i ett väntrum på
en akutmottagning
Beräkning av 95% referensintervall
= 150,4 ± 1.96*28.9 = [93.8; 207.0]
95% av målpopulationen bör vara mellan 94 och 207 cm
”medelvärde ± 2* standardavvikelser ” täcker
95% av data i studiepopulationen
Sammanfattning
• Konfidensintervall och referensintervall är
beräknade baserat på data från stickprovet men
drar slutsatser om studiepopulationen!
• KONFIDENSINTERVALL:
Medelvärdet i studiepopulationen ligger med 95%
säkerhet inom gränserna
• REFERENSINTERVALL:
95% av studiepopulationen har ett värde inom
gränserna
Förutsättningar för konfidens – och
referensintervall
Stickprovet måste vara representativt för
studiepopulationen
Kontinuerlig data måste vara approximativt
normalfördelade
• Stickprovet är normalfördelat
eller
• Stickprovet stort
T-fördelningen
Konstanten c=1.96 i formeln
Medelvärdet ± c*SE
kommer från den standardiserade normalfördelningen vid
konfidensgraden 95%
För små stickprov blir KI för snäva, går inte upp till den
önskade konfidensgraden
Hur löser vi det?
T-fördelningen
• Vi löser det genom att använda t-fördelningen
med n-1 frihetsgrader för att bestämma
konstanten c
- Ex. om vi har n=10 så blir antalet
frihetsgrader 10-1=9
• I en tabell kan man ta reda på att c=2.26
T-fördelningen
• En fördelning som mycket påminner om
normalfördelningen men som för små
stickprov gör att vi bättre uppnår den
önskade konfidensgraden
Vad är små stickprov?
Tumregel - stickprovsstorlek
Antal oberoende
observationer
Tumregel
n<20
Beräkna bara konfidensintervall om det sedan
tidigare är känt att den variabel som studeras
är normalfördelad. Använd t-fördelningen med
n-1 frihetsgrader för att bestämma
konstanten c
n: 20-50
Beräkna konfidensintervall om mätvariabeln är
någorlunda normalfördelad. Använd t-fördelningen
med n-1 frihetsgrader för att bestämma
konstanten c
n>50
Konfidensintervall kan beräknas oavsett hur variabeln
som undersöks är fördelad i studiepopulationen. Den
standardiserade normalfördelningen ger fortfarande något
för låga värden på c; skillnaden jämfört med korrekta värdet
hämtat från t-fördelningen är dock försumbart
Hur gör vi med data som inte är
kontinuerliga/normalfördelade?
Exempel
• Ett nytt läkemedel ska testas. Hur
många kände sig bättre av det nya
läkemedlet?
Konfidensintervall för en andel
• Antag att q = punktskattningen
• q är andelen i stickprovet, q ligger mellan 0-1
• Konfidensintervall för andelar beräknas
q1  q 
q c
n
n=antalet individer i stickprovet
c=konstant (samma som i tidigare beräkningar)
Förutsättning: q*(1-q)*n > 10
Konfidensintervall för en andel
• Exempel: Ett nytt läkemedel ska testas. Hur
många kände sig bättre av det nya
läkemedlet?
• En studie med 100 individer, n=100
• q=andel som kände sig bättre av det nya
läkemedlet. q=70%
• Konfidensgrad=95%
c=1.96
Exempel fortsättning
• 95% KI:
0.70  1.96
q1  q 
q c
n
0.701  0.70
100
95% KI: 61% - 79%