Datakvalitet

Download Report

Transcript Datakvalitet

Datakvalitet
Hva duger data til?
Jonas Ranstam
[email protected]
Registercentrum Syd, Skånes Universitetssjukhus och
Inst. f. kliniska vetenskaper, Lunds Universitet,
Klinikgatan 22, 22185 Lund, Sverige
15 Jan 2015
Jonas Ranstam
[email protected]
Datakvalitet
Big data
Jonas Ranstam
[email protected]
Datakvalitet
Big data
Jonas Ranstam
[email protected]
Datakvalitet
Big data
Jonas Ranstam
[email protected]
Datakvalitet
Big data
There are a lot of small data problems that occur in big data.
They don’t disappear because you’ve got lots of the stuff.
They get worse.
David Spiegelhalter
Jonas Ranstam
[email protected]
Datakvalitet
Big data
Statistics have never been cooler; it’s never been more useful.
It just seems to me te be a wonderful time to be a statistician.
Brian Tarran
Jonas Ranstam
[email protected]
Datakvalitet
Detta föredrag
Disposition
Studiedesign, datainsamling och statistisk analys hänger samman.
Här kommer fokus att ligga på data, främst datakvalitet.
Vad är datakvalitet?
Vad har bristande datakvalitet för konsekvenser?
Hur kontrollerar jag datakvaliteten i mitt register?
Diskussion
Jonas Ranstam
[email protected]
Datakvalitet
Vad är datakvalitet?
Absolut definition
Relevanta, fullständiga, korrekta och konsistenta data.
Jonas Ranstam
[email protected]
Datakvalitet
Vad är datakvalitet?
Relativ definition
Tillräckligt bra för att uppfylla användarens behov.
Jonas Ranstam
[email protected]
Datakvalitet
Vad är datakvalitet?
Relativ definition
Tillräckligt bra för att uppfylla användarens behov.
Vad är “tillräckligt bra”?
Jonas Ranstam
[email protected]
Datakvalitet
Vad är datakvalitet?
Relativ definition
Tillräckligt bra för att uppfylla användarens behov.
Vad är “tillräckligt bra”?
Det beror på vad data ska användas till.
Jonas Ranstam
[email protected]
Datakvalitet
Datakvalitet
Bortfall
Vad är konsekvensen av bortfall?
Jonas Ranstam
[email protected]
Datakvalitet
Två exempel: Vissa höftprotesreoperationer oregistrerade
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 1. Skattning av 2-årig reoperationsrisk.
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 1. Skattning av 2-årig reoperationsrisk
Förutsättning: totalt i höftregistret under 2006
53 962 primäroperationer
819 reoperationer
Skattad reoperationsrisk:
819
53962
= 0.015 (95%Ki: 0.014 - 0.016)
Antag att en oberoende underrsökning visar att 5% av genomförda
reoperationer inte registreras.
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 1. Skattning av 2-årig reoperationsrisk
Skattad reoperationsrisk
819
53962
= 0.015 (95%Ki: 0.014 - 0.016)
Bortfallskorrektion
5% bortfall ger en korrektionsfaktor på
1
1−0.05
dvs. 1.0526
Korrigerad skattad reoperationsrisk
819
53962
× 1.0526 = 0.016 (95%Ki: 0.015 - 0.017)
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 1. Skattning av 2-årig reoperationsrisk
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 2. Rangordning av reoperationsrisker
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 2. Rangordning av reoperationsrisker
Beräkningar
Monte-Carlo simulering för att bedöma möjliga konsekvenser (för
rangordningen) av att 43 reoperationer genomförts men inte
registrerats.
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 2. Rangordning av reoperationsrisker
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 2. Rangordning av reoperationsrisker
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 2. Rangordning av reoperationsrisker
Jonas Ranstam
[email protected]
Datakvalitet
Datakvalitet
Registreringsfel
Vad är konsekvensen av registreringsfel?
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel
Misclassification bias
Systematiskt felaktiga forskningsfynd som uppstår vid bristande
sensitivitet/specificitet i fastställning av exponering och/eller
effekt.
Felklassificeringen kan vara
Non-differential
Differential
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel
Non-differential misclassification bias
Felklassificeringen är densamma i olika grupper. Exponering kan,
t.ex. vara lika felklassificerad bland fall som kontroller.
För binära variabler leder sådana fel till att skillnader underskattas.
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i binär variabel
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i binär variabel
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i binär variabel
Differential misclassification bias
I en fall-kontrollstudie kan den rapporterade exponeringen t.ex.
skilja sig mellan fall och kontroller (t.ex. recall bias). Fenomenet
kan både innebära att skillnader över- och underskattas.
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i binär variabel
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i binär variabel
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i kontinuerlig variabel
Regression dilution bias
Slumpmässiga mät-(och/eller registrerings-) fel i en kontinuerlig
variabel manifesterar sig olika beroende på om felen finns i
exponerings- eller utfallsvariabeln.
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i kontinuerlig variabel
Fel i en utfallsvariabel
Slumpmässiga mät- (eller registrerings-) fel i en kontinuerlig
utfallsvariabel (t.ex. systoliskt blodtryck) ökar osäkerheten i
parameterskattningar (bredare konfidensintervall).
Ökad stickprovsstorlek kan kompensera förlusten av statistisk
precision.
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i kontinuerlig variabel
Fel i en exponeringsvariabel
Slumpmässiga mät- (eller registrerings-) fel i en kontinuerlig
exponeringsvariabel innebär underskattade parametrar (effektmått).
Ökad stickprovsstorlek ger visserligen ökad precision, men minskar
inte bias.
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel
Korrektionsmetoder
För kategoriska variabler
estimated misclassification probabilities
markov models
För kontinuerliga exponeringsvariabler
regression calibration
multiple imputation
moment reconstruction
simulation extrapolation
Jonas Ranstam
[email protected]
Datakvalitet
Misclassification and missing
Jonas Ranstam
[email protected]
Datakvalitet
Misclassification and imputation
Jonas Ranstam
[email protected]
Datakvalitet
Datakvalitet
Validering
Hur kontrollerar jag datakvaliteten i mitt register?
Jonas Ranstam
[email protected]
Datakvalitet
Validering
Tillvägagångssätt
Kontroll av variablers fördelning (orimliga värden)
Utvärdering av intern konsistens
Adjudicering, eftergranskning, o.d.
Jämförelser med källdata
Jonas Ranstam
[email protected]
Datakvalitet
Validering
Validering
Validering av alla data, som i en klinisk läkemedelsprövning, är ofta
praktiskt omöjliga i ett register.
Stickprovsundersökningar kan vara ett gott alternativ.
Jonas Ranstam
[email protected]
Datakvalitet
Stickprov och population
Jonas Ranstam
[email protected]
Datakvalitet
Stickprov och population
Jonas Ranstam
[email protected]
Datakvalitet
Stickprov och population
Grunder
I en valideringsundersökning av ett helt register kan man teoretiskt
sett, om man bortser från konsekvenser av praktiska misstag,
beräkna andelen korrekta värden för en viss variabel, π, direkt.
I en urvalsvalidering får man istället skatta π, och skattningar, π̂i ,
är osäkera.
Individuella variationer ger nämligen olika skattningar i olika urval.
π̂i = π + i
Jonas Ranstam
[email protected]
Datakvalitet
(1)
Obundet slumpmässigt urval
Under vissa förutsättningar, som att varje element i populationen
haft samma sannolikhet att ingå i urvalet, kan osäkerheten dock
beräknas.
E (π̂i ) = π
(2)
σπ̂2i =
π̂i (1 − π̂i )
ni
(3)
z ∼ N(0, 1)
(4)
P(π̂i − zα/2 σπ̂i < π < π̂i + zα/2 σπ̂i ) = 1 − α
(5)
Jonas Ranstam
[email protected]
Datakvalitet
Obundet slumpmässigt urval
Om α = 0.05 är således
urvalsfelet, i , med 95% sannolikhet
q
π̂i (1−π̂i )
mindre än 1.96 ∗
ni
Osäkerheten beror alltså på
π̂i , den skattade datakvaliteten
ni , antal observationer
Jonas Ranstam
[email protected]
Datakvalitet
Obundet slumpmässigt urval
Stickprovsstorlek
Lämplig urvalsstorlek beror på hur stor osäkerhet man kan
acceptera och vilken datakvalitet man skattar.
Mindre urval ger alltid större osäkerhet.
Jonas Ranstam
[email protected]
Datakvalitet
Stickprovsstorlek
Tabell: 1. Urvalsstorlek för att med ett obundet slumpmässigt urval
skatta prevalensen felregistrerade data.
Prevalens
0,01
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
Jonas Ranstam
Halvt 95% konfidensintervall
0,01 0,05 0,10 0,15 0,20
380
1825
73
3457 138
35
4898 196
49
22
6146 246
61
27
15
7203 288
72
32
18
8067 323
81
36
20
8739 350
87
39
22
9220 369
92
41
23
9508 380
95
42
24
9604 384
96
43
24
[email protected]
Datakvalitet
0,25
12
13
14
15
15
15
Komplikation 1. Ett register är en finit population
Finitpopulation
Ett stort urval (> 5%) från en finit population leder till
överskattning av variansen och osäkerheten.
En finitpopulationskorrektion, fpc, av variansen behövs då.
r
N − ni
fpc =
N −1
(6)
Där ni är antalet observationer i urvalet och N antalet element i
populationen. Med korrektion kan medelfelet av πi skrivas:
s
r
π̂i (1 − π̂i ) N − ni
σπ̂i =
(7)
ni
N −1
Jonas Ranstam
[email protected]
Datakvalitet
Komplikation 2. Begränsning av deltagande sjukhus
Tvåstegsurval
I praktiken innebär valideringsarbete ofta resor till olika kliniker för
att på plats kunna jämföra registerade data med källdokument,
t.ex. journalhandlingar.
För att underlätta arbetet och begränsa reskostnader kan det vara
fördelaktigt att begränsa antalet deltagande sjukhus.
Man kan då t.ex. först göra ett (obundet slumpmässigt) urval av
kliniker och därefter, inom varje klinik, ett andra (obundet
slumpmässigt) urval av patienter.
Även ett sådant tvåstegsförfarande påverkar emellertid
variansskattningen.
Jonas Ranstam
[email protected]
Datakvalitet
Designeffekt
Denna designeffekt på variansskattningen, def , kan skrivas:
def = 1 + ρ(m − 1)
(8)
Där m är medelantalet patienter per klinik och ρ klinikernas
intraklasskorrelation (ICC).
ρ=
σb2
σb2 + σw2
Här är σb2 variansen mellan och σw2 inom klinikerna.
Jonas Ranstam
[email protected]
Datakvalitet
(9)
Designeffekt
Designeffekten kan användas för att beräkna hur mycket större ett
tvåstegsurval måste vara för att ge samma statistiska precision
som ett ettstegsurval.
För beräkningen krävs, m, som beror på studiens design och
intraklasskorrelationskoefficienten, ρ, som beror på hur klinikerna
varierar i datakvalitet.
Jonas Ranstam
[email protected]
Datakvalitet
Hur hög är ICC?
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 3.
Obundet slumpmässigt urval av patienter från 97 sjukhus
Andel felregistrerade = 5%
Osäkerhet = ±5%
Antal observationer = ?
Jonas Ranstam
[email protected]
Datakvalitet
Hur många registreringar måste kontrolleras?
Tabell: 1. Urvalsstorlek för att med ett obundet slumpmässigt skatta
prevalensen felregistrerade data.
Prevalens
0,01
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
Jonas Ranstam
Konfidensintervall, halv bredd
0,01 0,05 0,10 0,15 0,20
380
1825
73
3457 138
35
4898 196
49
22
6146 246
61
27
15
7203 288
72
32
18
8067 323
81
36
20
8739 350
87
39
22
9220 369
92
41
23
9508 380
95
42
24
9604 384
96
43
24
[email protected]
Datakvalitet
0,25
12
13
14
15
15
15
Exempel 3.
Obundet slumpmässigt urval av patienter från 97 sjukhus
Andel felregistrerade = 5%
Osäkerhet = ±5%
Antal observationer = 73
Ganska många sjukhus måste uppsökas.
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 4.
Samma undersökning med tvåstegsurval
Obundet slumpmässigt urval = 73
Medelantal patienter per sjukhus = 50
Intraklasskorrelation = 0,10
Designeffekt = ?
Jonas Ranstam
[email protected]
Datakvalitet
Hur stor är designeffekten
Tabell: 2. Designeffekt vid tvåstegsurval
Observationer
per 1:a urval
10
20
30
40
50
75
100
200
300
400
500
Jonas Ranstam
Intraklasskorrelationskoefficient
0
0,1
0,2
0,3
0,4
1,0
1,9
2,8
3,7
4,6
1,0
2,9
4,8
6,7
8,6
1,0
3,9
6,8
9,7
12,6
1,0
4,9
8,8
12,7
16,6
1,0
5,9
10,8
15,7
20,6
1,0
8,4
15,8
23,2
30,6
1,0 10,9
20,8
30,7
40,6
1,0 20,9
40,8
60,7
80,6
1,0 30,9
60,8
90,7 120,6
1,0 40,9
80,8 120,7 160,6
1,0 50,9 100,8 150,7 200,6
[email protected]
Datakvalitet
0,5
5,5
10,5
15,5
20,5
25,5
38,5
50,5
100,5
150,5
200,5
250,5
Exempel 4.
Samma undersökning med tvåstegsurval
Obundet slumpmässigt urval = 73
Medelantal patienter per sjukhus = 50
Intraklasskorrelation = 0,10
Designeffekt = 5,9
Totalt antal patienter: 5, 9 ∗ 73 ≈ 431,
Antal sjukhus: 431/50 ≈ 9.
Jonas Ranstam
[email protected]
Datakvalitet
http://www.r-project.org
Jonas Ranstam
[email protected]
Datakvalitet
Beräkning med program
R, epicalc och n.for.survey
Kommando
n.for.survey(p=0.05, delta=0.05, deff=5.9)
Sample size for survey.
Assumptions:
Proportion = 0.05
Confidence limit = 95%
Delta = 0.05 from the estimate.
Design effect = 5.9
Sample size = 431
Jonas Ranstam
[email protected]
Datakvalitet
Sammanfattning
Jonas Ranstam
[email protected]
Datakvalitet
Datakvalitet
Slut
Tack för uppmärksamheten!
Jonas Ranstam
[email protected]
Datakvalitet
Datakvalitet
Diskussion
Frågor att diskutera i mån av tid.
Jonas Ranstam
[email protected]
Datakvalitet
Diskussionspunkt 1
Förutsättningar
Ett register samlar information om biverkningar av olika läkemedel
mot högt blodtryck. Tyvärr stämmer inte alltid den registrerade
informationen. Vilka konsekvenser får detta:
om läkemedel felregistreras?
om komplikationer felregistreras?
om vissa komplikationer särskilt felregistreras för ett visst
läkemedel?
Tips: differential och non-differential misclassification.
Jonas Ranstam
[email protected]
Datakvalitet
Diskussionspunkt 2
Förutsättningar
Samma registret samlar också information om uppnått blodtryck
för de olika blodtryckssänkande läkemedlena. Tyvärr även denna
registrering bristfällig. Vad blir konsekvenserna:
om läkemedel ibland slumpmässigt felregistreras?
om fel blodtryck ibland slumpmässigt registreras?
om noggrannheten i blodtrycksregistreringen beror på
läkemedlet?
Tips: regression dilution bias.
Jonas Ranstam
[email protected]
Datakvalitet
Diskussionspunkt 3
Förutsättningar
För att undersöka ett registers datakvalitet startas en
validitetesstudie. Registrerade data jämförs med journaluppgifter i
ett tvåstegsurval. Först väljs kliniker ut och sedan patienter inom
varje klinik. Vilka påstående är sanna?
Designeffekten anger hur mycket större ett tvåstegsurval
måste vara för att ge samma precision som ett obundet
slumpmässigt urval.
När bara en patient väljs per klinik finns finns ingen
designeffekt.
När intraklasskorrelationen är 0 finns ingen designeffekt.
Jonas Ranstam
[email protected]
Datakvalitet
Diskussionspunkt 4
Vilka påstående är sanna? Varför?
Ett kvalitetsregister är alltid ett stickprov.
Ett systematiskt bortfall är ett större problem än ett
slumpmässigt bortfall.
Felregistrerade data ger alltid utspädningseffekter på
analysresultat.
Jonas Ranstam
[email protected]
Datakvalitet
Diskussionspunkt 5
Vilka påståenden är sanna och varför?
Adjudicering är en form av validering.
Vissa former av validering kan göras maskinellt.
Validerade data ska aldrig rättas.
Jonas Ranstam
[email protected]
Datakvalitet
Exemplen på misclassification bias hämtades från
Jonas Ranstam
[email protected]
Datakvalitet