Datakvalitet

Transcript Datakvalitet

Datakvalitet
Hva duger data til?
Jonas Ranstam
[email protected]
Registercentrum Syd, Skånes Universitetssjukhus och
Inst. f. kliniska vetenskaper, Lunds Universitet,
Klinikgatan 22, 22185 Lund, Sverige
15 Jan 2015
Jonas Ranstam
[email protected]
Datakvalitet
Big data
Jonas Ranstam
[email protected]
Datakvalitet
Big data
Jonas Ranstam
[email protected]
Datakvalitet
Big data
Jonas Ranstam
[email protected]
Datakvalitet
Big data
There are a lot of small data problems that occur in big data.
They don’t disappear because you’ve got lots of the stuff.
They get worse.
David Spiegelhalter
Jonas Ranstam
[email protected]
Datakvalitet
Big data
Statistics have never been cooler; it’s never been more useful.
It just seems to me te be a wonderful time to be a statistician.
Brian Tarran
Jonas Ranstam
[email protected]
Datakvalitet
Detta föredrag
Disposition
Studiedesign, datainsamling och statistisk analys hänger samman.
Här kommer fokus att ligga på data, främst datakvalitet.
Vad är datakvalitet?
Vad har bristande datakvalitet för konsekvenser?
Hur kontrollerar jag datakvaliteten i mitt register?
Diskussion
Jonas Ranstam
[email protected]
Datakvalitet
Vad är datakvalitet?
Absolut definition
Relevanta, fullständiga, korrekta och konsistenta data.
Jonas Ranstam
[email protected]
Datakvalitet
Vad är datakvalitet?
Relativ definition
Tillräckligt bra för att uppfylla användarens behov.
Jonas Ranstam
[email protected]
Datakvalitet
Vad är datakvalitet?
Relativ definition
Tillräckligt bra för att uppfylla användarens behov.
Vad är “tillräckligt bra”?
Jonas Ranstam
[email protected]
Datakvalitet
Vad är datakvalitet?
Relativ definition
Tillräckligt bra för att uppfylla användarens behov.
Vad är “tillräckligt bra”?
Det beror på vad data ska användas till.
Jonas Ranstam
[email protected]
Datakvalitet
Datakvalitet
Bortfall
Vad är konsekvensen av bortfall?
Jonas Ranstam
[email protected]
Datakvalitet
Två exempel: Vissa höftprotesreoperationer oregistrerade
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 1. Skattning av 2-årig reoperationsrisk.
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 1. Skattning av 2-årig reoperationsrisk
Förutsättning: totalt i höftregistret under 2006
53 962 primäroperationer
819 reoperationer
Skattad reoperationsrisk:
819
53962
= 0.015 (95%Ki: 0.014 - 0.016)
Antag att en oberoende underrsökning visar att 5% av genomförda
reoperationer inte registreras.
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 1. Skattning av 2-årig reoperationsrisk
Skattad reoperationsrisk
819
53962
= 0.015 (95%Ki: 0.014 - 0.016)
Bortfallskorrektion
5% bortfall ger en korrektionsfaktor på
1
1−0.05
dvs. 1.0526
Korrigerad skattad reoperationsrisk
819
53962
× 1.0526 = 0.016 (95%Ki: 0.015 - 0.017)
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 1. Skattning av 2-årig reoperationsrisk
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 2. Rangordning av reoperationsrisker
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 2. Rangordning av reoperationsrisker
Beräkningar
Monte-Carlo simulering för att bedöma möjliga konsekvenser (för
rangordningen) av att 43 reoperationer genomförts men inte
registrerats.
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 2. Rangordning av reoperationsrisker
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 2. Rangordning av reoperationsrisker
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 2. Rangordning av reoperationsrisker
Jonas Ranstam
[email protected]
Datakvalitet
Datakvalitet
Registreringsfel
Vad är konsekvensen av registreringsfel?
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel
Misclassification bias
Systematiskt felaktiga forskningsfynd som uppstår vid bristande
sensitivitet/specificitet i fastställning av exponering och/eller
effekt.
Felklassificeringen kan vara
Non-differential
Differential
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel
Non-differential misclassification bias
Felklassificeringen är densamma i olika grupper. Exponering kan,
t.ex. vara lika felklassificerad bland fall som kontroller.
För binära variabler leder sådana fel till att skillnader underskattas.
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i binär variabel
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i binär variabel
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i binär variabel
Differential misclassification bias
I en fall-kontrollstudie kan den rapporterade exponeringen t.ex.
skilja sig mellan fall och kontroller (t.ex. recall bias). Fenomenet
kan både innebära att skillnader över- och underskattas.
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i binär variabel
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i binär variabel
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i kontinuerlig variabel
Regression dilution bias
Slumpmässiga mät-(och/eller registrerings-) fel i en kontinuerlig
variabel manifesterar sig olika beroende på om felen finns i
exponerings- eller utfallsvariabeln.
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i kontinuerlig variabel
Fel i en utfallsvariabel
Slumpmässiga mät- (eller registrerings-) fel i en kontinuerlig
utfallsvariabel (t.ex. systoliskt blodtryck) ökar osäkerheten i
parameterskattningar (bredare konfidensintervall).
Ökad stickprovsstorlek kan kompensera förlusten av statistisk
precision.
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel i kontinuerlig variabel
Fel i en exponeringsvariabel
Slumpmässiga mät- (eller registrerings-) fel i en kontinuerlig
exponeringsvariabel innebär underskattade parametrar (effektmått).
Ökad stickprovsstorlek ger visserligen ökad precision, men minskar
inte bias.
Jonas Ranstam
[email protected]
Datakvalitet
Registreringsfel
Korrektionsmetoder
För kategoriska variabler
estimated misclassification probabilities
markov models
För kontinuerliga exponeringsvariabler
regression calibration
multiple imputation
moment reconstruction
simulation extrapolation
Jonas Ranstam
[email protected]
Datakvalitet
Misclassification and missing
Jonas Ranstam
[email protected]
Datakvalitet
Misclassification and imputation
Jonas Ranstam
[email protected]
Datakvalitet
Datakvalitet
Validering
Hur kontrollerar jag datakvaliteten i mitt register?
Jonas Ranstam
[email protected]
Datakvalitet
Validering
Tillvägagångssätt
Kontroll av variablers fördelning (orimliga värden)
Utvärdering av intern konsistens
Adjudicering, eftergranskning, o.d.
Jämförelser med källdata
Jonas Ranstam
[email protected]
Datakvalitet
Validering
Validering
Validering av alla data, som i en klinisk läkemedelsprövning, är ofta
praktiskt omöjliga i ett register.
Stickprovsundersökningar kan vara ett gott alternativ.
Jonas Ranstam
[email protected]
Datakvalitet
Stickprov och population
Jonas Ranstam
[email protected]
Datakvalitet
Stickprov och population
Jonas Ranstam
[email protected]
Datakvalitet
Stickprov och population
Grunder
I en valideringsundersökning av ett helt register kan man teoretiskt
sett, om man bortser från konsekvenser av praktiska misstag,
beräkna andelen korrekta värden för en viss variabel, π, direkt.
I en urvalsvalidering får man istället skatta π, och skattningar, π̂i ,
är osäkera.
Individuella variationer ger nämligen olika skattningar i olika urval.
π̂i = π + i
Jonas Ranstam
[email protected]
Datakvalitet
(1)
Obundet slumpmässigt urval
Under vissa förutsättningar, som att varje element i populationen
haft samma sannolikhet att ingå i urvalet, kan osäkerheten dock
beräknas.
E (π̂i ) = π
(2)
σπ̂2i =
π̂i (1 − π̂i )
ni
(3)
z ∼ N(0, 1)
(4)
P(π̂i − zα/2 σπ̂i < π < π̂i + zα/2 σπ̂i ) = 1 − α
(5)
Jonas Ranstam
[email protected]
Datakvalitet
Obundet slumpmässigt urval
Om α = 0.05 är således
urvalsfelet, i , med 95% sannolikhet
q
π̂i (1−π̂i )
mindre än 1.96 ∗
ni
Osäkerheten beror alltså på
π̂i , den skattade datakvaliteten
ni , antal observationer
Jonas Ranstam
[email protected]
Datakvalitet
Obundet slumpmässigt urval
Stickprovsstorlek
Lämplig urvalsstorlek beror på hur stor osäkerhet man kan
acceptera och vilken datakvalitet man skattar.
Mindre urval ger alltid större osäkerhet.
Jonas Ranstam
[email protected]
Datakvalitet
Stickprovsstorlek
Tabell: 1. Urvalsstorlek för att med ett obundet slumpmässigt urval
skatta prevalensen felregistrerade data.
Prevalens
0,01
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
Jonas Ranstam
Halvt 95% konfidensintervall
0,01 0,05 0,10 0,15 0,20
380
1825
73
3457 138
35
4898 196
49
22
6146 246
61
27
15
7203 288
72
32
18
8067 323
81
36
20
8739 350
87
39
22
9220 369
92
41
23
9508 380
95
42
24
9604 384
96
43
24
[email protected]
Datakvalitet
0,25
12
13
14
15
15
15
Komplikation 1. Ett register är en finit population
Finitpopulation
Ett stort urval (> 5%) från en finit population leder till
överskattning av variansen och osäkerheten.
En finitpopulationskorrektion, fpc, av variansen behövs då.
r
N − ni
fpc =
N −1
(6)
Där ni är antalet observationer i urvalet och N antalet element i
populationen. Med korrektion kan medelfelet av πi skrivas:
s
r
π̂i (1 − π̂i ) N − ni
σπ̂i =
(7)
ni
N −1
Jonas Ranstam
[email protected]
Datakvalitet
Komplikation 2. Begränsning av deltagande sjukhus
Tvåstegsurval
I praktiken innebär valideringsarbete ofta resor till olika kliniker för
att på plats kunna jämföra registerade data med källdokument,
t.ex. journalhandlingar.
För att underlätta arbetet och begränsa reskostnader kan det vara
fördelaktigt att begränsa antalet deltagande sjukhus.
Man kan då t.ex. först göra ett (obundet slumpmässigt) urval av
kliniker och därefter, inom varje klinik, ett andra (obundet
slumpmässigt) urval av patienter.
Även ett sådant tvåstegsförfarande påverkar emellertid
variansskattningen.
Jonas Ranstam
[email protected]
Datakvalitet
Designeffekt
Denna designeffekt på variansskattningen, def , kan skrivas:
def = 1 + ρ(m − 1)
(8)
Där m är medelantalet patienter per klinik och ρ klinikernas
intraklasskorrelation (ICC).
ρ=
σb2
σb2 + σw2
Här är σb2 variansen mellan och σw2 inom klinikerna.
Jonas Ranstam
[email protected]
Datakvalitet
(9)
Designeffekt
Designeffekten kan användas för att beräkna hur mycket större ett
tvåstegsurval måste vara för att ge samma statistiska precision
som ett ettstegsurval.
För beräkningen krävs, m, som beror på studiens design och
intraklasskorrelationskoefficienten, ρ, som beror på hur klinikerna
varierar i datakvalitet.
Jonas Ranstam
[email protected]
Datakvalitet
Hur hög är ICC?
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 3.
Obundet slumpmässigt urval av patienter från 97 sjukhus
Andel felregistrerade = 5%
Osäkerhet = ±5%
Antal observationer = ?
Jonas Ranstam
[email protected]
Datakvalitet
Hur många registreringar måste kontrolleras?
Tabell: 1. Urvalsstorlek för att med ett obundet slumpmässigt skatta
prevalensen felregistrerade data.
Prevalens
0,01
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
Jonas Ranstam
Konfidensintervall, halv bredd
0,01 0,05 0,10 0,15 0,20
380
1825
73
3457 138
35
4898 196
49
22
6146 246
61
27
15
7203 288
72
32
18
8067 323
81
36
20
8739 350
87
39
22
9220 369
92
41
23
9508 380
95
42
24
9604 384
96
43
24
[email protected]
Datakvalitet
0,25
12
13
14
15
15
15
Exempel 3.
Obundet slumpmässigt urval av patienter från 97 sjukhus
Andel felregistrerade = 5%
Osäkerhet = ±5%
Antal observationer = 73
Ganska många sjukhus måste uppsökas.
Jonas Ranstam
[email protected]
Datakvalitet
Exempel 4.
Samma undersökning med tvåstegsurval
Obundet slumpmässigt urval = 73
Medelantal patienter per sjukhus = 50
Intraklasskorrelation = 0,10
Designeffekt = ?
Jonas Ranstam
[email protected]
Datakvalitet
Hur stor är designeffekten
Tabell: 2. Designeffekt vid tvåstegsurval
Observationer
per 1:a urval
10
20
30
40
50
75
100
200
300
400
500
Jonas Ranstam
Intraklasskorrelationskoefficient
0
0,1
0,2
0,3
0,4
1,0
1,9
2,8
3,7
4,6
1,0
2,9
4,8
6,7
8,6
1,0
3,9
6,8
9,7
12,6
1,0
4,9
8,8
12,7
16,6
1,0
5,9
10,8
15,7
20,6
1,0
8,4
15,8
23,2
30,6
1,0 10,9
20,8
30,7
40,6
1,0 20,9
40,8
60,7
80,6
1,0 30,9
60,8
90,7 120,6
1,0 40,9
80,8 120,7 160,6
1,0 50,9 100,8 150,7 200,6
[email protected]
Datakvalitet
0,5
5,5
10,5
15,5
20,5
25,5
38,5
50,5
100,5
150,5
200,5
250,5
Exempel 4.
Samma undersökning med tvåstegsurval
Obundet slumpmässigt urval = 73
Medelantal patienter per sjukhus = 50
Intraklasskorrelation = 0,10
Designeffekt = 5,9
Totalt antal patienter: 5, 9 ∗ 73 ≈ 431,
Antal sjukhus: 431/50 ≈ 9.
Jonas Ranstam
[email protected]
Datakvalitet
http://www.r-project.org
Jonas Ranstam
[email protected]
Datakvalitet
Beräkning med program
R, epicalc och n.for.survey
Kommando
n.for.survey(p=0.05, delta=0.05, deff=5.9)
Sample size for survey.
Assumptions:
Proportion = 0.05
Confidence limit = 95%
Delta = 0.05 from the estimate.
Design effect = 5.9
Sample size = 431
Jonas Ranstam
[email protected]
Datakvalitet
Sammanfattning
Jonas Ranstam
[email protected]
Datakvalitet
Datakvalitet
Slut
Tack för uppmärksamheten!
Jonas Ranstam
[email protected]
Datakvalitet
Datakvalitet
Diskussion
Frågor att diskutera i mån av tid.
Jonas Ranstam
[email protected]
Datakvalitet
Diskussionspunkt 1
Förutsättningar
Ett register samlar information om biverkningar av olika läkemedel
mot högt blodtryck. Tyvärr stämmer inte alltid den registrerade
informationen. Vilka konsekvenser får detta:
om läkemedel felregistreras?
om komplikationer felregistreras?
om vissa komplikationer särskilt felregistreras för ett visst
läkemedel?
Tips: differential och non-differential misclassification.
Jonas Ranstam
[email protected]
Datakvalitet
Diskussionspunkt 2
Förutsättningar
Samma registret samlar också information om uppnått blodtryck
för de olika blodtryckssänkande läkemedlena. Tyvärr även denna
registrering bristfällig. Vad blir konsekvenserna:
om läkemedel ibland slumpmässigt felregistreras?
om fel blodtryck ibland slumpmässigt registreras?
om noggrannheten i blodtrycksregistreringen beror på
läkemedlet?
Tips: regression dilution bias.
Jonas Ranstam
[email protected]
Datakvalitet
Diskussionspunkt 3
Förutsättningar
För att undersöka ett registers datakvalitet startas en
validitetesstudie. Registrerade data jämförs med journaluppgifter i
ett tvåstegsurval. Först väljs kliniker ut och sedan patienter inom
varje klinik. Vilka påstående är sanna?
Designeffekten anger hur mycket större ett tvåstegsurval
måste vara för att ge samma precision som ett obundet
slumpmässigt urval.
När bara en patient väljs per klinik finns finns ingen
designeffekt.
När intraklasskorrelationen är 0 finns ingen designeffekt.
Jonas Ranstam
[email protected]
Datakvalitet
Diskussionspunkt 4
Vilka påstående är sanna? Varför?
Ett kvalitetsregister är alltid ett stickprov.
Ett systematiskt bortfall är ett större problem än ett
slumpmässigt bortfall.
Felregistrerade data ger alltid utspädningseffekter på
analysresultat.
Jonas Ranstam
[email protected]
Datakvalitet
Diskussionspunkt 5
Vilka påståenden är sanna och varför?
Adjudicering är en form av validering.
Vissa former av validering kan göras maskinellt.
Validerade data ska aldrig rättas.
Jonas Ranstam
[email protected]
Datakvalitet
Exemplen på misclassification bias hämtades från
Jonas Ranstam
[email protected]
Datakvalitet

Datakvalitet

Transcript Datakvalitet

Directory