Transcript medidas de resultados de los ensayos clínicos
MEDIDAS DE LOS RESULTADOS EN LOS ENSAYOS CLÍNICOS
Catalina Barceló 8 de Mayo 2012 Hospital Universitari Son Espases
MEDIDAS DE LOS RESULTADOS EN LOS ENSAYOS CLÍNICOS
• Qué resultados medimos?
• Como expresamos estos resultados?
• To “p” or not to “p” • Intervalos de confianza
MEDIDAS DE LOS RESULTADOS EN LOS ENSAYOS CLÍNICOS
• Qué resultados medimos?
• Como expresamos estos resultados?
• To “p” or not to “p” • Intervalos de confianza
¿
Qué resultados medimos?
Medicamentos
Antihipertensivos Hipocolesterolemiantes Antidiabéticos Anticoagulantes en prevención tromboembólica Tocolíticos en el parto pretérmino Antineoplásicos Antibióticos Protectores gástricos en tratamientos con AINE Anestésicos locales
Variables intermedias, subclínicas, subrogadas, u orientadas a la enfermedad
Reducción de tensión arterial Reducción de colesterol-LDL, reducción de placa de ateroma Reducción de hemoglobina glicosilada Disminución de la incidencia de tromboembolismo subclínico, detectado por venografía
Variables clínicas finales, u orientadas al paciente
Disminución de la incidencia de infarto de miocardio, mortalidad cardiovascular, etc.
Reducción de complicaciones vasculares de la diabetes Disminución de la incidencia de tromboembolismo sintomático Retraso del parto Aumento de la respuesta Mayor espectro antibacteriano Disminución de ulceraciones subclínicas, detectadas por endoscopia Mayor potencia sobre receptores Disminución de la morbimortalidad perinatal y neonatal Aumento de la supervivencia Aumento del índice de curación Disminución de la incidencia de úlcera gastroduodenal y hemorragia digestiva Eficacia analgésica en escala visual analógica
Tipos de variables
Variable: caracteres o aspectos que se registran en los sujetos del estudio y que pueden tomar distintos valores •
Cualitativas (datos no métricos):
•
Categóricas nominales:
- Binarias (2 categorías): sexo - >2 categorías: histología tumoral •
Categóricas ordinales:
clasificadas según su magnitud* - Clasificación funcional NYHA para ICC •
Cuantitativas (datos métricos):
•
Discretas:
recuentos (nº de caídas al año) •
Continuas:
medidas (edad, peso, TA)* •
Time-to-an-Event:
- Tiempo hasta restauración del ritmo sinusal
Tipos de variables
Variable: caracteres o aspectos que se registran en los sujetos del estudio y que pueden tomar distintos valores •
Cualitativas (datos no métricos):
•
Categóricas nominales:
- Binarias (2 categorías): sexo - >2 categorías: histología tumoral •
Categóricas ordinales:
clasificadas según su magnitud* - Clasificación funcional NYHA para ICC •
Cuantitativas (datos métricos):
•
Discretas:
recuentos (nº de caídas al año) •
Continuas:
medidas (edad, peso, TA)* •
Time-to-an-Event:
- Tiempo hasta restauración del ritmo sinusal
Tipos de variables
Efficacy was assessed at 0–48 h (at 0, 2, 6, 24, and 48 h) after surgery. Patients were monitored continuously in the postanesthesia care unit, and emetic episodes and/or use of rescue therapy were recorded throughout the hospital stay. An emetic episode was defined as one or more continuous episodes of vomiting (oral expulsion of stomach contents) or retching (an attempt to vomit that is not productive of stomach contents); distinct episodes were those occurring at least 1 min apart.
Cuantitativa discreta Categórica nominal: binaria
Tipos de variables
There was no significant difference in the percentage of patients with no vomiting and no rescue (complete response) over 0–24 h between aprepitant 40 mg (45%) or 125 mg (43%) and ondansetron (42%; P 0.5 for both odds ratios of aprepitant:ondansetron).
Categórica nominal: binaria
Tipos de variables
Nausea was assessed at 2, 6, 24, and 48 h postoperatively, at any time the patient complained of nausea, and immediately before administration of rescue medication. Patients rated nausea on an 11-point Verbal Rating Scale (VRS), with 0 equal to “no nausea” and 10 equal to “nausea as bad as it could be.”
Categórica ordinal
Tipos de variables
Additional safety assessments included awakening time (interval between end of surgery and patient’s ability to obey commands) and duration of recovery from anesthesia (postanesthesia recovery score of 8 on a 0–10 scale) (19).
Time-to-an event: tiempo transcurrido
Expresión de los resultados
•
Cualitativas (datos no métricos):
•
Categóricas nominales o ordinales
RR, OR, RRR, RAR •
Cuantitativas (datos métricos):
•
Discretas o continuas
Medias y medianas Incidencia, incidencia acumulada, tasa de incidencia •
Time-to-an-Event:
Hazard ratio (HR)
Expresión de los resultados
Prevalencia
Proporción de individuos que presenta una determinada característica o evento en una población y en un momento de tiempo determinado.
Estudios transversales y caso-control
Incidencia
Número de casos nuevos de una determinada característica o evento que se desarrollan en una población durante un período de tiempo determinado.
Estudios de cohorte y experimentales
Expresión de los resultados
Incidencia acumulada (IA)
Número de sujetos que presentan la condición estudiada en un determinado tiempo de observación Es una proporción, no una tasa.
Para poder interpretarla es preciso que se acompañe del período de observación.
n
º
casos
_
nuevos població
_
en
_
riesgo
Sin embargo: Los pacientes entran en el estudio en diferentes momentos El seguimiento de los pacientes no es uniforme: de algunos no se obtiene toda la información Algunos pacientes abandonan el estudio
Expresión de los resultados
Densidad (Tasa) de incidencia (DI)
Preferida para la evaluación del impacto poblacional de un determinado evento Corresponde al riesgo promedio por persona y unidad de tiempo
n
º
casos t
individual es
_ _
nuevos
de
_ exp
osición
No es una proporción sino una tasa, ya que el denominador incorpora la dimensión tiempo
Medidas del efecto: variables binarias
•
Medidas relativas:
• Riesgo Relativo (RR) • Odds ratio (OR) • Reducción relativa de riesgo (RRR) •
Medidas absolutas:
• Reducción absoluta de riesgo (RAR) • NNT
Medidas del efecto: variables binarias
•
Medidas relativas:
• Riesgo Relativo (RR) • Odds ratio (OR) • Reducción relativa de riesgo (RRR) Estiman la
magnitud de asociación
observado e indican entre la exposición y el efecto
cuánto es más probable
que el efecto o evento ocurra en el grupo de sujetos expuestos al factor de exposición en relación al grupo no expuesto.
Medidas relativas del efecto
•
Riesgo relativo: RR= B/A
(
A
= control
B
= intervención) • Razón de incidencias (proporciones) Valores entre 0 e infinito Valor
1
= neutro. No diferencias entre grupos Valor
>1
= grupo intervención con mayor proporción del efecto que midamos Valor
<1
= grupo intervención con menor proporción del efecto que midamos
Medidas relativas del efecto
•
Odds Ratio: OR
• Razón de odds. Odds:
p/1-p p
= probabilidad de que ocurra el evento
1-p
= probabilidad de que no ocurra Valores entre 0 e infinito Valor
1
= neutro. No diferencias entre grupos Valor
>1
= grupo intervención con mayor proporción del efecto que midamos Valor
<1
= grupo intervención con menor proporción del efecto que midamos
Medidas relativas del efecto
•
Odds Ratio: OR
• Razón de odds. Odds:
p/1-p
OR:
p 1 /1-p 1 : p 2 /1-p 2 p
= probabilidad de que ocurra el evento
1-p
= probabilidad de que no ocurra INTERV CONTROL c
ÉXITO
a Total éxitos
FRACASO
b d Total fracasos a+b c+d Total pacientes
Medidas relativas del efecto
5 BALAS
Odds = 1/4=0,25
OR
4 / 1 1 / 4 4
RR
4 / 5 4 1 / 5
Odds = 4/1 =4
Relación entre RR y OR
•
RR
= razón de proporciones (valores 0-1) •
OR
= razón de odds (valores 0-infinito) • Expresan lo mismo pero con dos escalas numéricas diferentes
Relación entre RR y OR
RR
= 0,3
OR
=
3 , 3 96 , 7 : 10 , 91 89 , 1 0 , 28
Relación entre RR y OR
Tto experimental Tto control Curaciones 90 75 No Curaciones 10 25 Total 100 100 Total 165 35 200
OR=90 x 25/75 x 10= 3 3 a 1, exp es mejor que control?
¿Hasta qué punto el tratamiento A es 3 veces mejor que el B?
Nuestro modo habitual de razonar es que el tratamiento A cura un 90% y el B un 75%, luego RR=0,9/0,75=1,2 Luego A es 1,2 veces mejor que B
Relación entre RR y OR
• Resultados con OR: más magnificados (valores más extremos) • Sobretodo cuando la grupo es
> 10% incidencia
de un suceso en un y/o hay diferencias entre ellos • La OR sólo se aproxima al RR cuando el suceso es raro. Su interpretación debe matizarse en
función de lo frecuente que sea el suceso en estudio
• IC 95% de OR son más amplios
Cuando utilizaremos OR?
Relación entre RR y OR
Riesgo relativo:
razón de incidencias • No puede utilizarse en los estudios transversales ni en los
estudios de casos y controles
• Porque las características de estos estudios no nos permiten conocer las
tasas de incidencia
del resultado.
Odds Ratio
Medidas relativas del efecto
•
Reducción relativa de riesgo: RRR RRR = [(B-A) / A]*100 RRR = 1-RR
Medidas del efecto: variables binarias
•
Medidas absolutas:
• Reducción absoluta de riesgo (RAR) • NNT
Medidas del efecto: variables binarias
•
Medidas absolutas:
• Reducción absoluta de riesgo o diferencia de riesgo
RAR=
diferencia de proporciones entre grupos
(B-A) RAR
= 3,3%-10,9%= -7,6%
Medidas del efecto: variables binarias
•
NNT
(nº necesario a tratar para conseguir una unidad más de eficacia). Si se evalúa un efecto adverso (
NNH
)
1/
RAR
o
100/
RAR
(riesgo en %)
Dimensiona la eficacia
de la intervención mediante el
esfuerzo
necesario para conseguir una unidad de eficacia.
Cuanto
mayor
sea el
efecto
del tratamiento
menor
será el
NNT
Cálculos farmacoeconómicos y toma de decisiones También hay fórmulas para calcular el NNT a partir del OR
Medidas del efecto: variables binarias
•
NNT
= 1/
RAR
o 100/
RAR RAR
= 3,3%-10,9%= -7,6%
NNT
= 100/7,6= 13,1
Medidas del efecto: variables binarias
•
Limitaciones del
NNT
:
- Resultado NNT, aplicable a nuestro medio si el
riesgo basal
del ensayo es similar - Índices relativos (OR, RR) tienden a ser más parecidos entre diferentes ensayos del mismo tratamiento que los índices absolutos (RAR, NNT) Metanálisis: NNT global poco informativo si heterogeneidad en los riesgos basales No es un índice aplicable directamente de forma individual a un paciente con unas características concretas. Se trata como un
dato poblacional
•
Pregunta:
¿Cuál de la siguientes afirmaciones sobre el NNT es FALSA ?
A) Se calcula a partir de la RAR B) Es independiente de la incidencia del evento en el grupo control C) Cuanto mayor es el efecto del tratamiento menor es la NNT D) Como cualquier parámetro estadístico debe expresarse con su intervalo de confianza
•
Pregunta:
¿Cuál de la siguientes afirmaciones sobre el NNT es FALSA ?
A) Se calcula a partir de la RAR
B) Es independiente de la incidencia del evento en el grupo control
C) Cuanto mayor es el efecto del tratamiento menor es la NNT D) Como cualquier parámetro estadístico debe expresarse con su intervalo de confianza
Relación entre medidas absolutas-relativas: Riesgo basal grupo control
Incidencia grupo interv RRR RAR NNT
40%
30% 25% 10% 10
20%
15% 25% 5% 20
10%
7,5% 25% 2,5% 40
5%
3,75% 25% 1,25% 80 Las medidas relativas pacientes, y por ello
no tienen en cuenta el riesgo basal
de los
no permiten diferenciar entre un beneficio grande o pequeño.
Las medidas relativas son características del tratamiento, mientras que las absolutas dependen del tratamiento y también del riesgo basal.
•
Pregunta:
Un fármaco ↓mortalidad de un 6% a un 2%.
Podemos decir realmente que….?
Ha disminuido la mortalidad un 4% en términos absolutos (RAR) Ha disminuído la mortalidad un 66,6% en términos relativos (RRR) Ha aumentado la supervivencia del 94% al 98%, es decir un 4,2% en términos relativos (RRR) Riesgo relativo: 2%/6%= 0,33 (RR) Odds ratio: 0,02/ 0,98 : 0,06/0,94 = 0,31 (OR) Por cada 25 pacientes, 1 más sobrevive. NNT = 100/4= 25
Resumen:
•
Relación entre medidas absolutas-relativas:
RR
y
OR
son más difíciles de interpretar, si no se traducen en diferencias absolutas de riesgo
RAR
y
NNT
se pueden calcular a partir de la incidencia del grupo control
RR
si tenemos
Cómo presentamos los resultados?
Cómo presentamos los resultados?
•
Ejercicio práctico: estudio ARISTOTLE
Granger CB et al N Eng J Med 2011; 365(11): 981-92)
Evento No evento Warfarina (A)
Según INR
Apixaban (B)
5mg/12h 265 212 8816 8908
Total
9081 9120 Variable principal: eventos de
ictus o embolismo sistémico
•
Ejercicio práctico
Riesgo A (Warfarina) Riesgo B (Apixaban) RAR Cálculo
265/9081 212/9120 B-A 0,02324 – 0,02918 = -0,00594 En %: 2,3 % - 2,9 %= -0,6 %
NNT
1/(B-A) 1/RAR: 1 / 0,006 = 166,7 si en %: 100 / 0,6 = 166,7
Resultado 0,02918 (2,92 %) 0,02324 (2,32%) -0,006 (-0,6%) 166,7 (167)
Riesgo A (Warfarina) Riesgo B (Apixaban) RR OR RRR Cálculo
265/9081 212/9120
Resultado 0,02918 (2,92 %) 0,02324 (2,32%) 0,796
B/A = 2,32/ 2,92 = 0,796 B´/A´ (Odds) A´=265/8816 = 0,030 B´= 212/8908 = 0,024 B´/A´: 0,024/0,030 = 0,80
0,80
[(B-A)/A] x 100= (-0,006/0,02918) x 100 = 20,56 %; 1-RR: 1- 0,796 = 0,204
20,56% (20,4 %)
MEDIDAS DE LOS RESULTADOS EN LOS ENSAYOS CLÍNICOS
• Qué resultados medimos?
• Como expresamos estos resultados?
• To “p” or not to “p” • Intervalos de confianza
To “p” or not to “p”
• -
Comprobación de hipótesis:
enfoque frecuencista vs enfoque bayesiano pruebas de significación de la hipótesis nula (Fisher 1922, 1925) y pruebas de hipótesis (Neyman y Pearson 1928, 1933)
Decisión del investigador (muestra)
H 0 H 0
Realidad en la población
H 0 H 0
Error tipo II Probabilidad ß Error tipo I Probabilidad α Potencia (1-ß)
To “p” or not to “p”
•
Comprobación de hipótesis:
Mi nuevo tratamiento es más efectivo que el antiguo?
H 0 = no hay diferencias entre los 2 tratamientos H 1 = hipótesis contraria. Son diferentes
Decisión del investigador (EC: muestra)
H 0 H 0
Realidad en la población
H 0 H 0
Error tipo II Probabilidad ß =0,20 Error tipo I Probabilidad α=0,05 Potencia (1-ß) 80%
To “p” or not to “p”
•
Comprobación de hipótesis:
Mi nuevo tratamiento es más efectivo que el antiguo?
p = 0,05 = probabilidad empírica de cometer error tipo I = probabilidad de que las diferencias observadas entre los dos grupos puedan ser debidas al azar
Decisión del investigador (EC: muestra)
H 0 H 0
Realidad en la población
H 0 H 0
Error tipo II Probabilidad ß =0,20 Error tipo I Probabilidad α=0,05 Potencia (1-ß) 80%
To “p” or not to “p”
•
Comprobación de hipótesis:
Mi nuevo tratamiento es más efectivo que el antiguo?
Valor p= grado de compatibilidad de los datos con la H 0
To “p” or not to “p”
•
Comprobación de hipótesis:
Mi nuevo tratamiento es más efectivo que el antiguo?
Valor p= grado de compatibilidad de los datos con la H 0
To “p” or not to “p”
•
Comprobación de hipótesis:
Mi nuevo tratamiento es más efectivo que el antiguo?
Si p < α (0,05) podemos rechazar H 0 Si p > α (0,05) NO podemos rechazar H 0 OJO! No podemos aceptarla tampoco!
No concluyente p > 0,05: - diferencias menores de lo esperado
Altman DG. BMJ 1995; 311; 485 .
- dispersión datos - subgrupos de pacientes
To “p” or not to “p”
•
Críticas al valor p:
Su valor se ha universalizado demasiado y se interpreta mal
significantitis, ley del todo o nada
No confundir
significación estadística
con
relevancia clínica
Pequeñas diferencias SIN interés clínico pueden ser estadísticamente significativas con muestras muy grandes Importantes diferencias pueden NO ser estadísticamente significativas a causa de un pequeño tamaño muestral
Intervalos de confianza
•
Intervalo de probabilidad:
α =0,05 α/2 p (1-α) α/2 -1,96 x SE ± z α/2 x SE 1,96 x SE
Intervalos de confianza
•
Intervalo de probabilidad:
α =0,1 -1,64 x SE ± z α/2 x SE 1,64 x SE
Intervalos de confianza
•
Comprobación de hipótesis:
Mi nuevo tratamiento es más efectivo que el antiguo?
Intervalo de confianza de la
diferencia entre A y B (RAR)
0 ± 1,96 x SE
Intervalos de confianza
•
Comprobación de hipótesis:
Mi nuevo tratamiento es más efectivo que el antiguo?
Intervalo de confianza del
RR entre tto A y B
1 ± 1,96 x SE
Intervalos de confianza
• • • • Permite conocer los límites entre los cuales tenemos nuestro valor verdadero con un determinado nivel de confianza (IC 95%) Permite también conocer la significación estadística (p) Permiten valorar la
relevancia práctica o clínica
(la magnitud del efecto) Permite ver si incluye o excluye el mínimo valor considerado de relevancia clínica (δ)
Intervalos de confianza
Diferencias entre los tratamientos (
RAR
)
Intervalos de confianza
Intervalos de confianza que se solapan: Hay diferencias IC próximo a 1 pero no lo incluye Obese Non Obese
Intervalos de confianza
Intervalos de confianza que se solapan: Hay diferencias IC próximo a 1 pero no lo incluye
Intervalos de confianza
Intervalos de confianza que se solapan: p values for testing equality of two means when two confidence intervals overlap % of overlap of two confidence intervals 0% 5% 10% 15% 20% 25% 0.0056 0.0085 0.0126 0.0185 0.0266 0.0376
Ojo: Al comparar 2 medias, pueden solapar hasta un 29% y ser diferentes con significación estadística
Conclusiones
• Variables de un estudio: diseño del estudio recoger máx información análisis estadístico • Medidas de resultados: RR vs OR absolutas vs relativas • p de significación estadística e intervalos de confianza Ley del todo nada Significación estadística vs relevancia clínica