Taller Bioestadística - SEREMI de Salud Región del Bío Bío

Download Report

Transcript Taller Bioestadística - SEREMI de Salud Región del Bío Bío

CURSO BÁSICO
BIOESTADÍSTICA
Departamento de Salud Pública y Planificación Sanitaria.
Unidad de Bioestadística.
Mackarena Aparicio A.
2 de Octubre, 2014
I. Estadística
La idea original de la “estadística” era la recolección de información sobre y para el
“estado”. La palabra estadística se deriva directamente, no de raíces griegas o latinas
clásicas, sino de la palabra italiana estado.
El nacimiento de la estadística se ubica a mediados del siglo XVII. Un ciudadano común
llamado Juan Graunt, nacido en Londres, comenzó a revisar la publicación semanal de la
iglesia, la cual era distribuida en la parroquia local y que listaba el número de
nacimientos, bautizos, y de muertes en cada parroquia. Las cifras de mortalidad también
enumeraban las causas de muerte. Graunt que era comerciante organizó estos datos en
la forma que hoy llamamos estadística descriptiva, la cual fue publicada como
Observaciones Naturales y políticas hechas sobre tasa de Mortalidad. Luego de la
publicación, fue elegido como miembro de la sociedad real. De esta forma, la estadística
tomo prestados algunos conceptos de la sociología, tal como el concepto de población.
Análisis Exploratorio de Datos
El Análisis Exploratorio de Datos o Estadística Descriptiva es examinar los datos
previamente a la aplicación de cualquier técnica estadística. De esta forma el analista
consigue un entendimiento básico de los datos y de las relaciones existentes entre las
variables analizadas.
El A.E.D. proporciona métodos sencillos para organizar y preparar los datos, detectar
fallas en el diseño y recogida de datos, tratamiento evaluación de datos ausentes,
identificación de casos atípicos y comprobación de los supuestos subyacentes en la
mayor parte de las técnicas multivariantes.
El Análisis Exploratorio de Datos utiliza técnicas gráficas y numéricas para estudiar
patrones de conducta y el origen de los mismos. Las técnicas de estadística descriptiva
normalmente usadas son: Distribución de frecuencia; Histogramas, Boxplot, Gráficos de
dispersión, Diagramas de barras y errores, etc.
Análisis Exploratorio de Datos
Para realizar un A. E. D. hay que seguir los siguientes pasos:
1. Preparar los datos para hacerlos accesibles a cualquier técnica estadística.
2. Realizar un examen gráfico de la naturaleza de las variables individuales a analizar y
un análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos
de los datos.
3. Realizar un examen gráfico de las relaciones entre las variables analizadas y un
análisis descriptivo numérico que cuantifique el grado de interrelación existente
entre ellas.
4. Evaluar, si fuera necesario, algunos supuestos básicos subyacentes a muchas técnicas
estadísticas como, por ejemplo, la normalidad, homocedasticidad, etc.
5. Identificar posibles casos atípicos (outliers) y evaluar el impacto potencial que
puedan ejercer en análisis estadísticos posteriores.
Preparación de los datos:
Se deben hacer accesibles los datos a cualquier técnica estadística. Ello conlleva la
selección del método de entrada y codificación de los datos así como la de un paquete
estadístico adecuado para procesarlos.
Algunos de los programas más utilizados son: SPSS, Infostat, STATISTICA, SAS, R y la
planilla Excel (la cual utilizaremos en este taller).
Con estos programas se pueden realizar las siguientes manipulaciones de los datos
previas a un análisis:
• Combinar conjuntos de datos
• Transformar variables
• Eliminar casos y/o variables
• Ordenar casos
• Guardar datos y/o resultados
• Entre otros.
Análisis Estadístico Unidimensional
Una vez organizados los datos, el paso siguiente consiste en realizar un análisis
estadístico gráfico y numérico de las variables del problema con el fin de tener una idea
inicial de la información contenida en el conjunto de datos, así como también detectar
la existencia de posibles errores en la codificación de los mismos.
Para iniciar el estudio del análisis estadístico se deben tener presentes algunos
conceptos básicos, tales como:
• Población: es el universo de objetos al cual se refiere el estudio que se pretende
realizar. Por ejemplo: defunciones en la región del Biobío en el año 2012.
• Observación o dato: cualquier valor cualitativo o cuantitativo asociado a una variable.
• Variable: cualquier característica objeto de estudio en la población. Se les llama
variables, ya que pueden variar de un individuo a otro.
• Muestra: Un subconjunto de una población o universo que se selecciona para ser
estudiada ya que la población es demasiado grande como para analizarla en su
totalidad.
• Unidad de muestreo: Son los objetos básicos sobre los cuales se ejecuta el estudio o
experimento, por ejemplo: una persona, un animal, una planta, etc.
Variables Cualitativas y Cuantitativas
El tipo de análisis a realizar depende del tipo, y la escala de medida de la variable a
analizar.
Se distinguen dos tipos de variables: cualitativa y cuantitativa.
Una variable cualitativa es aquella cuyos valores corresponden a conceptos, categorías,
atributos o cualidades como, por ejemplo: sexo, profesión, estado civil, nivel escolaridad,
etc.
Si en dichas categorías hay un orden subyacente se denomina variable ordinal, si no se
denomina variable nominal.
Una variable cuantitativa es aquella que se puede expresar numéricamente, es decir,
pueden tomar valores reales.
Este tipo de variables se puede clasificar según el tipo de valores que pueden tomar.
Existen dos clasificaciones, variables cuantitativas discretas que son aquellas donde el
conjunto de valores que puede asumir la variable se puede enumerar, por ejemplo:
número de hijos de la madre. Las variables cuantitativas continuas con aquellas que
pueden asumir cualquier valor en un intervalo real, por ejemplo: peso del hijo al nacer.
Creando tablas de frecuencias
Para comprender y resumir los datos, es útil representarlos en una tabla o gráficos en la
que aparezca los valores posibles de la variable, llamados clases, 𝑐𝑖 .
La frecuencia absoluta es el número de veces que aparece un determinado valor en un
estudio estadístico, el cual es representado por 𝑛𝑖 .
La suma de las frecuencias absolutas es igual al número total de observaciones, que se
representa por 𝑁.
𝑘
𝑛𝑖 = 𝑛1 + 𝑛2 +𝑛3 +…+𝑛𝑘 = 𝑁
𝑖=1
Donde k es el número de clases.
La frecuencia relativa, 𝑓𝑖 es el cociente entre la frecuencia absoluta de la clase y el número
total de observaciones N.
𝑛𝑖
𝑓𝑖 =
𝑁
La suma de la frecuencia relativa es 1
Creando tablas de frecuencias
La frecuencia acumulada, 𝑁𝑖 es el número de elementos de la población o muestra cuya
modalidad es inferior o equivalente a la modalidad 𝑐𝑖 , es decir, es la suma de las
frecuencias absolutas de la clase 𝑐𝑖 y las anteriores a ella,
𝑖
𝑁𝑖 =
𝑛𝑗 = 𝑁𝑖−1 + 𝑛𝑖
𝑗=1
La frecuencia relativa acumulada, 𝐹𝑖 es el cociente entre la frecuencia acumulada de una
clase y el número total de datos. Se puede expresar en tantos por ciento.
𝐹𝑖 = 𝐹𝑖−1 + 𝑓𝑖
Calculando marca de clases
No existen criterios óptimos para elegir la cantidad de intervalos. En general, entre 5 y 15
intervalos deberían ser suficientes.
Para calcular la marca de clases:
1. Para decidir el número de intervalos o clases, se puede utilizar como referencia:
𝑘 ≈ 𝑛 si n no es grande
𝑘 ≈ 1 + 3,22 log(𝑛), en otro caso
2. Localizar la observación mínimo y máximo.
3. Hallar la diferencia entre estos dos valores , denominado como rango.
𝑟 = 𝑥𝑚á𝑥 − 𝑥𝑚𝑖𝑛
4. Hallar la amplitud de la clase 𝑎𝑖 , se define como
𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
𝑘
Así la división en clases o intervalos podría tomarse:
𝑙0 = 𝑥𝑚𝑖𝑛 , 𝑙1 = 𝑙0 + 𝑎, … , 𝑙𝑘 = 𝑙0 + 𝑘𝑎
𝑎=
Calculando marca de clases
5. Hallar la marca de clases de cada intervalo. Se define por:
𝑙𝑖 + 𝑙𝑖−1
𝑥𝑖 =
2
Clases
Intervalos de
clases
𝑐𝑖
𝑐1
𝑙0 − 𝑙1
…
𝑐𝑗
Frecuencia
Relativa (fi)
Frecuencia Acumulada
(Ni)
Marca de
clases
𝑛𝑖
𝑓𝑖
𝑁𝑖
𝑥𝑖
𝑁1 = 𝑛1
𝑥1
𝑁𝑗 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑗
𝑥𝑗
𝑁𝑘 = 𝑁
𝑥𝑘
𝑛1
𝑛1
𝑓1 =
𝑁
…
𝑙𝑗−1 − 𝑙𝑗
…
𝑐𝑘
Frecuencia
Absoluta (ni)
𝑛𝑗
𝑓𝑗 =
𝑛𝑗
𝑁
…
𝑙𝑘−1 − 𝑙𝑘
𝑛𝑘
𝑁
𝑓𝑘 =
𝑛𝑘
1
𝑁
Creando tablas de frecuencia con base de datos de
Enfermedades de Notificación Obligatoria (ENO)
N=1676
Variable cuantitativa discreta: Edad
Ci
1
2
3
4
5
6
7
8
9
10
11
Lim inf
0
9
17
25
33
41
49
57
65
73
81
Lim sup
8
16
24
32
40
48
56
64
72
80
92
Xi
4
12,5
20,5
28,5
36,5
44,5
52,5
60,5
68,5
76,5
86,5
ni
206
141
338
307
190
163
127
112
51
26
15
1676
fi
0,12
0,08
0,20
0,18
0,11
0,10
0,08
0,07
0,03
0,02
0,01
1
hi (%)
12
8
20
18
11
10
8
7
3
2
1
100
Ni
206
347
685
992
1182
1345
1472
1584
1635
1661
1676
Fi
0,12
0,21
0,41
0,59
0,71
0,80
0,88
0,95
0,98
0,99
1,00
Creando tablas de frecuencia con base de datos de
Enfermedades de Notificación Obligatoria (ENO)
N=1676
Variable cualitativa nominal: Grupo Minsal
Ci
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Grupo Minsal
ni
BRUCELLOSIS (A23.0-A23.9)
Enfermedad de Chagas (B57, Z22.8)
FIEBRE TIFOIDEA Y PARATIFOIDEA (A01.0-A01.4)
GONORREA (A54.0-A54.9)
HEPATITIS B (B16.0-B16.9, B17.0, B18.0-B18.1)
HEPATITIS C (B17.1, B18.2)
HEPATITIS RESTO (B15.0-B15.9, B17.1-B17.8, B18.2-B18.9, B19.0-B19.9)
2
10
27
104
67
13
44
HEPATITIS RESTO (B15.0-B15.9, B17.2-B17.8, B18.8-B18.9, B19.0-B19.9)
INFECCION POR HANTAVIRUS (SINDROME PULMONAR)
INFECCIONES MENINGOCOCICAS (A39.0-A39.9)
PAROTIDITIS (B26.0-B26.9)
RESTO DE ENFERMEDADES
SIFILIS (A50.0-A53.9)
TETANOS (A34-A35)
TOS FERINA (A37.0-A37.9)
TUBERCULOSIS (A15.0-A19.9)
VIH-SIDA (B20-B24, Z21)
245
12
6
72
105
309
1
212
220
227
fi
0,00
0,01
0,02
0,06
0,04
0,01
0,03
0,15
0,01
0,00
0,04
0,06
0,18
0,00
0,13
0,13
0,14
hi (%)
0,1%
0,6%
1,6%
6,2%
4,0%
0,8%
2,6%
14,6%
0,7%
0,4%
4,3%
6,3%
18,4%
0,1%
12,6%
13,1%
13,5%
Ni
2
12
39
143
210
223
267
512
524
530
602
707
1016
1017
1229
1449
1676
Fi
0,00
0,01
0,02
0,09
0,13
0,13
0,16
0,31
0,31
0,32
0,36
0,42
0,61
0,61
0,73
0,86
1,00
Distribución porcentual de Enfermedades de Notificación Obligatoria (ENO)
según Grupo Minsal, Enero - Septiembre 2014. Región del Biobío.
VIH-SIDA (B20-B24, Z21)
TUBERCULOSIS (A15.0-A19.9)
TOS FERINA (A37.0-A37.9)
TETANOS (A34-A35)
SIFILIS (A50.0-A53.9)
RESTO DE ENFERMEDADES
Grupo Minsal
PAROTIDITIS (B26.0-B26.9)
INFECCIONES MENINGOCOCICAS (A39.0-A39.9)
INFECCION POR HANTAVIRUS (SINDROME PULMONAR)
HEPATITIS RESTO (B15.0-B15.9, B17.2-B17.8, B18.8-B18.9, B19.0-B19.9)
HEPATITIS RESTO (B15.0-B15.9, B17.1-B17.8, B18.2-B18.9, B19.0-B19.9)
HEPATITIS C (B17.1, B18.2)
HEPATITIS B (B16.0-B16.9, B17.0, B18.0-B18.1)
GONORREA (A54.0-A54.9)
FIEBRE TIFOIDEA Y PARATIFOIDEA (A01.0-A01.4)
Enfermedad de Chagas (B57, Z22.8)
BRUCELLOSIS (A23.0-A23.9)
0.0%
2.0%
4.0%
6.0%
8.0%
10.0%
12.0%
14.0%
16.0%
18.0%
20.0%
Distribución porcentual de ENO según Grupo de Edad,
Enero - Septiembre 2014. Región del Biobío.
25.0%
20.2%
20.0%
18.3%
15.0%
12.3%
11.3%
9.7%
10.0%
8.4%
7.6%
6.7%
5.0%
3.0%
1.6%
0.9%
0.0%
0-8
9-16
17-24
25-32
33-40
41-48
EDAD
49-56
57-64
65-72
73-80
81-92
II. Calculando Tasas
Una de las actividades que se realiza con mayor frecuencia dentro de los profesionales
de la salud pública es la comparación de tasas de algún evento o característica entre dos
o más poblaciones, Schoenbach. (1999).
Se pueden calcular distintos tipos de tasas, tales como: mortalidad, incidencia,
prevalencia, fecundidad, entre otras.
Definiciones de las tasas más utilizadas en Salud Pública:
Prevalencia: corresponde al número de casos existentes de una enfermedad o condición
en una población determinada. Se multiplica por 100.000 habitantes.
Incidencia: corresponde al número de casos nuevos de una enfermedad en la población
en un período de tiempo determinado. Se multiplica por 100.000 habitantes.
II. Calculando Tasas
Mortalidad: Corresponde al número de personas que fallecen en un lugar y tiempo
determinado respecto al total de la población en riesgo. Se multiplica por 100.000
habitantes.
Letalidad: Corresponde al número de personas que fallecen en un lugar y tiempo
determinado en relación a los afectado por la misma enfermedad. Se multiplica por 100,
ya que es una proporción.
Fecundidad: corresponde a la relación que existe entre el número de nacimientos
ocurrido en un cierto periodo de tiempo y la cantidad de población femenina en edad
fértil en el mismo periodo. Se suele calcular en el período de un año.
Natalidad: corresponde a la cantidad de niños que nacieron en un determinado año en
una cierta población. La tasa se calcula por cada 1.000 habitantes.
II. Calculando Tasas
Ejemplo: Tasa de mortalidad por cáncer de mama en el año 2011
𝑁º 𝑚𝑢𝑒𝑟𝑡𝑒𝑠 𝑝𝑜𝑟 𝑐á𝑛𝑐𝑒𝑟 𝑑𝑒 𝑚𝑎𝑚𝑎 𝑒𝑛 𝑒𝑙 𝑎ñ𝑜 2011
𝑇𝑎𝑠𝑎 =
∗ 100.000
𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛 𝑒𝑙 𝑎ñ𝑜 2011
Provincia
Concepción
Comuna
Concepción
Coronel
Chiguayante
Florida
Hualqui
Lota
Penco
San Pedro de la Paz
Santa Juana
Talcahuano
Tomé
Hualpén
N° Muertes
15
2
7
1
1
3
5
7
2
12
5
7
Población
118.223
55.487
65.794
4.881
11.557
24.246
27.510
50.861
6.812
86.476
29.296
42.747
Tasa *
12,7
3,6
10,6
20,5
8,7
12,4
18,2
13,8
29,4
13,9
17,1
16,4
II. Calculando Tasas
Ejemplo: Tasa de mortalidad por tumor maligno (CIE 10: C00-C97)
Quinquenio 2008-2012
𝑇𝑎𝑠𝑎 =
𝑁º 𝑚𝑢𝑒𝑟𝑡𝑒𝑠 𝑝𝑜𝑟 𝑡𝑢𝑚𝑜𝑟 𝑚𝑎𝑙𝑖𝑔𝑛𝑜, 2008 − 2012
/5 ∗ 100.000
𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑎ñ𝑜 2010
Comuna
Concepción
Coronel
Chiguayante
Florida
Hualqui
Lota
Penco
San Pedro de la Paz
Santa Juana
Talcahuano
Tomé
Hualpén
Nº muertes
1585
681
555
82
165
394
332
567
119
1186
448
652
Población 2010
228.631
108.574
119.251
9.814
22.239
47.814
52.984
96.210
13.381
171.763
56.020
85.701
Tasa
138,7
125,4
93,1
167,1
148,4
164,8
125,3
117,9
177,9
138,1
159,9
152,2
III ¿Qué es un brote o una epidemia?
Cuando una enfermedad o evento relacionado con la Salud, supera o excede la
frecuencia usual en una población específica, en un lugar y en un período de tiempo
determinado, hablamos de Brote o Epidemia.
Para poder definir en la práctica una Epidemia debemos conocer los conceptos de :
• Canal Endémico o Curva Endémica
• Índice Endémico
Curva Endémica o Canal Endémico
Para saber que estamos en presencia de una "frecuencia inusual" de un evento debemos
conocer cuál es la "frecuencia esperada" del mismo para la población de interés en el
tiempo y lugar estudiado. Para esto se elaboran los corredores endémicos. Éstos
consisten en gráficos elaborados a partir de la frecuencia del evento en estudio de por lo
menos 5 años endémicos.
En líneas generales, diremos que para elaborar un corredor endémico recolectamos la
frecuencia de casos de la patología en estudio en cada semana epidemiológica o mes
(según la patología de la cual se trate) de los últimos 5 años endémicos.
Curva Endémica o Canal Endémico
Es un patrón de comportamiento, expresa la distribución típica de una enfermedad
durante un año cualquiera, captura la tendencia estacional de la enfermedad y
representa el comportamiento esperado de dicha enfermedad en un año calendario.
Propósito: le sirve a la vigilancia epidemiológica para detectar precozmente variaciones
significativas en el patrón de comportamiento habitual de las enfermedades, rápida y
eficazmente.
Curva Endémica o Canal Endémico
Para la elaboración de un canal endémico se requiere:
• Contar con las frecuencias semanales o mensuales de la enfermedad
correspondiente a una serie de 5 a más años.
• El canal ideal es el semanal, los mensuales limitan la posibilidad de detectar
oportunamente los brotes y por tanto la implementación de medidas de control
oportunas.
• Frecuencia de casos semanales o mensuales correspondiente al año actual.
Elementos:
• La curva endémica propiamente dicha o canal endémico: frecuencia esperada
promedio de casos en cada unidad de tiempo del año calendario (Mediana, Media,
etc.)
• El límite superior, o umbral epidémico: línea superior del gráfico, representa la
frecuencia esperada máxima de casos. (3º cuartil, desviación estándar, etc.)
• El límite inferior, o nivel de seguridad: la línea inferior del gráfico, representa la
frecuencia esperada mínima de casos. (1º cuartil, desviación estándar, etc.)
Curva Endémica o Canal Endémico
Cálculo de Curva Endémica o Canal Endémico
Ejemplo:
Índice Endémico
Es la razón entre el número de casos presentados en una semana epidemiológica dada y
los que se esperan (según la mediana de los 5 últimos años) para la misma semana.
Índices entre 0,75 y 1,24 se consideran esperables. Por sobre 1,25 la incidencia es sobre
lo esperado.
Ejemplo:
Datos ordenados:
Noviembre: 15 17 18 20 22
Para el mes de Noviembre, la mediana es 18, por lo tanto, si tenemos en el año 1996 en
el mes de Noviembre 21 casos, el índice endémico sería 1,16. Por lo tanto estaríamos en
presencia de una incidencia esperada, ya que no supera el umbral de 1,24.
𝐼. 𝐸 =
21
= 1,16
18
¡¡GRACIAS!!