Estad stica B sica

Download Report

Transcript Estad stica B sica

Estadística
Elementos Introductorios
1
Definición
La Estadística es la tecnología de la
• Sistematización, recogida, ordenación y presentación
de los datos referentes a un fenómeno que presenta
variabilidad o incertidumbre para su estudio metódico, con
objeto de
• deducir las leyes que rigen esos fenómenos,
• y poder de esa forma hacer previsiones sobre los mismos,
tomar decisiones u obtener conclusiones.
2
Población y muestra

Población (‘population’) es el conjunto sobre el que
estamos interesados en obtener conclusiones (hacer
inferencia).
 Normalmente es demasiado grande para poder
abarcarlo.

Muestra (‘sample’) es un subconjunto suyo al que
tenemos acceso y sobre el que realmente hacemos las
observaciones (mediciones)
 Debería ser “representativo”
 Esta formado por miembros “seleccionados” de la
población (individuos, unidades experimentales).
3
Variables


Una variable es una característica observable que varía entre los
diferentes individuos de una población. La información que
disponemos de cada individuo es resumida en variables.
En los individuos de la población colombiana,
de uno a otro es variable:

El grupo sanguíneo


Su nivel de felicidad “declarado”


{Deprimido, Ni fu ni fa, Muy Feliz}  Var. Ordinal
El número de hijos


{A, B, AB, O}  Var. Cualitativa
{0,1,2,3,...}  Var. Numérica discreta
La altura

{1’62 ; 1’74; ...}  Var. Numérica continua
4
Tipos de variables

Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a
un número (no se pueden hacer operaciones algebraicas con ellos)

Nominales: Si sus valores no se pueden ordenar


Ordinales: Si sus valores se pueden ordenar


Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)
NBI, Grado de satisfacción, Intensidad del dolor
Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones
algebraicas con ellos)

Discretas: Si toma valores enteros


Número de hijos, Número de cigarrillos, Num. de “cumpleaños”
Continuas: Si entre dos valores, son posibles infinitos valores intermedios.

Altura, Presión intraocular, Dosis de medicamento administrado, edad
5

Los posibles valores de una variable suelen denominarse modalidades.

Las modalidades pueden agruparse en clases (intervalos)

Edades:


Hijos:


Menos de 20 años, de 20 a 50 años, más de 50 años
Menos de 3 hijos, De 3 a 5, 6 o más hijos
Las modalidades/clases deben forman un sistema exhaustivo y
excluyente

Exhaustivo: No podemos olvidar ningún posible valor de la variable



Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?
Bien: ¿Cuál es su grupo sanguíneo?
Excluyente: Nadie puede presentar dos valores
simultáneos de la variable

Estudio sobre el ocio




Mal: De los siguientes, qué le gusta: (deporte, cine)
Bien: Le gusta el deporte: (Sí, No)
Bien: Le gusta el cine: (Sí, No)
Mal: Cuántos hijos tiene: (Ninguno, Menos de 5, Más de 2)
6
Presentación ordenada de datos
7
Género
Frec.
6
5
Hombre
4
4
3
2
Mujer
6
1
0
Hombre

Mujer
Las tablas de frecuencias y las representaciones gráficas son
dos maneras equivalentes de presentar la información. Las
dos exponen ordenadamente la información recogida en una
muestra.
7
Tablas de frecuencia

Exponen la información recogida en la muestra, de forma que no se pierda nada
de información (o poca).

Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad

Frecuencias relativas (porcentajes): Idem, pero dividido por el total

Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas

Muy útiles para calcular cuantiles (ver más adelante)


¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8
¿Entre 4 y 6 hijos? Soluc 1ª: 8,4%+3,6%+1,6%= 13,6%. Soluc 2ª: 97,3% - 83,8% = 13,5%
Sexo del encuestado
Válidos
Hombre
Mujer
Total
Frecuencia
636
881
1517
Porcentaje
41,9
58,1
100,0
Número de hijos
Porcentaje
válido
41,9
58,1
100,0
Válidos
Nivel de felicidad
Válidos
Perdidos
Total
Frecuencia
Muy feliz
467
Bastante feliz
872
No demasiado feliz
165
Total
1504
No contesta
13
1517
Porcentaje
30,8
57,5
10,9
99,1
,9
100,0
Porcentaje
válido
31,1
58,0
11,0
100,0
Porcentaje
acumulado
31,1
89,0
100,0
Perdidos
Total
0
1
2
3
4
5
6
7
Ocho o más
Total
No contes ta
Frecuencia
419
255
375
215
127
54
24
23
17
1509
8
1517
Porcentaje
27,6
16,8
24,7
14,2
8,4
3,6
1,6
1,5
1,1
99,5
,5
100,0
Porcentaje
válido
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0
Porcentaje
acumulado
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0
8
Gráficos para v. cualitativas

Diagramas de barras



Diagramas de sectores (tortas, polares)



Alturas proporcionales a las frecuencias (abs.
o rel.)
Se pueden aplicar también a variables
discretas
No usarlo con variables ordinales.
El área de cada sector es proporcional a su
frecuencia (abs. o rel.)
Pictogramas


Fáciles de entender.
El área de cada modalidad debe ser
proporcional a la frecuencia. ¿De los dos, cuál
es incorrecto?.
9
Parámetros y estadísticos


Parámetro: Es una cantidad numérica calculada sobre
una población

La altura media de los individuos de un país

La idea es resumir toda la información que hay en la
población en unos pocos números (parámetros).
Estadístico: Ídem (cambiar población por muestra)

La altura media de los que estamos en este aula.


Somos una muestra (¿representativa?) de la población.
Si un estadístico se usa para aproximar un parámetro también
se le suele llamar estimador.
10
11
En resumen

Posición
 Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.


Centralización
 Indican valores con respecto a los que los datos
parecen agruparse.


Media, mediana y moda
Dispersión
 Indican la mayor o menor concentración de los
datos con respecto a las medidas de centralización.


Cuantiles, percentiles, cuartiles, deciles,...
Desviación típica, coeficiente de variación, rango,
varianza
Forma
 Asimetría
 Apuntamiento o curtosis
12
Estadísticos de posición

Se define el cuantil de orden a como un valor de la variable por
debajo del cual se encuentra una frecuencia acumulada a.

Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
13
Centralización
Añaden unos cuantos casos particulares a las medidas de posición. En este
caso son medidas que buscan posiciones (valores) con respecto a los
cuales los datos muestran tendencia a agruparse.

Media (‘mean’) Es la media aritmética (promedio) de los valores de una
variable. Suma de los valores dividido por el tamaño muestral.
 Media de 2,2,3,7 es (2+2+3+7)/4=3,5
 Conveniente cuando los datos se concentran simétricamente con
respecto a ese valor. Muy sensible a valores extremos.
 Centro de gravedad de los datos

Mediana (‘median’) Es un valor que divide a las observaciones en dos
grupos con el mismo número de individuos (percentil 50). Si el número
de datos es par, se elige la media de los dos datos centrales.
 Mediana de 1,2,4,5,6,6,8 es 5
 Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
 Es conveniente cuando los datos son asimétricos. No es sensible a
valores extremos.


Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!
Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia
alcanza un máximo.
14
Variabilidad o dispersión

Los estudiantes de Métodos de investigación reciben diferentes
calificaciones en la asignatura (variabilidad). ¿A qué puede deberse?

Diferencias individuales en el conocimiento de la materia.

¿Podría haber otras razones (fuentes de variabilidad)?

Por ejemplo supongamos que todos los alumnos poseen el mismo
nivel de conocimiento. ¿Las notas serían las mismas en todos?
Seguramente No.

Dormir poco el día del examen, el croissant estaba envenenado...


El examen no es una medida perfecta del conocimiento.


Diferencias individuales en la habilidad para hacer un examen.
Variabilidad por error de medida.
En alguna pregunta difícil, se duda entre varias opciones, y al azar
se elige la mala

Variabilidad por azar, aleatoriedad.
15
Desviación típica (‘standard
deviation’)
Es la raíz cuadrada de la varianza

Tiene las misma dimensionalidad
(unidades) que la variable.
S S
2
50
40

Cierta distribución que veremos
más adelante (normal o
gaussiana) quedará
completamente determinada por la
media y la desviación típica.
30
20
10
Desv. típ. = 568,43

N = 407,00
0
0
30
3.
0
90
2.
0
50
2.
0
10
2.
0
70
1.
0
30
1.
0
90
A una distancia de dos desv. típica de
la media tendremos 95%
Media = 2023
0
50

A una distancia de una desv. típica de
la media tendremos 68%
observaciones.
Peso recién nacidos en partos gemelares
16

Centrado en la media y a una desviación típica de
distancia tenemos más de la mitad de las
observaciones (izq.)

A dos desviaciones típicas las tenemos a casi todas
(dcha.)
17
Muestreo

Las poblaciones están formadas por individuos, pero sería mejor
denominarlas unidades de muestreo o unidades de estudio:
 Personas, células, familias, hospitales, países…

La población ideal que se pretende estudiar se denomina
población objetivo.
 No es fácil estudiarla por completo. Aproximamos mediante
muestras que den idealmente la misma probabilidad a cada
individuo de ser elegido.
 Tampoco es fácil elegir muestras de la población objetivo:



Si llamamos por teléfono excluimos a los que no tienen.
Si elegimos indiv. en la calle, olvidamos los que están trabajando...
El grupo que en realidad podemos estudiar (v.g. los que tienen
teléfono) se denomina población de estudio.
18
Fuentes de sesgo

Las poblaciones objetivo y de estudio pueden diferir
en cuanto a las variables que estudiamos.




En este caso, diremos que las muestras que se elijan estarán
sesgadas. Al tipo de sesgo debido a diferencias sistemáticas entre
población objetivo y población de estudio se denomina sesgo de
selección.
Hay otras fuentes de error/sesgo

No respuesta a encuestas embarazosas



El nivel económico en la población de estudio es mayor
que en la objetivo,...
Los individuos que se eligen en la calle pueden ser de
mayor edad (mayor frecuencia de jubilados p.ej.)…
Consumo de drogas, violencia doméstica, prácticas poco
éticas,…
Mentir en las preguntas “delicadas”.
Para evitar este tipo de sesgo se utilizan la técnica de
respuesta aleatorizada.
19
Técnicas de respuesta aleatorizada

Reducen la motivación para mentir (o no responder)
a las encuestas.


¿Si digo la verdad, mostraré el cobre…?
¿Cómo se hace?
Pídele que lance una moneda antes de responder
y…

Si sale cara que diga la “opción comprometedora”


Si sale sello que diga la verdad


(no tiene por qué avergonzarse, la culpa es de la
moneda)
(no tiene por qué avergonzarse, el encuestador no
sabe si ha salido cara o sello)
Aunque no podamos saber cuál es la verdad en cada
individuo, podemos hacernos una idea porcentual
sobre la población, viendo en cuánto se alejan las 20
Ejemplo: ¿Ha tomado drogas alguna vez?
Sin respuesta
aleatorizada
Con respuesa
aleatorizada
Insinceros!!
100% No
40% No
60% Sí
Diferencia entre los que han dicho sí y los que debían hacerl
por que así lo indicaba la moneda
¡No son mitad y mitad!
El porcentaje estimado de ind. que tomó
drogas es:
0,6  0,5
p 
 0,2  20%
1  0,5
*
Los que deben decir la verdad
21
Técnicas de muestreo

Cuando elegimos individuo de una población de
estudio para formar muestras podemos encontrarnos
en las siguientes situaciones:

Muestreos probabilistas
 Conocemos la probabilidad de que un individuo sea elegido
para la muestra.
 Interesantes para usar estadística matemática con ellos.
 Muestreos no probabilistas
 No se conoce la probabilidad.
 Son muestreos que seguramente esconden sesgos.
 En principio no se pueden extrapolar los resultados a la
población.


A pesar de ello una buena parte de los estudios que se publican
usan esta técnica. ¡Buff!
En adelante vamos a tratar exclusivamente con
muestreos con la menor posibilidad de sesgo
(probabilistas): aleatorio simple, sistemático,
estratificado y por grupos.
22
Muestreo aleatorio simple (m.a.s.)

Se eligen individuos de la población de estudio, de
manera que todos tienen la misma probabilidad de
aparecer, hasta alcanzar el tamaño muestral
deseado.

Se puede realizar partiendo de listas de individuos
de la población, y eligiendo individuos
aleatoriamente con un ordenador.

Normalmente tiene un coste bastante alto su
aplicación.

En general, las técnicas de inferencia estadística
suponen que la muestra ha sido elegida usando
m.a.s., aunque en realidad se use alguna de las
que veremos a continuación.
23
Muestreo sistemático

Se tiene una lista de los individuos de la población
de estudio. Si queremos una muestra de un
tamaño dado, elegimos individuos igualmente
espaciados de la lista, donde el primero ha sido
elegido al azar.

CUIDADO: Si en la lista existen periodicidades,
obtendremos una muestra sesgada.

Un caso real: Se eligió una de cada cinco casas para un
estudio de salud pública en una ciudad donde las casas se
distribuyen en manzanas de cinco casas. Salieron con
mucha frecuencia las de las esquinas, que reciben más sol,
están mejor ventiladas,…
24
Muestreo estratificado

Se aplica cuando sabemos que hay ciertos factores
(variables, subpoblaciones o estratos) que pueden
influir en el estudio y queremos asegurarnos de
tener cierta cantidad mínima de individuos de cada
tipo:

Hombres y mujeres,
 Jovenes, adultos y ancianos…

Se realiza entonces una m.a.s. de los individuos de
cada uno de los estratos.

Al extrapolar los resultados a la población hay que
tener en cuenta el tamaño relativo del estrato con
respecto al total de la población.
25
Muestreo por grupos o conglomerados

Se aplica cuando es difícil tener una lista de todos los
individuos que forman parte de la población de estudio, pero
sin embargo sabemos que se encuentran agrupados
naturalmente en grupos.

Se realiza eligiendo varios de esos grupos al azar, y ya
elegidos algunos podemos estudiar a todos los individuos de
los grupos elegidos o bien seguir aplicando dentro de ellos
más muestreos por grupos, por estratos, aleatorios
simples,…


Para conocer la opinión de los médicos del sistema nacional de
salud, podemos elegir a varias regiones de Colombia, dentro de
ellas varios departamentos, y dentro de ellas varios centros de
salud, y…
Al igual que en el muestreo estratificado, al extrapolar los
resultados a la población hay que tener en cuenta el tamaño
relativo de unos grupos con respecto a otros.

Regiones con diferente población pueden tener probabilidades 26
diferentes de ser elegidas, comarcas, hospitales grandes frente a