Transcript Diapositivas_Estadística_Profundización
ESTADÍSTICA BÁSICA II
PROFESOR FRANCISCO JAVIER RODRÍGUEZ
Matemático Universidad de Antioquia
¿Qué es la estadística?
Métodos y procedimientos destinados a recoger, clasificar, resumir, hallar regularidades, analizar los datos y realizar inferencias con el fin de ayudar a la toma de decisiones predicciones.
y en su caso formular
CLASIFICACIÓN
ESTADÍSTICA DESCRIPTIVA Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.
ESTADÍSTICA INFERENCIAL A partir del cálculo de probabilidades y datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.
DEFINICIONES Y CONCEPTOS BÁSICOS
•
Individuos o elementos: Personas u objetos que contienen cierta información que se desea estudiar.
•
Población: Conjunto de individuos o elementos que cumplen ciertas propiedades comunes.
•
Muestra: Subconjunto representativo de una población.
•
Muestreo: Métodos para la recolección de la muestra.
•
Datos: Conjunto de valores de una variable para cada uno de los elementos de la muestra.
DEFINICIONES Y CONCEPTOS BÁSICOS
•
Variable: Característica que toma diferentes valores en diferentes personas, lugares o cosas.
Ordinales Variables cualitativas Nominales Variables cuantitativas Discretas Continuas
•
Parámetro: Medición numérica que describe algunas características de una población.
•
Estadístico: Medición numérica que describe algunas características de la muestra.
¿Qué incluye un problema estadístico?
•
Definición clara del objetivo del experimento y de la población pertinente.
•
Diseño del experimento o procedimiento del muestreo.
•
Recolección y análisis de los datos.
•
El procedimiento para hacer inferencias acerca de la población, basado en la información muestral.
•
La provisión de una medida de bondad (confiabilidad) para la inferencia.
ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA DESCRIPTIVA DATOS CUALITATIVOS Se miden en escala Nominal Ordinal Se representan en Gráficos Diagramas de Barras Diagramas de Sectores Tablas Frecuencia Contingencia
ESTADÍSTICA DESCRIPTIVA DATOS CUANTITATIVOS Se dividen en Discretos Continuos Razón Se miden en escalas Intervalos Gráficos Se representan en Tablas Histogramas Boxplot Diagramas de Dispersión Frecuencia Agrupada Frecuencia no Agrupada Se resumen en medidas de Centralidad Media Mediana Moda Variabilidad Varianza Rango Coeficiente de Variación
REGRESIÓN LINEAL SIMPLE
Relaciones entre variables estadísticas Con frecuencia encontramos variables estadísticas que presentan algún tipo de asociación o dependencia unas de otras.
Ejemplos:
•
El consumo de cigarrillo con el cáncer pulmonar.
•
El aumento de peso de un animal con la ración diaria de alimentos.
•
El consumo de una droga con la publicidad que se le hace.
•
El entrenamiento en la realización de una actividad con el tiempo gastado en realizarla.
En los ejemplos anteriores podemos ver que las variables tienen algún grado de correlación
REGRESIÓN LINEAL SIMPLE Correlación Positiva Correlación Negativa si al aumentar o disminuir una de ellas, la otra varía en la misma forma.
cuando varían en sentido inverso. Si no existe ninguna relación o dependencia entre las variables se dice que ellas están incorrelacionadas.
REGRESIÓN LINEAL SIMPLE Observación: La dependencia estadística no implica relación causa-efecto.
Ejemplos:
•
La dependencia estadística no permite concluir que el consumo de cigarrillo es causa de cáncer pulmonar.
•
El consumo de licor y el número de automóviles de un país presentan una correlación positiva muy alta. No por ello podemos concluir que el poseer automóvil hace que las personas se vuelvan bebedoras. La alta correlación se debe a que ambas variables crecen al aumentar el número de habitantes del país.
REGRESIÓN LINEAL SIMPLE
… Consideraciones Importantes
Vamos a considerar una relación funcional variables X y Y entre las Suponiendo que X toma valores asignados o controlados por el investigador y Y depende de X a través de la relación Y= f(X) Decimos que X es la variable independiente y Y la variable dependiente.
Ejemplo:
Se desea conocer la relación entre la presión arterial y la edad en personas adultas.
PRESIÓN EDAD (Años) X (mmHg) Y Se han obtenido los siguientes datos de 10 hombres a los cuales se les pregunto su edad y se les midió su presión sistólica. 49 52 57 62 70 19 25 30 42 46 122 125 126 129 130 132 135 138 142 145
DIAGRAMA DE DISPERSIÓN
los valores de Y aumentan a medida que aumenta la edad y los diferentes puntos tienden a colocarse en una línea recta. Esta información nos permite pensar que las dos variables están relacionadas linealmente.
Si la relación entre X y Y es aproximadamente de la forma entonces se trata de una regresión lineal. (Nos interesa ) Debemos asumir que la relación entre X y Y no es una relación lineal perfecta ya que Y es una variable aleatoria cuyos valores exactos son impredecibles.
Para una persona dada, el valor de Y puede expresarse como: En donde α y β son parámetros desconocidos y relación lineal con X.
ε
i
es el error que cometemos al querer expresar el valor de Y mediante una
ESTIMACIÓN DE LA RECTA DE REGRESIÓN
La recta de regresión estimada es obtenida por el método de los mínimos cuadrados y está dada por: Donde:
GRÁFICO DE REGRESIÓN AJUSTADA
Y= 112.26 + 0.446X
A) Error de Estimación Mediante la Recta Ajustada Ejemplo:
El sujeto número 5 que tiene una de edad de 46 años. Su presión sistólica midió será: la fue de presión 130 mmHg.
Supongamos ahora que no se le queremos estimarla mediante la ecuación de regresión. Entonces su presión Error: 130mmHg – 132.8 mmHg = - 2.8 mmHg Y 5 = 112.26 + 0.446X
5 Y 5 = 112.26 + (0.446) (46) Y 5 = 132.8 mmHg
B) Predicciones a Partir de la Recta
Mediante la ecuación de regresión podemos predecir o pronosticar valores de la variable Y. Observación:
Ejemplo:
Si se sabe que la edad de un sujeto es 50 años, su presión sistólica puede pronosticarse mediante la recta de regresión ajustada como: Y= 112.26 + (0.446) (50) Y= 134.5 mmHg.
La interpretación o cualquier otra inferencia basada en la regresión, es válida fundamentalmente dentro del rango de variación de X.
Para nuestro ejemplo la variación de Y puede ser válida sólo para edades entre 19 y 70 años.
C) Interpretación de la Pendiente
El coeficiente de regresión
β
, representa la pendiente de la recta. Este coeficiente indica la cantidad de variación (creciente o decreciente) de la variable Y por unidad de cambio de la variable X.
Para nuestro ejemplo, la pendiente es 0.446, lo que indica que la presión sistólica aumenta 0.446 mmHg por cada año.
D) Coeficiente de Correlación de Pearson (Muestral) “r”
Es un índice estadístico que mide la relación lineal entre dos variables cuantitativas y esta dado por Para nuestro ejemplo,
r = 0.97
…Propiedades del Coeficiente de Correlación de Pearson:
1.
2.
El valor de
r
es independiente de las unidades en que
X
midan. y
Y
se Valores de
r
cercanos a 1 indican que la relación de X y Y es lineal y que están relacionadas directamente.
3.
Valores de
r
cercanos a -1 y que la relación es inversa.
indican que la relación de X y Y es lineal 4.
Si
r
es cercano a cero no existe relación lineal. Pero esto no implica una independencia total entre las dos variables, es decir, puede existir relaciones no lineales entre las dos variables.
E) Coeficiente de Determinación
Es el cuadrado del coeficiente de correlación Este coeficiente nos indica la proporción de la variación de Y que es explicada o que puede atribuirse a su relación lineal con X.
Para nuestro ejemplo, el coeficiente de determinación es indicándonos que:
•
Un 94% de la variación de la presión sistólica se debe a su relación con la edad o,
•
Que la edad explica el 94% de la variación de la presión sistólica en sujetos varones con edades entre los 19 y 70 años.
INFERENCIA ESTADÍSTICA
INFERENCIA ESTADÍSTICA
•
Las poblaciones se caracterizan descriptivas numéricas llamadas mediante parámetros.
medidas
•
La inferencia estadística tiene como objetivo el hacer inferencias acerca de los parámetros de una población.
•
Parámetros típicos de una población: media, varianza, proporción, etc.
•
La inferencia estadística es un proceso que permite emitir juicios probabilísticos sobre una población cuando solo disponemos de la información parcial contenida en una muestra.
¿Qué tamaño debe tener la muestra y cómo debe ser seleccionada para que la información extraída de ella sea representativa de la población objeto de estudio?
MUESTREO
GENERALIDADES DEL MUESTREO
•
Población pequeña
•
Población grande Censo Muestreo TIPOS DE MUESTREO Sin reposición Con reposición ALGUNOS MÉTODOS DE MUESTREO Muestreo Aleatorio Simple Muestreo Estratificado Muestreo por Conglomerados
TIPOS DE MUESTREO MUESTREO CON REPOSICIÓN MUESTREO SIN REPOSICIÓN Las unidades se seleccionan por lo menos una vez Las unidades se seleccionan sólo una vez Cuando se desea saber cuánto tiempo gasta una persona haciendo cola en un banco, ésta puede ser observada una o más veces, cada vez que vuelve al banco.
En una encuesta electoral, poco antes de una elección de voto de las personas entrevistadas, éstas deben ser escuchadas apenas una sola vez, pues, en una elección, el voto es individual.
MUESTREO ALEATORIO SIMPLE
•
La forma más común de obtener una muestra es la selección al azar, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido.
•
Tiene poca o nula utilidad práctica cuando la población es muy grande.
MUESTREO ALEATORIO SIMPLE Ejemplo:
Supongamos que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de estadística de 20 alumnos. 1. Escribir los 20 nombres en pedazos separados de papel, colocarlos en un recipiente, revolverlos y luego extraer cinco papeles al mismo tiempo.
2. Listar los estudiantes y utilizar una tabla de números aleatorios, para escoger los 5 alumnos de acuerdo al orden de lista.
3. Excel tiene una opción para extraer una muestra aleatoria de una lista.
MUESTREO ESTRATIFICADO
Se utiliza cuando la población consiste de grupos heterogéneos.
Se forman grupos disjuntos, llamados estratos, con los elementos más parecidos entre sí, y dentro de cada estrato se hace una selección aleatoria simple.
Se llama afijación a la manera como se puede repartir la muestra en los diferentes estratos.
•
Afijación Uniforme La muestra se reparte por igual en cada uno de los estratos.
•
Afijación Proporcional La muestra se reparte proporcional al tamaño de cada estrato
MUESTREO ESTRATIFICADO Ejemplo:
En un estudio sobre salarios en una empresa, se tuvieron en cuenta tres estratos: directivas, empleados y obreros.
Suponiendo que la empresa cuenta con 25 directivas, 130 empleados y 913 obreros, y el tamaño de la muestra que vamos a seleccionar es n = 120. Si la afijación es la siguiente manera: proporcional debemos repartir la muestra de Las 3 directivas, los 15 empleados y los 102 obreros los seleccionamos utilizando el muestreo aleatorio simple.
MUESTREO POR CONGLOMERADOS
Se obtiene seleccionando aleatoriamente un conjunto de m colecciones de elementos muestrales, llamados conglomerados de la población y posteriormente, llevando a cabo un censo completo en cada uno de los conglomerados.
El muestreo por conglomerados proporciona una cantidad específica de información a un costo mínimo cuando:
•
No existe una lista de todos los elementos de la población o sería muy costoso obtenerla.
•
La población es grande y está dispersa en una región muy extensa.
MUESTREO POR CONGLOMERADOS Ejemplo:
supongamos que un economista desea estimar la cantidad promedio empleada en comida por vivienda en cierto barrio de la ciudad.
Como es un barrio grande y no se cuenta con los recursos suficientes para hacer la encuesta en todo el barrio, el economista divide el barrio muestra aleatoria de las mismas.
de las manzanas seleccionadas.
por manzanas (conglomerados) y extrae una Posteriormente procede a hacer la encuesta en cada una de las viviendas
Diferencias entre el Muestreo Estratificado y el Muestro por Conglomerados
•
En el de conglomerados sólo se elige una muestra de subpoblaciones, en el estratificado todas las subpoblaciones (estratos) se seleccionan para muestreo posterior.
•
En relación a la homogeneidad y la heterogeneidad, conglomerados es el opuesto al de formar estratos.
Los elementos dentro de un conglomerado deben ser tan heterogéneos como sea posible, pero los conglomerados mismos deben ser tan homogéneos como sea posible.
el criterio para formar
•
Cada conglomerado debe ser una representación en pequeña escala de la población.
ERROR DE ESTIMACIÓN
Cuando la muestra se obtiene por métodos probabilísticos es posible hacer inferencias acerca de ciertas características numéricas de la población con base en las características numéricas de la muestra.
MUESTRA POBLACIÓN La media, la proporción y la varianza muestral, son respectivamente estimadores de la media, la proporción y la varianza poblacional
ERROR DE ESTIMACIÓN
Ejemplo: Supongamos que queremos estimar la edad promedio de los estudiantes de un colegio nocturno de 635 estudiantes y que para ello escogimos aleatoriamente 84 estudiantes. Si estudiantes del colegio nocturno.
años, entonces podemos estimar en 21.7 años la edad promedio de los ¿Qué tan precisas son estas estimaciones?
En general, si queremos estimar el parámetro estimador
θ
, el error de estimación estará dado por por medio del Un estimador es más preciso entre menor sea su error de estimación.
A) Error de Estimación para la Media
Para un error aleatorio simple sin remplazo está dado por: En esta fórmula aparece la varianza poblacional que generalmente es desconocida. Esta varianza se estima usualmente con la varianza muestral , de modo que una estimación del error de muestreo para la media sería:
A) Error de Estimación para la Media
Se puede mostrar que si la población es normal o aproximadamente normal el 95% de las estimaciones del parámetro µ caen el intervalo . Diremos entonces que el intervalo es un intervalo de confianza del 95% para estimar a µ.
A) Error de Estimación para la Media Ejemplo:
El gobierno de cierta localidad desea estimar el consumo promedio de agua por vivienda con el fin de racionalizar dicho recurso. Selecciona al azar y sin reemplazo n = 180 viviendas y observa el medidor de agua durante un día. Se obtiene de esta muestra un consumo promedio 19.6 galones con una desviación estándar de 2.4 galones. El último censo en dicha localidad reportó 2350 viviendas. Esto significa que podemos estimar un consumo promedio de agua por vivienda entre 19.26 y 19.94 galones con una confiabilidad ≈ 95%.
TAMAÑO DE LA MUESTRA
Llamemos B el error máximo que podemos admitir al estimar la media µ tomando una muestra de tamaño n. El error máximo se encuentra en los extremos del intervalo aproximadamente normal.
en otras palabras, con una probabilidad de 0.95 si la población tiene una distribución normal o Despejamos n En la práctica, generalmente se desconoce . A veces es posible conocer la varianza mediante alguna investigación anterior o estimarla mediante una muestra piloto.
En este caso, reemplazamos por .
TAMAÑO DE LA MUESTRA Ejemplo:
Un investigador está interesado en estimar el peso promedio ganado por pollo entre 0 y 4 semanas, alimentados con una ración nueva. Se tienen 1000 pollos y se desea establecer el tamaño de la muestra para estimar µ con un error no mayor que 1 gramo.
Usando estudios similares sobre nutrición de pollos, el investigador encontró que era aproximadamente 36.
Según la fórmula el número de pollos que debe pesar es 126