Transcript H 1
1.3 Inferencia estadística. 1. Distribución de estadísticos muestrales; estimación puntual y por intervalos; ejemplos. 2. Contraste de hipótesis. 3. Contrastes no paramétricos. 4. Transformaciones Box-Cox. 1. Distribución de estadísticos muestrales; estimación. Estadístico muestral: cualquier número que calculemos a partir de la muestra (media muestral, varianza muestral., etc.) Muestra 1 : Muestra 2 : 2 X 1 , s1 ,... 2 X 2 , s 2 ,... …. Muestra k : …. 2 X k , s k ,... Estadístico muestral: cualquier número que calculemos a partir de la muestra (media muestral, varianza muestral., etc.) Muestra 1 : Muestra 2 : 2 X 1 , s1 ,... 2 X 2 , s 2 ,... …. Muestra k : …. 2 X k , s k ,... Dado un estadístico, se pueden interpretar los distintos valores que toma en sucesivas muestras (del mismo tamaño) como una nueva muestra, sobre una nueva variable: la definida por el estadístico. Estadístico muestral: cualquier número que calculemos a partir de la muestra (media muestral, varianza muestral., etc.) Muestra 1 : Muestra 2 : 2 X 1 , s1 ,... 2 X 2 , s 2 ,... …. Muestra k : …. 2 X k , s k ,... En consecuencia, podemos definir variables como por ejemplo: la media muestral, la cuasivarianza muestral… Y, suponiendo que X, la variable de partida, tenga una cierta distribución (normal, exponencial, etc.) nos preguntamos cómo serán estas nuevas variables. Distribución de la media muestral • Si X N ( , ), X X N , N ( 0 ,1) n / n • Aunque la variable no sea normal, lo anterior también se cumple si n es grande (>30). • Si la población es normal, pero σ es desconocida, X sˆ / n t n 1 Distribución de la cuasivarianza muestral • Si X N ( , ), ( n 1) s 2 2 n 1 2 Distribución de la proporción muestral: leer apuntes Distribución de la diferencia de medias muestrales: Tomamos muestras en dos poblaciones distintas, y queremos comparar las medias (nivel de CO2 en dos ciudades distintas, o niveles de CO2 en dos zonas distintas de la misma ciudad. Muestra 1 : Muestra 2 : X 1 ,... X 2 ,... …. Muestra k : …. Muestra 1 : Y1 ,... Muestra 2 : Y 2 ,... …. X k , ... Muestra r : Y k , ... …. Distribución de la diferencia de medias muestrales: (a) Muestras independientes: niveles de CO2 en dos ciudades distintas. IMPORTANTE: Si X e Y son dos variables aleatorias normales, X-Y también es normal. Concretamente, X N ( x , x ), Y N ( y , y ), X Y N x y, x 2 2 y Distribución de la diferencia de medias muestrales: (a) Muestras independientes: niveles de CO2 en dos ciudades distintas. Utilizando lo anterior, se tiene que, siendo conocidas las varianzas poblacionales, X Y Nx y, 2 x nx 2 y ny Para el caso en que las varianzas poblacionales no son conocidas, leer apuntes Distribución de la diferencia de medias muestrales: (b) Muestras dependientes (datos pareados): niveles de CO2 en dos puntos distintos de la misma ciudad. X Y x1 y1 x2 y2 … … xn yn NO vale lo anterior!! Formamos nueva variable D=X-Y Distribución de la diferencia de medias muestrales: (b) Muestras dependientes (datos pareados): niveles de CO2 en dos puntos distintos de la misma ciudad. X Y D x1 y1 d1 x2 y2 d2 … … … xn yn dn D x y Pero no podemos asegurar nada sobre σ D… Distribución de la diferencia de proporciones muestrales: leer apuntes Estimación. El objetivo es “estimar” el valor de parámetros poblacionales de una v.a. , a partir de una muestra x1,…,xn Población μ, σ, … Muestra I. Estimación puntual: Damos una estimación concreta para cada parámetro poblacional, , de interés. Para ello, utilizamos un estimador ˆ ( x1 ,..., x n ) (ejemplos: PIZARRA) Para una muestra concreta, el estimador proporcionará una estimación de Puesto que el estimador ˆ ( x1 ,..., x n ) Es un estadístico, tendrá su distribución, y tendrá sentido calcular la media del estimador, E [ˆ ] Decimos que un estimador es INSESGADO ó CENTRADO, si E [ˆ ] (ejemplos: PIZARRA) II. Estimación por intervalo de confianza: Decimos que Iɸ es un intervalo de confianza para ɸ al 1-α de confianza, si P ( I ) 1 1- α: nivel de confianza (90%, 95%, 99%,…) α: nivel de significación (10%, 5%, 1%,…) El intervalo es tanto mayor cuanto mayor sea 1-α Construcción de un intervalo de confianza para ɸ: 1. Fijamos el nivel de confianza, 1-α 2. Elegimos un estadístico ξ, de distribución conocida, donde esté involucrado ɸ. 3. Determinamos un intervalo Iξ, tal que P ( I ξ ) 1 4. A partir de Iξ obtenemos Iɸ PIZARRA: ejemplo con la media poblacional Intervalos de confianza más importantes: (expresiones: ver apuntes) - Intervalos para la media poblacional (en varios supuestos): requieren normalidad ó muestras grandes (n>30) - Intervalos para la varianza y la desviación típica poblacionales: requiere normalidad. - Intervalos para el cociente de varianzas poblacionales: requiere normalidad. ¿Qué significa que 1 pertenezca al intervalo? Intervalos de confianza más importantes: (expresiones: ver apuntes) - Intervalos para la diferencia de medias poblacionales: requieren normalidad Muestras independientes: se basa en que la diferencia de medias muestrales es una v.a. normal Datos pareados: construimos D=X-Y. ¿Qué significa que 0 pertenezca al intervalo? ¿Qué significa que ambos extremos del intervalo sean números positivos? ¿Negativos? Intervalos de confianza más importantes: (expresiones: ver apuntes) - Otros (proporción muestral, diferencia de proporciones muestrales): ver apuntes. ¿Qué pasa si no se satisfacen los requisitos? Análisis Bootstrap Análisis bootstrap: Dada una muestra x1,…,xn de una variable aleatoria que no es normal, podemos: 1.- Tomar la muestra como una población 2.- Tomar “muestras” y1,…,ym de esa “población” (tantas como queramos) 3.- Construir una nueva variable a partir de esas muestras, que sí cumplirá los requisitos de los intervalos anteriores. 2. Contraste de hipótesis. Ejemplo: El fichero Emisiones contiene una muestra aleatoria de las emisiones anuales de 30 países con distintos niveles de desarrollo. Aunque inicialmente se pensaba que la emisión media era de 15 toneladas, actualmente se sospecha que esa estimación no es adecuada. ¿Avalan los datos esa sospecha, suponiendo un nivel de confianza del 95%? Emisiones 12,7 13,5 13,6 13,7 13,7 …. 15,5 15,6 Contraste de hipótesis: • Partimos de una muestra, y queremos tomar una decisión sobre una población. La decisión consiste en aceptar, o no, una cierta afirmación, como verdadera. • Hay una hipótesis de partida (hipótesis nula, H0), que sin embargo esta “bajo sospecha”. • Como alternativa a la hipótesis nula se formula una hipótesis alternativa, H1. Sólo una de las dos puede ser considerada como cierta. • Fijamos un nivel de confianza, 1-α: es la probabilidad de que aceptemos H0 , siendo verdadera. Contraste de hipótesis: La idea esencial es verificar si la muestra “avala” la falsedad (o no) de H0 frente a H1; para ello: 1.- se considera un cierto estadístico, de distribución conocida, y se determina su valor en la muestra. 2.- se determina si el valor del estadístico puede considerarse “muy raro” o no, suponiendo cierta la hipótesis nula (H0 siempre fija la distribución del estadístico). 3.- si el valor es “muy raro”, H0 se rechaza. Ejemplo: Contraste sobre la media poblacional; aplicación al caso de las emisiones de CO2 (PIZARRA) Definición “intuitiva” de p-valor: es la probabilidad de que el estadístico escogido tome un valor “aún más extremo” que el que hemos obtenido (la noción “más extremo” se precisa según cómo sea la hipótesis alternativa; responde a la idea de “aproximarse más a la zona de rechazo”). REGLA FUNDAMENTAL: Rechazar H0 si p-valor es menor que el nivel de significación Contrastes de hipótesis paramétricos: se refieren a parámetros poblacionales. - Media poblacional: H0: μ = μ0 H1: μ ≠ μ0 ; H1: μ > μ0 ; H1: μ < μ0 - Desviación típica poblacional: H0: σ = σ 0 H1: σ ≠ σ0 ; H1: σ > σ 0 ; H1: σ < σ 0 - Igualdad de medias poblacionales: H0: μ1=μ2 H1: μ1 ≠ μ2 ; H1: μ1 > μ2 ; H1: μ1 < μ2 (Cuidado: hay que distinguir muestras independientes y datos pareados) Contrastes de hipótesis paramétricos: - Igualdad de desviaciones típicas poblacionales: H0: σ1=σ2 H1: σ1 ≠ σ2 ; H1: σ1 > σ2 ; H1: σ1 < σ2 - Otros (proporción muestral, igualdad de proporciones, etc.) Más adelante, contrastes no-paramétricos: normalidad, independencia, aleatoriedad, etc. Errores al efectuar un contraste de hipótesis Hip. Nula verdadera Hip. Nula falsa Acepta CORRECTO ERROR TIPO II Rechaza ERROR TIPO I CORRECTO Errores al efectuar un contraste de hipótesis Hip. Nula verdadera Acepta Rechaza Hip. Nula falsa 1-α β (nivel de confianza) α 1-β (nivel de (potencia del significación) test) Unica posibilidad para disminuir a la vez error de tipo I y error de tipo II: aumentar el tamaño de la muestra. (¡¡hasta que alcance el presupuesto…!!) 3. Contrastes no paramétricos. - No se refieren a parámetros de distribuciones. - Por ejemplo: tests sobre la mediana de una población, sobre la igualdad de las medianas de dos poblaciones, sobre la independencia de dos variables categóricas, sobre la naturaleza (normal, exponencial, etc.) de una distribución, sobre la aleatoriedad de unos datos, etc. - Aplicables con muy pocos requisitos (por ejemplo, en ausencia de normalidad). - Son intrínsecamente ROBUSTOS. I. Tests sobre la mediana. Ho: M = Mo H1: M ≠ Mo; M>Mo; M<Mo (A) Test de los signos: requiere var. continua. (B) Test de los rangos signados o test de Wilcoxon: requiere simetría. (explicación: PIZARRA) II. Tests sobre comparación de poblaciones. (A) Test de comparación de medianas: test de Mann-Whitney (var. Continua) Ho: M1 = M2 H1: M1 ≠ M2; M1>M2; M1<M2 (explicación: PIZARRA) II. Tests sobre comparación de poblaciones. (B) Test de comparación de distribuciones: test de KolmogorovSmirnov (var. Continua) Ho: X e Y tienen la misma distribución H1: X e Y tienen distribuciones distintas Compara las funciones de distribución de X e Y III. Tests de bondad de ajuste. Ho: X sigue cierta distribución H1: X no sigue cierta distribución (A) Test chi-cuadrado: general (todas las variables, todas las distribuciones. (B) Test de Kolmogorov-Smirnov: var. continua (C) Tests de normalidad: sólo para contrastar normalidad Ho: X sigue cierta distribución H1: X no sigue cierta distribución (A) Test Chi-cuadrado: Por ejemplo, Ho: X=N(10,2.85) 1.- Tomamos muestra de tamaño n (por ej., n=32) 2.- Establecemos regiones en el intervalo donde puede tomar valores la variable: 7’15 1 12’85 10 2 3 4 Ho: X sigue cierta distribución H1: X no sigue cierta distribución (A) Test Chi-cuadrado: Por ejemplo, Ho: X=N(10,2.85) 3.- Establecemos los valores esperados: (n=32) E1: 16% de 32 = 5 (aprox.) E2: 34% de 32 = 11 (aprox.) 0,34 34% 0,16 7’15 1 12’85 10 2 3 4 16% Ho: X sigue cierta distribución H1: X no sigue cierta distribución (A) Test Chi-cuadrado: Por ejemplo, Ho: X=N(10,2.85) 4.- Contabilizamos los valores observados, en la muestra, en cada intervalo: E1: 5; E2: 11; E3: 11; E4: 5 O1: 4; O2: 9; O3: 13; O4: 6 7’15 1 12’85 10 2 3 4 Ho: X sigue cierta distribución H1: X no sigue cierta distribución (A) Test Chi-cuadrado: Por ejemplo, Ho: X=N(10,2.85) 5.- La idea es RECHAZAR la hipótesis, si los valores observados difieren demasiado de los observados. Concretamente, se utiliza el estadístico: k D que sigue una 2 k 1 i 1 O i Ei 2 Ei Requisitos: n suficientemente grande; Ei mayores o iguales de 5 (B) Test de Kolmogorov-Smirnov: Ho: X sigue cierta distribución H1: X no sigue cierta distribución El test anterior, en realidad, compara las frecuencias “obtenidas”, con las esperadas; es decir, compara el polígono de frecuencias (muestra), con la curva correspondiente a la distribución que conjeturamos: % muestra población (B) Test de Kolmogorov-Smirnov: Ho: X sigue cierta distribución H1: X no sigue cierta distribución El test de Kolmogorov-Smirnov, que requiere variable continua, compara el polígono de frecuencias acumuladas, con la función de distribución. % muestra población (C) Test de normalidad: Ho: X es normal H1: X no es normal Sólo sirven para contrastar la normalidad, y no otro tipo de distribuciones. Statgraphics En ausencia de normalidad… SITUACION MEDIDA A ADOPTAR Presencia de datos atípicos Detección y eliminación Distribución multimodal: posible heterogeneidad Distinguimos subgrupos y estudiamos por separado Forma acampanada, pero cierta asimetría Transformaciones Box-Cox Claramente sigue otro modelo Utilizamos modelo alternativo + tests no param. (para contrastes) ó intentamos transformar IV. Test de independencia chi-cuadrado. Se trata de contrastar si dos variables CUALITATIVAS son independientes (es decir, si existe relación entre ellas), o no. Por ejemplo: - ¿Ser hombre o mujer predispone, de algún modo, a fumar o no fumar? - ¿Los hábitos de lectura de los padres influyen en los hábitos de lectura de los hijos? - ¿Los gustos literarios son los mismos en las distintas comunidades españolas? - ¿La proporción de textos de ficción/no ficción es la misma en todas las bibliotecas de Alcalá? Ho: X e Y son independientes H1: X e Y no son independientes X e Y están relacionadas, una de ellas influye en la otra, hay diferencias significativas, determinadas proporciones cambian… EJEMPLO: Hemos preguntado a un grupo de 20 hombres y 20 mujeres si fumaban o no. ¿Crees que hay diferencias significativas entre ambos sexos? Hombres Mujeres TOTAL: Fuma 5 7 12 No fuma 15 13 28 TOTAL: 20 20 40 X: sexo; Y: Fumador (S/N) Ho: X e Y son independientes H1: X e Y no son independientes ¿Qué debería salir, si fueran “perfectamente” independientes? Hombres Mujeres TOTAL: Fuma 12 No fuma 28 TOTAL: 20 20 40 ¿Qué debería salir, si fueran “perfectamente” independientes? Hombres Mujeres TOTAL: Fuma 6 6 12 No fuma 14 14 28 TOTAL: 20 20 40 50% 50% Comparamos frecuencias observadas (Oi) y esperadas (Ei) La idea es RECHAZAR la hipótesis, si los valores observados difieren demasiado de los observados. Concretamente, se utiliza el estadístico: k D i 1 O i Ei 2 Ei (que sigue una chi-cuadrado; igual que en tests de bondad de ajuste) V. Tests de aleatoriedad. Una secuencia de datos es aleatoria si no exhibe ninguna tendencia concreta, es decir, si se entiende que las fluctuaciones en los datos se deben al AZAR. ALEATORIEDAD/NO ALEATORIEDAD Gráfico de Series Temporales para Empresa B 12,5 8,3 11,5 7,9 E m presa B E m p re sa A Gráfico de Series Temporales para Empresa A 10,5 9,5 8,5 7,1 6,7 6,3 5,9 7,5 0 2 4 6 8 10 0 12 Gráfico de Series Temporales para Empresa C 2 4 6 8 10 12 Gráfico de Series Temporales para Empresa D 11,1 11,1 10,1 E m p re sa D E m p re sa C 7,5 9,1 8,1 7,1 10,1 9,1 8,1 7,1 6,1 0 2 4 6 8 10 12 0 2 4 6 8 10 12 Tests de aleatoriedad: tests de RACHAS Ho: Los datos son aleatorios H1: Los datos no son aleatorios -Test 1: ejecuciones por encima y debajo de la mediana. - Test 2: ejecuciones “arriba” y “abajo”. - Test 3: test de Box-Pierce (autocorrelaciones). Busca “ciclos”. 4. Transformaciones Box-Cox. Cuando tenemos una variable no normal, unimodal con cierta simetría, podemos aplicar una transformación para conseguir normalidad (transformación Box-Cox). Las transformaciones Box-Cox son una familia de funciones: x x 1 si 0 ln( x ) si 0 El valor de λ es escogido según la asimetría que presenten los datos. λ=4 λ=3 λ=2 λ=1 λ=1/2 λ=1/3 λ=0 λ>1: Separa los valores grandes, acerca los valores próximos a cero. Apropiado para distribuciones con asimetría a la izquierda Valores usuales: 2, 3, 4 λ<1: Separa los valores próximos a cero, acerca los valores grandes. Apropiado para distribuciones con asimetría a la derecha Valores usuales: ½, 1/3, ¼, 0 Ejemplo: Investigadores de General Motors recogieron datos sobre 60 poblaciones metropolitanas de Estados Unidos para estudiar si la polución del aire incrementaba la mortalidad. La variable dependiente es la variable “Mortalidad” (Mortality). Los datos incluyen variables que miden las características demográficas de las ciudades, climáticas, así como los datos relativos a tres contaminantes. Entre las características demográficas está la densidad de población; podemos comprobar que, no siendo una variable normal, sin embargo puede conseguirse la normalidad aplicando una transformación del tipo estudiado. Histograma 30 frecu encia 25 20 15 10 5 0 0 2 4 6 8 PopDensity - Asimetría a la derecha - Varios tests de normalidad fallan. 10 12 (X 1000) Histograma 30 frecu encia 25 20 15 10 5 0 29 39 49 59 Transf_Box_Cox -Todos los tests de normalidad aceptan. 69