Transcript H 1
1.3 Inferencia estadística.
1. Distribución de estadísticos muestrales;
estimación puntual y por intervalos; ejemplos.
2. Contraste de hipótesis.
3. Contrastes no paramétricos.
4. Transformaciones Box-Cox.
1. Distribución de estadísticos muestrales; estimación.
Estadístico muestral: cualquier número que calculemos a partir de la muestra (media muestral, varianza
muestral., etc.)
Muestra 1 :
Muestra 2 :
2
X 1 , s1 ,...
2
X 2 , s 2 ,...
….
Muestra k :
….
2
X k , s k ,...
Estadístico muestral: cualquier número que calculemos a partir de la muestra (media muestral, varianza
muestral., etc.)
Muestra 1 :
Muestra 2 :
2
X 1 , s1 ,...
2
X 2 , s 2 ,...
….
Muestra k :
….
2
X k , s k ,...
Dado un estadístico,
se pueden interpretar los
distintos valores que toma
en sucesivas muestras (del
mismo tamaño) como una
nueva muestra, sobre una
nueva variable: la definida
por el estadístico.
Estadístico muestral: cualquier número que calculemos a partir de la muestra (media muestral, varianza
muestral., etc.)
Muestra 1 :
Muestra 2 :
2
X 1 , s1 ,...
2
X 2 , s 2 ,...
….
Muestra k :
….
2
X k , s k ,...
En consecuencia, podemos
definir variables como por
ejemplo: la media muestral,
la cuasivarianza muestral…
Y, suponiendo que X, la
variable de partida, tenga
una cierta distribución
(normal, exponencial, etc.)
nos preguntamos cómo
serán estas nuevas variables.
Distribución de la media muestral
• Si X N ( , ),
X
X N ,
N ( 0 ,1)
n
/ n
• Aunque la variable no sea normal, lo anterior
también se cumple si n es grande (>30).
• Si la población es normal, pero σ es desconocida,
X
sˆ /
n
t n 1
Distribución de la cuasivarianza muestral
• Si X N ( , ),
( n 1) s
2
2
n 1
2
Distribución de la proporción muestral: leer apuntes
Distribución de la diferencia de medias muestrales:
Tomamos muestras en dos poblaciones distintas, y
queremos comparar las medias (nivel de CO2 en dos
ciudades distintas, o niveles de CO2 en dos zonas
distintas de la misma ciudad.
Muestra 1 :
Muestra 2 :
X 1 ,...
X 2 ,...
….
Muestra k :
….
Muestra 1 : Y1 ,...
Muestra 2 : Y 2 ,...
….
X k , ...
Muestra r : Y k , ...
….
Distribución de la diferencia de medias muestrales:
(a) Muestras independientes: niveles de CO2 en dos
ciudades distintas.
IMPORTANTE: Si X e Y son dos variables aleatorias
normales, X-Y también es normal. Concretamente,
X N ( x , x ),
Y N ( y , y ),
X Y N x y, x
2
2
y
Distribución de la diferencia de medias muestrales:
(a) Muestras independientes: niveles de CO2 en dos
ciudades distintas.
Utilizando lo anterior, se tiene que, siendo
conocidas las varianzas poblacionales,
X Y Nx y,
2
x
nx
2
y
ny
Para el caso en que las varianzas poblacionales no son conocidas,
leer apuntes
Distribución de la diferencia de medias muestrales:
(b) Muestras dependientes (datos pareados):
niveles de CO2 en dos puntos distintos de la
misma ciudad.
X
Y
x1
y1
x2
y2
…
…
xn
yn
NO vale lo anterior!!
Formamos nueva variable
D=X-Y
Distribución de la diferencia de medias muestrales:
(b) Muestras dependientes (datos pareados):
niveles de CO2 en dos puntos distintos de la
misma ciudad.
X
Y
D
x1
y1
d1
x2
y2
d2
…
…
…
xn
yn
dn
D x y
Pero no podemos
asegurar nada sobre
σ D…
Distribución de la diferencia de proporciones
muestrales: leer apuntes
Estimación.
El objetivo es “estimar” el valor de parámetros
poblacionales de una v.a. , a partir de una
muestra x1,…,xn
Población
μ, σ, …
Muestra
I. Estimación puntual:
Damos una estimación concreta para cada
parámetro poblacional, , de interés. Para
ello, utilizamos un estimador
ˆ ( x1 ,..., x n )
(ejemplos: PIZARRA) Para una muestra
concreta, el estimador proporcionará una
estimación de
Puesto que el estimador
ˆ ( x1 ,..., x n )
Es un estadístico, tendrá su distribución, y tendrá
sentido calcular la media del estimador, E [ˆ ]
Decimos que un estimador es INSESGADO ó
CENTRADO, si
E [ˆ ]
(ejemplos: PIZARRA)
II. Estimación por intervalo de confianza:
Decimos que Iɸ es un intervalo de confianza
para ɸ al 1-α de confianza, si
P ( I ) 1
1- α: nivel de confianza (90%, 95%, 99%,…)
α: nivel de significación (10%, 5%, 1%,…)
El intervalo es tanto mayor cuanto mayor sea 1-α
Construcción de un intervalo de confianza para ɸ:
1. Fijamos el nivel de confianza, 1-α
2. Elegimos un estadístico ξ, de distribución conocida,
donde esté involucrado ɸ.
3. Determinamos un intervalo Iξ, tal que
P ( I ξ ) 1
4. A partir de Iξ obtenemos Iɸ
PIZARRA: ejemplo con la media poblacional
Intervalos de confianza más importantes:
(expresiones: ver apuntes)
- Intervalos para la media poblacional (en varios supuestos):
requieren normalidad ó muestras grandes (n>30)
- Intervalos para la varianza y la desviación típica
poblacionales: requiere normalidad.
- Intervalos para el cociente de varianzas poblacionales:
requiere normalidad.
¿Qué significa que 1 pertenezca al intervalo?
Intervalos de confianza más importantes:
(expresiones: ver apuntes)
- Intervalos para la diferencia de medias poblacionales:
requieren normalidad
Muestras independientes: se basa en que la diferencia
de medias muestrales es una v.a. normal
Datos pareados: construimos D=X-Y.
¿Qué significa que 0 pertenezca al intervalo?
¿Qué significa que ambos extremos del intervalo
sean números positivos? ¿Negativos?
Intervalos de confianza más importantes:
(expresiones: ver apuntes)
- Otros (proporción muestral, diferencia de proporciones
muestrales): ver apuntes.
¿Qué pasa si no se satisfacen los requisitos?
Análisis Bootstrap
Análisis bootstrap:
Dada una muestra x1,…,xn de una variable aleatoria
que no es normal, podemos:
1.- Tomar la muestra como una población
2.- Tomar “muestras” y1,…,ym de esa “población”
(tantas como queramos)
3.- Construir una nueva variable a partir de esas
muestras, que sí cumplirá los requisitos de los
intervalos anteriores.
2. Contraste de hipótesis.
Ejemplo: El fichero Emisiones contiene una muestra
aleatoria de las emisiones anuales de 30 países con
distintos niveles de desarrollo. Aunque inicialmente se
pensaba que la emisión media era de 15 toneladas,
actualmente se sospecha que esa estimación no es
adecuada. ¿Avalan los datos esa sospecha,
suponiendo un nivel de confianza del 95%?
Emisiones
12,7
13,5
13,6
13,7
13,7
….
15,5
15,6
Contraste de hipótesis:
• Partimos de una muestra, y queremos tomar una decisión
sobre una población. La decisión consiste en aceptar, o
no, una cierta afirmación, como verdadera.
• Hay una hipótesis de partida (hipótesis nula, H0), que sin
embargo esta “bajo sospecha”.
• Como alternativa a la hipótesis nula se formula una
hipótesis alternativa, H1. Sólo una de las dos puede
ser considerada como cierta.
• Fijamos un nivel de confianza, 1-α: es la probabilidad de
que aceptemos H0 , siendo verdadera.
Contraste de hipótesis:
La idea esencial es verificar si la muestra “avala” la falsedad
(o no) de H0 frente a H1; para ello:
1.- se considera un cierto estadístico, de distribución
conocida, y se determina su valor en la muestra.
2.- se determina si el valor del estadístico puede considerarse
“muy raro” o no, suponiendo cierta la hipótesis nula (H0
siempre fija la distribución del estadístico).
3.- si el valor es “muy raro”, H0 se rechaza.
Ejemplo: Contraste sobre la media poblacional; aplicación al caso
de las emisiones de CO2 (PIZARRA)
Definición “intuitiva” de p-valor: es la probabilidad de que
el estadístico escogido tome un valor “aún más extremo”
que el que hemos obtenido (la noción “más extremo” se
precisa según cómo sea la hipótesis alternativa; responde
a la idea de “aproximarse más a la zona de rechazo”).
REGLA FUNDAMENTAL:
Rechazar H0 si p-valor es menor que el nivel de
significación
Contrastes de hipótesis paramétricos: se refieren
a parámetros poblacionales.
- Media poblacional:
H0: μ = μ0
H1: μ ≠ μ0 ; H1: μ > μ0 ; H1: μ < μ0
- Desviación típica poblacional:
H0: σ = σ 0 H1: σ ≠ σ0 ; H1: σ > σ 0 ; H1: σ < σ 0
- Igualdad de medias poblacionales:
H0: μ1=μ2
H1: μ1 ≠ μ2 ; H1: μ1 > μ2 ; H1: μ1 < μ2
(Cuidado: hay que distinguir muestras
independientes y datos pareados)
Contrastes de hipótesis paramétricos:
- Igualdad de desviaciones típicas poblacionales:
H0: σ1=σ2
H1: σ1 ≠ σ2 ; H1: σ1 > σ2 ; H1: σ1 < σ2
- Otros (proporción muestral, igualdad de
proporciones, etc.)
Más adelante, contrastes no-paramétricos:
normalidad, independencia, aleatoriedad, etc.
Errores al efectuar un contraste
de hipótesis
Hip. Nula
verdadera
Hip. Nula
falsa
Acepta
CORRECTO
ERROR
TIPO II
Rechaza
ERROR
TIPO I
CORRECTO
Errores al efectuar un contraste
de hipótesis
Hip. Nula
verdadera
Acepta
Rechaza
Hip. Nula
falsa
1-α
β
(nivel de
confianza)
α
1-β
(nivel de
(potencia del
significación)
test)
Unica posibilidad para disminuir a la vez error
de tipo I y error de tipo II: aumentar el tamaño
de la muestra.
(¡¡hasta que alcance el presupuesto…!!)
3. Contrastes no paramétricos.
- No se refieren a parámetros de distribuciones.
- Por ejemplo: tests sobre la mediana de una
población, sobre la igualdad de las medianas de
dos poblaciones, sobre la independencia de
dos variables categóricas, sobre la naturaleza
(normal, exponencial, etc.) de una distribución,
sobre la aleatoriedad de unos datos, etc.
- Aplicables con muy pocos requisitos (por ejemplo,
en ausencia de normalidad).
- Son intrínsecamente ROBUSTOS.
I. Tests sobre la mediana.
Ho: M = Mo
H1: M ≠ Mo; M>Mo; M<Mo
(A) Test de los signos: requiere var. continua.
(B) Test de los rangos signados o test de Wilcoxon: requiere simetría.
(explicación: PIZARRA)
II. Tests sobre comparación de poblaciones.
(A) Test de comparación de medianas: test de Mann-Whitney
(var. Continua)
Ho: M1 = M2
H1: M1 ≠ M2; M1>M2; M1<M2
(explicación: PIZARRA)
II. Tests sobre comparación de poblaciones.
(B) Test de comparación de distribuciones: test de KolmogorovSmirnov (var. Continua)
Ho: X e Y tienen la misma distribución
H1: X e Y tienen distribuciones distintas
Compara las funciones de distribución de X e Y
III. Tests de bondad de ajuste.
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
(A) Test chi-cuadrado:
general (todas las variables,
todas las distribuciones.
(B) Test de Kolmogorov-Smirnov: var. continua
(C) Tests de normalidad: sólo para contrastar
normalidad
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
(A) Test Chi-cuadrado:
Por ejemplo, Ho: X=N(10,2.85)
1.- Tomamos muestra de tamaño n (por ej., n=32)
2.- Establecemos regiones en el intervalo donde puede tomar
valores la variable:
7’15
1
12’85
10
2
3
4
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
(A) Test Chi-cuadrado:
Por ejemplo, Ho: X=N(10,2.85)
3.- Establecemos los valores esperados: (n=32)
E1: 16% de 32 = 5 (aprox.)
E2: 34% de 32 = 11 (aprox.)
0,34
34%
0,16
7’15
1
12’85
10
2
3
4
16%
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
(A) Test Chi-cuadrado:
Por ejemplo, Ho: X=N(10,2.85)
4.- Contabilizamos los valores observados, en la muestra,
en cada intervalo:
E1: 5; E2: 11; E3: 11; E4: 5
O1: 4; O2: 9; O3: 13; O4: 6
7’15
1
12’85
10
2
3
4
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
(A) Test Chi-cuadrado:
Por ejemplo, Ho: X=N(10,2.85)
5.- La idea es RECHAZAR la hipótesis, si los valores observados
difieren demasiado de los observados. Concretamente, se utiliza
el estadístico:
k
D
que sigue una
2
k 1
i 1
O i
Ei
2
Ei
Requisitos: n suficientemente grande; Ei mayores o iguales de 5
(B) Test de Kolmogorov-Smirnov:
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
El test anterior, en realidad, compara las frecuencias “obtenidas”,
con las esperadas; es decir, compara el polígono de frecuencias
(muestra), con la curva correspondiente a la distribución que
conjeturamos:
%
muestra
población
(B) Test de Kolmogorov-Smirnov:
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
El test de Kolmogorov-Smirnov, que requiere variable continua,
compara el polígono de frecuencias acumuladas, con la función de
distribución.
%
muestra
población
(C) Test de normalidad:
Ho: X es normal
H1: X no es normal
Sólo sirven para contrastar la normalidad, y no otro tipo de
distribuciones.
Statgraphics
En ausencia de normalidad…
SITUACION
MEDIDA A ADOPTAR
Presencia de datos
atípicos
Detección y
eliminación
Distribución
multimodal: posible
heterogeneidad
Distinguimos
subgrupos y
estudiamos por
separado
Forma acampanada,
pero cierta asimetría
Transformaciones
Box-Cox
Claramente sigue otro
modelo
Utilizamos modelo
alternativo + tests no
param. (para
contrastes) ó
intentamos
transformar
IV. Test de independencia chi-cuadrado.
Se trata de contrastar si dos variables CUALITATIVAS son independientes (es decir, si existe relación entre ellas), o no. Por ejemplo:
- ¿Ser hombre o mujer predispone, de algún modo, a fumar o no fumar?
- ¿Los hábitos de lectura de los padres influyen en los hábitos de lectura
de los hijos?
- ¿Los gustos literarios son los mismos en las distintas comunidades
españolas?
- ¿La proporción de textos de ficción/no ficción es la misma en todas las
bibliotecas de Alcalá?
Ho: X e Y son independientes
H1: X e Y no son independientes
X e Y están relacionadas, una de ellas influye
en la otra, hay diferencias significativas,
determinadas proporciones cambian…
EJEMPLO: Hemos preguntado a un grupo de 20 hombres y 20 mujeres
si fumaban o no. ¿Crees que hay diferencias significativas entre ambos
sexos?
Hombres
Mujeres
TOTAL:
Fuma
5
7
12
No fuma
15
13
28
TOTAL:
20
20
40
X: sexo; Y: Fumador (S/N)
Ho: X e Y son independientes
H1: X e Y no son independientes
¿Qué debería salir, si fueran “perfectamente” independientes?
Hombres
Mujeres
TOTAL:
Fuma
12
No fuma
28
TOTAL:
20
20
40
¿Qué debería salir, si fueran “perfectamente” independientes?
Hombres
Mujeres
TOTAL:
Fuma
6
6
12
No fuma
14
14
28
TOTAL:
20
20
40
50%
50%
Comparamos frecuencias observadas (Oi) y esperadas (Ei)
La idea es RECHAZAR la hipótesis, si los valores observados
difieren demasiado de los observados. Concretamente, se utiliza
el estadístico:
k
D
i 1
O i
Ei
2
Ei
(que sigue una chi-cuadrado; igual que en
tests de bondad de ajuste)
V. Tests de aleatoriedad.
Una secuencia de datos es aleatoria si no exhibe
ninguna tendencia concreta, es decir, si se entiende que
las fluctuaciones en los datos se deben al AZAR.
ALEATORIEDAD/NO ALEATORIEDAD
Gráfico de Series Temporales para Empresa B
12,5
8,3
11,5
7,9
E m presa B
E m p re sa A
Gráfico de Series Temporales para Empresa A
10,5
9,5
8,5
7,1
6,7
6,3
5,9
7,5
0
2
4
6
8
10
0
12
Gráfico de Series Temporales para Empresa C
2
4
6
8
10
12
Gráfico de Series Temporales para Empresa D
11,1
11,1
10,1
E m p re sa D
E m p re sa C
7,5
9,1
8,1
7,1
10,1
9,1
8,1
7,1
6,1
0
2
4
6
8
10
12
0
2
4
6
8
10
12
Tests de aleatoriedad: tests de RACHAS
Ho: Los datos son aleatorios
H1: Los datos no son aleatorios
-Test 1: ejecuciones por encima y debajo de la mediana.
- Test 2: ejecuciones “arriba” y “abajo”.
- Test 3: test de Box-Pierce (autocorrelaciones). Busca “ciclos”.
4. Transformaciones Box-Cox.
Cuando tenemos una variable no normal, unimodal con cierta
simetría, podemos aplicar una transformación para conseguir normalidad
(transformación Box-Cox). Las transformaciones Box-Cox son una
familia de funciones:
x
x 1
si 0
ln( x ) si 0
El valor de λ es escogido según la asimetría que presenten los datos.
λ=4
λ=3
λ=2
λ=1
λ=1/2
λ=1/3
λ=0
λ>1: Separa los valores grandes, acerca los valores próximos a cero.
Apropiado para distribuciones con asimetría a la izquierda
Valores usuales: 2, 3, 4
λ<1: Separa los valores próximos a cero, acerca los valores grandes.
Apropiado para distribuciones con asimetría a la derecha
Valores usuales: ½, 1/3, ¼, 0
Ejemplo: Investigadores de General Motors recogieron datos sobre 60 poblaciones metropolitanas de Estados Unidos para estudiar si la polución del aire
incrementaba la mortalidad. La variable dependiente es la variable “Mortalidad”
(Mortality). Los datos incluyen variables que miden las características demográficas de las ciudades, climáticas, así como los datos relativos a tres contaminantes. Entre las características demográficas está la densidad de población;
podemos comprobar que, no siendo una variable normal, sin embargo puede
conseguirse la normalidad aplicando una transformación del tipo estudiado.
Histograma
30
frecu encia
25
20
15
10
5
0
0
2
4
6
8
PopDensity
- Asimetría a la derecha
- Varios tests de normalidad fallan.
10
12
(X 1000)
Histograma
30
frecu encia
25
20
15
10
5
0
29
39
49
59
Transf_Box_Cox
-Todos los tests de normalidad aceptan.
69