UnidadV_10-13_oct_2S_06(2)

Download Report

Transcript UnidadV_10-13_oct_2S_06(2)

Unidad V: Estimación de
Parámetros
Propósito de la Inferencia de estadística
Estimación de parámetros
Puntual
Pruebas de Hipótesis
Intervalar
Métodos de Estimación
Momentos
Máximo Verosímil
Propiedades
Método del Pivote
Nivel de Confianza
Pruebas de Hipótesis
Hipótesis Nula
Hipótesis alternativa
Unilateral
Bilateral
Concepto
Tipos de errores
Nivel de Confianza
Región Crítica
Valor-p
Decisión
5.7 Propiedades de los estimadores puntuales
Es interesante establecer algunos criterios bajo los cuales la
calidad de un estimador puede ser evaluada. Estos criterios
definen, en general, propiedades deseables de los estimadores
que nos sirven para compararlos.
 Estimadores Insesgados:
Sea ˆ un estimador puntual de un parámetro  . Se dice que ˆ es
insesgadosi y sólo si. E (ˆ)   para todo  . En caso contrario se
dice que ˆ es sesgado.
 Sesgo:
El sesgo B de un estimador puntual ˆ está dado por la expresión
B  E (ˆ)  
X y S 2 como estimadores de la media poblacional  y la
varianza poblacional  2, estos serán insesgados.
 Si utilizamos
1
 ( X i  X ) 2 como estimador de la varianza encontramos
n
n 1 2
que su media es
   2 , y por tanto ˆ 2 sería un estimador sesgado
n
de  2 .
 Si usamos ˆ
2
 Sea ˆ un estimador insesgadode  . Decimos que ˆ es un estimador
insesgado de mínima varianza para θ, si cualquier otro estimador
insesgado * de  se tiene que :
Var (ˆ)  Var ( * ) , 
Por lo tanto, dados dos estimadores para el parámetro θ, y
siendo todo el resto de las condiciones equivalentes para
ambos, se elegirá siempre aquel de menor varianza.
Ejemplo
Sabemos que la media muestral X es un estimador insesgado de la media
poblacional. Por lo tanto, X es un estimador insesgado de , parámetro de
una distribución Normal; de  la media de una distribución Poisson(  ) y de
p parámetro de una distribución Bernoulli. Nos interesa averiguar si la calidad
de X mejora cuando n crece. E ( X )   que no depende de n; pero V ( X )   2 / n
decrece cuando n aumenta. Es claro entonces que, basándose en un criterio
de mínima varianza, la calidad de X como estimador de  mejora cuando n
crece.
Una pregunta natural de formular es : basándonos en una muestra fija de
tamaño n, ¿Podríamos encontrar otro estimador mejor para , distinto de
X , en términos de insesgamiento y mínima varianza, para estas
distribuciones?
La respuesta está en la desigualdad de Cramer-Rao que proporciona una cota
inferior para la varianza de cualquier estimador insesgado del parámetro de
una distribución de probabilidades, bajo condiciones de regularidad que
incluyen:
i. El espacio de valores de la variable aleatoria involucrada
debe ser independiente del parámetro.
ii. La función de densidad (o función de probabilidad) debe
ser una función continua y diferenciable del parámetro.
Teorema 5.7 (Cramer-Rao). Sea X1,…,Xn una muestra
aleatoria de tamaño n de una población X con función de
densidad (o función de probabilidad) f(x,θ), que depende de un
parámetro θ desconocido, y satisface las condiciones de
regularidad.
Sea ˆ  T ( X1,, X n ) un estimador insesgadopara  . Entonces
1
ˆ
Var ( ) 
2

  ln f ( x, )  
nE 
 

 



 Si ˆ no
es un estimador insesgado de  , se puede probar que la cota de
Cramer - Rao está dada por la expresión.
 2ˆ
(1  B (ˆ)) 2
(1  B(ˆ)) 2



I ( )
nE ( ln f ( x; )) 2

La cantidad I(θ) es conocida como cantidad de información o
Información de Fisher. De aquí que la CCR también se conoce
con el nombre de Desigualdad de Información.
En la clase de estimadores insesgados, la cota inferior en la
desigualdad de información es 1/I(θ), independientemente del
estimador que estemos considerando.
La desigualdad de Cramer-Rao se puede escribir como:
Var (ˆ) 
1
nE{ 2 ln f ( X ; ) /  2 }
La CCR puede extenderse fácilmente para ciertas
transformaciones del parámetro. Específicamente, si φ =
g(θ) es una transformación uno a uno y diferenciable,
entonces:
dg ( ) 

CCR para Var (ˆ )  
 CCR para Var (ˆ)
 d 
2
donde ˆ es un estimador insesgado de 
Dado un estimador insesgado ˆ de  , la razón de su cota
de Cramer - Rao a su varianz a, se llama eficiencia de θˆ .

El Cuadrado Medio del error (CME) de un estimador puntual ˆ se
define por :
CME (ˆ)  E (ˆ   )2
 Si ˆ
es un estimador insesgado del parámetro  , entonces
CME (ˆ)  Var (ˆ)
Ejemplo
Sea X1, X2 una muestra aleatoria de tamaño 2 de X con
distribución Exponencial de parámetro  desconocido.
Consideremos a ˆ1  X y a ˆ2  X1 X 2 estimadores de   1/ . En términos
del error cuadrático medio, ¿cuál de los dos es mejor?
El CME (ˆ1 )  Var (ˆ1 )  1/( 22 ), por ser X un estimador insesgadode .
Ahora,
CME (ˆ2 )  Var ( X1 X 2 )  ( E X1 X 2   )2
de donde
Var ( X1 X 2 )  E ( X1 X 2 )  E ( X1 ) E ( X 2 )
Calculemos E ( X ) con X exponencia l de parámetro .
E( X ) 

0
1/ 2
x
e
 x
dx 
(3 / 2)
1 / 2
 ( /  )1 / 2 / 2
Por lo tanto
2
16


2
2
2
Var ( X1 X 2 )  1 /    /(16 ) 
2
16
y
B ( X1 X 2 )  ((1 / 4)( /  )  1 /  ) 
2
 
 4 2
4
De aquí, el Error Cuadrático Medio de ˆ2 está dado por
CME (ˆ2 )  4 2
2

El estimador ˆn se dice consistente para  si, para cualquier   0,
se tiene que :
lim ( P ˆn     )  1
n 
o equivalent emente
lim ( P ˆn     )  0
n 
Teorema 5.8 Un estimador insesgadoˆn de  es consistente si
lim Var (ˆn )  0
n 
Ejemplo
Sea X1,…,Xn una muestra aleatoria de una población con
distribución de probabilidades con media  y varianza 2 < .
Verifiquemos que X es un estimadorconsistente de .
Sabemos que E ( X )   y Var ( X )   2 / n. Dado que X es un estimador
insesgadopara , y como Var ( X )  0, cuando n crece, el teorema anterior
se aplica directamente.
Equivalent emente se puede decir que X converge en probabilidad a . Este
hecho es también conocido como la Ley de los Grandes Números .
 Sea X1,…,Xn una muestra aleatoria de una distribución de
probabilidades con parámetro desconocido θ. T = T(X1,…,Xn)
es un estadístico suficiente para θ, si y sólo si, la
distribución condicional de (X1,…,Xn) dado T = t, para todo
valor de t, es independiente de θ.
Ejemplo
Consideremos los resultados observados de n ensayos
Bernoulli independientes X1,…,Xn donde Xi = 1 con
probabilidad p y es 0 con probabilidad 1 – p.
Sea T 
n
 X i  Nº de éxitos en los n ensayos. Si conocemos el valor de T ,
i 1
¿Podemos ganar información adicional acerca de p, observando otras
funciones de X1,, X n?
Una manera de responder es observar
condicional de X1,…,Xn dado T = t; esto es:
P( X1  x1,..., X n  xn T  t ) 
la
distribución
p t (1 p ) n t
n t
  p (1 p ) n t
t 

1
n
 
t 
Teorema 5.9 (de Factorizac ión de Fisher) Sea T ( X ), un estadístico
basado en la muestra aleatoria X  ( X1,..., X n ). T ( X ) es un estadístico
suficiente para  si y sólo si, la densidad conjunta de X (la función de
verosimilitud L( , x)), puede ser factorizad a en dos funciones no nega tivas, de la forma
L( , x)  g (T ( x), )h( X )
donde g es una función sólo de T y  , y h no es función de  .
Ejemplo
Sea X1,…,Xn una muestra aleatoria de una población con
distribución exponencial con media ; esto es, Xi posee
función de densidad.
f ( , xi )  1/  exp( xi /  ) , xi  0, i  1, n
La función de verosimilitud de la muestra es la densidad
conjunta
n
L  f ( , x1,..., xn )  [exp( nx /  )] / 
Como L es una función que depende sólo de  y x, aplicando el
teorema de factorizac ión con g ( , x )  [exp( nx /  )] / n y h( x )  1,
podemos concluir que X es un estimador suficiente para .
Notemos también que  X j es otro estadístico suficiente para .
Ejemplo
Sea X1,…,Xn una muestra aleatoria de una distribución uniforme en
(0,θ) y determinemos un estadístico suficiente para θ.
La función de verosimilitud de la muestra aleatoria es
L( , x)  (1 /  ) n , xi  (0, ) para todo i  1,, n
lo que es equivalente a escribir
L( , x)  (1/  )n , para x( n)   ; donde x( n)  máx( x1, x2 ,, xn )
Así, tenemos la factorización
n
L( , x)  (1/  ) I (0, ) ( x( n) )  g ( , X ( n) ),
donde
1 si x  A
I A ( x)  
0 si x  A
es la función indicadora de un conjunto A.
Ejemplos:
Prob.: Se registraron los siguientes datos, en días, que representan el
tiempo de fabricación de un determinado producto con dos procesos
distintos.
Proceso 1
34
17
2.5
Proceso 2
56
19
1.8
a) Encuentre un I. de C del 95% para el tiempo promedio de fabricación
del proceso 1.
b) Se cree que la persona que tomó los datos en el proceso 1 no lo hizo
correctamente, ya que experiencias anteriores indican que la varianza es
de 12,9683. Para demostrar que S obtenida anteriormente estaba
errada, se considera una nueva muestra aleatoria de 10 tiempos. ¿Cuál
es la probabilidad que la varianza muestral de esta nueva muestra,
supere el valor obtenido anteriormente?.
Ejemplos:
Prob.: Se registraron los tiempos utilizados en la compra para 64 clientes
seleccionados al azar en un supermercado local. La media y la varianza
de los 64 tiempos de compra fueron 33 minutos y 256, respectivamente.
Encuentre un I. de C. del 95 % para el verdadero tiempo promedio.