Elementos básicos de probabilidad y estadística

Download Report

Transcript Elementos básicos de probabilidad y estadística

Elementos Básicos de
Probabilidad y Estadística
Javier Aparicio
División de Estudios Políticos, CIDE
[email protected]
Agosto 2010
http://www.cide.edu/investigadores/aparicio/metodos
Contenido
•
•
•
•
•
•
•
•
•
•
Variables aleatorias (VA): X
Distribución de probabilidad
Valor esperado de una VA: E(X)
Varianza de una VA: E ( X   )2
VA discretas y continuas
Covarianza y correlación
Muestreo y estimadores
Sesgo y eficiencia de los estimadores
Propiedades de los estimadores muestrales
Teorema del Límite Central


2
Un ejemplo de distribución de probabilidad: X es la suma de dos dados
rojo
verde
1
2
3
4
5
6
1
2
3
4
5
6
7
2
3
4
5
6
7
8
3
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
X
f
p
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
5
4
3
2
1
1/36
2/36
3/36
4/36
5/36
6/36
5/36
4/36
3/36
2/36
1/36
Una variable aleatoria X se puede definir como la suma de los números
cuando se tiran dos dados. Se define f como las frecuencias asociadas
asociadas a los posibles valores de X.
Finalmente se define p, como la probabilidad de ocurrencia de cada resultado, la
cual es 1/36.
3
Un ejemplo de distribución de probabilidad: X es la suma de dos dados
probabilidad
1
36
2
2
__
36
3
__
36
4
__
36
5
__
36
6
__
36
5
__
36
4
__
36
3
__
36
2
__
36
3
4
5
6
7
8
9 10 11 12
1
36
X
Esta es la distribución vista gráficamente. En este ejemplo es simétrica: más alta para X
igual a 7, y decreciente en ambos lados.
4
Valor esperado de una variable aleatoria
Definición de E(X), el valor esperado de X:
n
E ( X )  x1 p1  ...  x n pn   x i pi
i 1
Notación alternativa de E(X):
E(X) = μx
El valor esperado de una variable aleatoria, también conocida como la media poblacional,
es el promedio ponderado de sus valores posibles.
5
Valor esperado de una variable aleatoria
xi
pi
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
p1
p2
p3
p4
p5
p6
p7
p8
p9
p10
p11
xi pi
x1 p1
x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
x7 p7
x8 p8
x9 p9
x10 p10
x11 p11
S xi pi = E(X)
xi
pi
xi pi
2
1/36
2/36
3
2/36
6/36
4
3/36
12/36
5
4/36
20/36
6
5/36
30/36
7
6/36
42/36
8
5/36
40/36
9
4/36
36/36
10
3/36
30/36
11
2/36
22/36
12
1/36
12/36
252/36 = 7
Del ejemplo anterior, el valor esperado es 7, lo cual es obvio porque, como vimos en la
gráfica anterior, la distribución es simétrica en torno a 7.
6
Valor esperado de una función de una variable aleatoria
Definición de E[g(X)], el valor esperado de una función de X:
n
E  g ( X )  g ( x1 ) p1  ...  g ( x n ) pn   g ( x i ) pi
i 1
Ejemplo:
n
E ( X )  x p1  ...  x pn   x i2 pi
2
2
1
2
n
i 1
Para encontrar el valor esperado de una función de una variable aleatoria, se calculan todos
los posibles valores de la función, ponderándolos por las probabilidades correspondientes,
y sumando el resultado.
7
Valor esperado de una función de una variable aleatoria
xi
pi
g(xi)
g(xi ) pi
xi
pi
xi2
xi2 pi
x1
x2
x3
…
…
…
…
…
…
…
xn
p1
p2
p3
…
…
…
…
…
…
…
pn
g(x1)
g(x2)
g(x3)
…...
…...
…...
…...
…...
…...
…...
g(xn)
g(x1) p1
g(x2) p2
g(x3) p3
……...
……...
……...
……...
……...
……...
……...
g(xn) pn
S g(xi) pi
2
1/36
4
0.11
3
2/36
9
0.50
4
3/36
16
1.33
5
4/36
25
2.78
6
5/36
36
5.00
7
6/36
49
8.17
8
5/36
64
8.89
9
4/36
81
9.00
10
3/36
100
8.83
11
2/36
121
6.72
12
1/36
144
4.00
54.83
El valor esperado de X2 es la suma de sus valores ponderados en la columna final. Es el
valor promedio de de los valores en la columna previa, tomando las distintas
8
probabilidades en cuenta.
Varianza poblacional de una variable aleatoria discreta
Varianza poblacional de X

E ( X  )
2

 X2
E ( X   )   ( x1   ) p1  ...  ( x n   ) pn   ( x i   ) 2 pi
2
2
n
2
i 1
Desviación estándar de X
E[( X   )2 ]
X
El valor esperado de la desviación es conocida como la varianza
poblacional de X. Es una medida de dispersión de la distribución de X
alrededor de su media poblacional.
La desviación estándar de X es la raíz cuadrada de su varianza poblacional.
9
Varianza poblacional de una variable aleatoria discreta
pi
xi – 
(xi – )2
2
3
4
5
1/36
2/36
3/36
4/36
–5
–4
–3
–2
25
16
9
4
0.69
0.89
0.75
0.44
6
7
8
9
5/36
6/36
5/36
4/36
–1
0
1
2
1
0
1
4
0.14
0.00
0.14
0.44
10
11
12
3/36
2/36
1/36
3
4
5
9
16
25
0.75
0.89
0.69
xi
(xi – )2 pi
5.83
Para obtener la varianza, primero es necesario sustraer la media a cada valor de
x. Segundo, este resultado se eleva al cuadrado y finalmente se multiplica por la
probabilidad de ocurrencia de cada x.
10
Independencia de dos variables aleatorias
Dos variables aleatorias X y Y son independientes si y sólo si:
E[f(X)g(Y)] = E[f(X)] E[g(Y)]
para cualquier función de f(X) y g(Y).
Caso especial: si X y Y son independentes,
E(XY) = E(X) E(Y)
Dos variables X y Y son independientes si y sólo si, dada cualquier función
de f(X) y g(Y), el valor esperado del producto de f(X)g(Y) es igual al valor
esperado de f(X) multiplicado por el valor esperado de g(Y).
Caso especial, el valor esperado de XY es igual al valor esperado de X
multiplicado por el valor esperado de Y, si y sólo si X y Y son
independientes.
11
Covarianza y correlación
Covarianza
cov(X ,Y )   XY  E( X   X )(Y  Y )
E ( X   X )(Y  Y )  E ( X   X )E (Y  Y )
 E ( X )  E (  X )E (Y )  E ( Y )
  X   X Y  Y   0  0  0
Si dos variables son independientes, su covarianza es cero.
Para demostrarlo se reescribe la covarianza como el producto de de los valores esperados
de sus factores. Esto se puede hacer porque X y Y son independientes.
El valor esperado de ambos factores es cero porque E(X) = X y E(Y) = Y. E(X) = X y E(Y)
= Y porque X y Y son constantes. Por lo tanto la covarianza es cero.
12
Covarianza y correlación
Correlación
r XY
 XY

2
2
 X Y
Cov(X, Y) es una medida de asociación insatisfactoria entre X y Y porque depende de las
unidades de medida (o escala) de X y Y.
Una mejor medida es el coeficiente de correlación porque no es dimensional:
El numerador posee las unidades de medida de X y Y, mientras que la varianza de X y Y en
el denominador posee las unidades de medida al cuadrado de estas varibles.
Si X y Y son independientes, rXY será igual a cero porque XY será igual a cero.
Si hay una asociación positiva entgre ellos, XY, y por tanto rXY, será positiva.
Si hay una exacta relación lineal positiva, rXY tomará su valor máximo de 1.
Similarmente,si hay una relación negativa, rXYserá negativa con un valor mínimo de –1.
13
Variables aleatorias continuas
altura
55
60
65
70
75
X
Las variables aleatorias continuas pueden tomar cualquier valor infinitesimal en un rango.
Un ejemplo es la temperatura de una habitación. Se asume que ésta puede situarse entre
cualquier valor entre 55 y 75 grados Fahrenheit con la misma probabilidad en todo el rango.
En el caso de variables aleatorias continuas, la probabilidad de ser igual a un valor en el
rango siempre es infinitesimal. Por esta razón, sólo se puede hablar de la probabilidad de
una variable aleatoria continua se encuentre dentro de un rango de valores dados.
14
Variables continuas aleatorias
f(X) = 0.05 para 55  X  75
f(X) = 0 para X < 55 y X > 75
Densidad de
probabilidad
f(X)
0.05
0.25
55
60
65
70
75
X
Soponga que se requiere calcular la probabilidad de la temperatura entre 65 y 70 grados.
Para obtenerla, se debe calcular el área debajo de la función de densidad entre 65 y 70.
La altura del rectángulo es 0.05 y su ancho es 5, por lo tanto su área es 0.25.
15
Muestreo y estimadores
Suponga que tenemos una variable aleatoria X, y
deseamos estimar su (hasta ahora desconocida)
media poblacional X…
Un primer paso es obtener una muestra de n
observaciones: {X1, …, Xn}.
Aún antes de conseguir la muestra, Xi contiene valores
aleatorios, los cuales provendrán de la distribución de
X, pero no sabemos qué valores tomarán.
De modo que podemos pensar en variables aleatorias en
DOS niveles:
1. La variable aleatoria X por si misma
2. El componente aleatorio de la muestra {X1, …, Xn}:
error muestral.
16
Muestreo y estimadores
Una vez que tenemos una muestra de n observaciones
{X1, …, Xn}, podemos usar fórmulas matemáticas para
estimar la (desconocida) media poblacional, X.
Esta fórmula es un estimador. Un estimador típico es la
media muestral:
1
X   X 1  ...  X n 
n
…Este estimador es también una variable aleatoria
porque depende de las valores aleatorios {X1, …, Xn}.
17
Muestreo y estimadores
Densidad de
Densidad de
probabilidad de X
probabilidad de X
X
X
X
X
Como se ve en el gráfico, X tiene la misma media que X. Sin embargo, la varianza ed la
distribución de X es más pequeña que la de X.
18
Sesgo y eficiencia
Función de
densidad de
probabilidad
estimator B
estimador A
X
¿Cómo elegir entre los estimadores A y B? La respuesta es usar el estimador más eficiente,
es decir, aquel con la varianza más pequeña puesto que éste tiende a ser más acertado.
En el diagrama el estimador más eficiente es B.
19
Trade off entre sesgo y eficiencia (varianza)
Función de
densidad de
probabilidad
estimador B
estimador A
q
Supongamos que hay un estimador alternativo q de la población, uno insesgado, y otro
sesgado pero con menor varianza. ¿Cómo escoger entre ambos?
20
Trade off entre sesgo y eficiencia (varianza)
Función de
densidad de
probabilidad
MSE( Z )  E ( Z  q ) 2    Z2  (  Z  q ) 2
estimador B
sesgo
q
Z
Una medida ampliamente utilizada es la media del error cuadrado del estimador, definido
como el valor esperado del cuadrado de las desviaciones del estimador respecto del
verdadero parámetro de la población.
21
Estimadores muestrales de varianza, covarianza y correlación
Varianza:
Estimador:
Covarianza:

var( X )   X2  E  X   X 
2

n
1
2
2


sX 
Xi  X .

n  1 i 1
cov( X ,Y )   XY  E X   X Y  Y 
n
Estimador:
1
 X i  X Yi  Y  .
s XY 

n  1 i 1
22
Estimadores de varianza, covarianza y correlación
Correlación:
r XY 
 XY
 X2  Y2
Estimador:
rXY
s XY
 2 2 
s X sY

1
 X  X Y  Y 

n1
1
1
2
2




X

X
Y

Y


n1
n1
  X  X Y  Y 
  X  X   Y  Y 
2
2
•El coeficiente de correlación de la población rXY para dos variables X y Y es definida por
su covarianza dividida por la raíz cuadrada del producto de sus varianzas.
•El coeficiente de correlación muestral, rXY, se obtiene de reemplazar la covarianza y las
varianzas por sus estimadores.
23
Propiedades de los estimadores: consistencia
Consistencia
Un estimador de la población es consistente si satisface
dos condiciones:
(1) Posee un límite probabilístico (plim), de modo que su
distribución se vuelva un pico conforme el tamaño de
la muestra tienda a infinito, y
(2) El pico de esta distribución se localice en el
“verdadero valor” del parámetro poblacional.
24
Propiedades de los estimadores: consistencia
Función de densidad de
probabilidad de X
n = 5000
0.8
0.6
0.4
0.2
50
100
150
200
En este ejemplo, el estimador cumple con ambas condiciones…
Una condición suficiente de consistencia es que el estimador debe ser insesgado y su
varianza debe tender a cero conforme n se incrementa.
25
Propiedades de los estimadores: consistencia
n = 100000
Función de densidad de
probabilidad de Z
n = 1000
n = 100
n = 20
q
Z
Sin embargo, la condición es suficiente, no necesaria. Es posible que un estimador esté
sesgado en una muestra finita, pero el sesgo disminuye conforme el tamaño de muestra
aumenta.
26
Tamaño de muestra y margen de error
27
Teorema del Límite Central
Si una variable aleatoria X tiene una distribución normal, su media
muestral, X, también tendrá una distribución normal.
Sin embargo, ¿qué ocurre si no conocemos la verdadera
distribución de X? El teorema del límite central resuelve el problema.
El TLC establece que: si las observaciones Xi de una muestra son
obtenidas de manera independiente (aleatoria) de la misma
distribución y, si ésta distribución tiene una media y varianza
poblacional finita  la distribución de X convergerá hacia una
distribución normal.
Es decir, que aunque la distribución de X sea desconocida, la
distribución de sus estimadores muestrales tenderá a ser normal
conforme N aumente.
Esto implica que tanto los estadísticos t como los intervalos de
confianza serán aproximadamente válidos, siempre que la muestra
sea suficientemente grande.
28
Teorema del Límite Central
15
n = 100
10
5
0
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
El gráfico muestra cómo, conforme n aumenta, la distribución de la media de X
converge hacia una distribución normal.
29
Referencias
• Esta presentación sigue a:
“Random variables and sampling theory”, en Dougherty
(2002). Introduction to Econometrics, 2nd ed.
•
•
•
•
Algunos applets relacionados:
A Central Limit Theorem Applet
Sample from a population
Sampling distributions
30