Distribuciones de probabilidad bidimensionales o conjuntas Si disponemos de dos variables aleatorias podemos definir distribuciones bidimensionales de forma semejante al caso unidimensional.

Download Report

Transcript Distribuciones de probabilidad bidimensionales o conjuntas Si disponemos de dos variables aleatorias podemos definir distribuciones bidimensionales de forma semejante al caso unidimensional.

Distribuciones de probabilidad
bidimensionales o conjuntas
Si disponemos de dos variables aleatorias podemos
definir distribuciones bidimensionales de forma
semejante al caso unidimensional. Para el caso
discreto tendremos:
p(x, y)  P(X  x, Y  y).
Con:
 p( x, y)  1,
x
y
p( x, y)  0.
1
Podemos encontrar la probabilidad marginal de
la variable aleatoria X sumando sobre todos los
posibles valores de la variable aleatoria Y:
p X (x)   p( x, y)
y
Igualmente, podemos encontrar probabilidad
marginal de la variable aleatoria Y sumando
sobre todos los posibles valores de la variable
aleatoria Y:
pY (y)   p( x, y)
x
2
Función de probabilidad condicional
La función de probabilidad condicional de X dado Y = y es:
p(x,y)
p(x|y) 
pY (y)
Y la función de probabilidad condicional de Y dado X = x es:
p(x,y)
p(y|x) 
p X (x)
3
Nota: El punto 2 lo veremos más adelante.
9
La definición para dos variables aleatorias continuas es
semejante:
F(x,y) = P(X  x, Y y).
La densidad de probabilidad f(x,y) se obtiene derivando la
función de probabilidad con respecto a sus argumentos:
 F ( x, y)  F ( x, y)

 f ( x, y)
xy
yx
2
2
Por supuesto:
f ( x, y )  0,
 


f ( x, y )dxdy  1
10
Las densidades de probabilidad marginales y las
probabilidades condicionales se definen de forma
semejante al caso bidimensional discreto sin más que
sustituir sumatorios por integrales. Así:

fY ( y) 
 f ( x, y)dx
f(x,y)
f(x|y) 
fY (y)

f(x,y)
f(y|x) 
f X (x)

f X ( x) 
 f ( x, y)dy

11
Independencia
Ausencia de relación de cualquier tipo entre dos v.a.
Recuerda que dos sucesos, A y B, son independientes si tener información sobre uno
de ellos no influye en el cálculo de prob. del otro, es decir:
P ( A | B )  P ( A)
O equivalentemente, A y B son independientes si y solo si:
P(A  B)  P(B)P(A )
De manera similar se puede definir el concepto de independencia entre v.a.
Sean X e Y dos v.a. (continuas o discretas). X e Y son independientes si y solo si la
distribución de una ellas condicionada por la otra es igual a la marginal de la primera,

f X |Y ( x )  f X ( x ) ó f Y |X ( y )  f Y ( y )
Como en el caso de sucesos, esta definición implica que X e Y son indep. si su
distribución conjunta se puede calcular como el producto de las marginales, es decir:
f XY (x, y)  f X (x) f Y (y)
Distribuciones bidimensionales
e independencia
Los sucesos aleatorios {X = x} e {Y = y} son independientes
si:
P(x, y)  PX (x)  PY (y)
Y entonces, dos variables aleatorias serán independientes
si la relación anterior se cumple para todos los posibles
pares (x,y).
Podremos entonces escribir:
p(x|y) pX (x) y
p(y|x) pY (y)
13
El teorema de Bayes se expresa como:
p X (x) p(y|x)
p(x|y) 
pY ( y )
pY (y) p(x|y)
p(y|x) 
p X (x)
14
paralelo
15
16
17
18
19
20
21
22
23
24
25
Relaciones entre variables
• Cuando construimos modelos, básicamente estamos
relacionando variables con argumentos del tipo: Un
aumento en la variable X está asociado a un
aumento (descenso) de la variable Y.
• Algunos ejemplos
– Existe una relación positiva entre el flujo de inmigrantes a
un país y la renta per capita del país de acogida.
– Existe una relación positiva entre la nota obtenida en
probabilidad y la de estadística.
– Existe una relación negativa entre la tasa de fecundidad y la
tasa de participación femenina.
– No parece que exista ninguna relación entre el volumen de
lluvias en Islandia y la nota del parcial de probabilidad.
Las relaciones entre v.a. pueden
ser de muy distinto tipo: positivas
o negativas (si cuando crece la
una la otra también lo hace y
viceversa), lineales o no lineales,
etc.
También puede ocurrir que no
exista ninguna relación entre dos
v.a.: cuando esto ocurre diremos
que dos v.a. son independientes.
Vamos a describir a continuación
cómo de ‘lineal’ es la relación que
existe entre dos variables: para
ello definimos la covarianza y la
correlación
Y
Relación lineal
positiva
X
Y
Relación no-lineal
X
Y
Sin relación
X
Covarianza
La covarianza mide la manera en que dos variables
aleatorias X e Y varían juntas. En particular mide el
tipo de relación lineal entre las variables aleatorias.
Un valor positivo se interpreta como existencia de
relación lineal positiva entre las v.a. X e Y.
Un valor negativo, apunta a la existencia de una
relación lineal negativa entre las v.a. X e Y.
Cov( X , Y )  E ( X   )(Y   ) 
Con:
  E X    EY 
28
Un valor igual a cero se interpreta como
ausencia de relación lineal.
Pero, ojo: Esto NO es igual a decir que las v.a.
son independientes.
Y
Y
X
X
Las variables No tienen ningún tipo de
O de manera más general, tienen algún
relación, es decir son INDEPENDIENTES tipo de relación que no es lineal.
Se cumple que:
Cov( X , Y )  E  X  Y   
Si X e Y son variables independientes, su covarianza
es cero. Observa que en este caso:
cov(X , Y )  E X  Y     E X EY         0
Puesto que X e Y son variables independientes
Si la covarianza de X e Y es cero, no necesariamente
X e Y son variables independientes.
30
Nota: Aquí está el punto 2 que nos quedaba pendiente.
Propiedades de la covarianza
Si a y b son constantes:
cov( X , X )  var  X 
cov( X , Y )  cov Y , X 
cov(aX , bY )  ab cov  X , Y 
Nota:
Var ( aX  bY )  a 2 Var  X   b2 Var Y   2abCov( X , Y )
32
Otro ejemplo: El equipo X y el equipo Y se enfrentan en un
campeonato. Supón que la distribución de probabilidad
conjunta del número de goles que obtienen es:
Y
X
0
1
2
0
.10
.08
.07
1
0.08
.30
.03
2
.04
.10
.20
¿Existe alguna relación lineal entre el número de goles
marcados por uno y otro equipo? En caso afirmativo, ¿se
trata de una relación estrecha?
Calculemos la correlación entre X e Y.
Para ello tenemos que calcular Cov(X,Y) = E(XY) - E(X)E(Y)
Calculemos E(XY). Para ello calcularemos la función de masa de
probabilidad de la variable aleatoria Z = XY:
XY
0
1
0.37
0.30
P(X=1,Y=1)
2
4
0.13
0.20
P(X=2,Y=2)
P(X=1,Y=2) + P(X=1,Y=2)
E(XY) = 0*0.37 + 1*0.30 + 2*0.13 + 4*0.20 = 1.36
E(X)=1.08; E(Y)=1.09
Por tanto, Cov (X,Y) = 1.36 - 1.08*1.09 = 0.18
Existe una relación lineal positiva entre los goles que marca uno
y otro equipo por partido. Para cuantificar la fuerza de la
relación hay que calcular el coeficiente de correlación.
35
En nuestro último ejemplo:
Var(X) = 0.51, Desviación tip: 0.71
Var(Y) = 0.58, Desviación tip.: 0.76
Por tanto,
CORR(X,Y) = 0.18/(0.71*0.76) = 0.33
El coeficiente de correlación está lejano de cero lo que
confirma que existe una relación lineal positiva significativa
entre los goles marcados por X e Y.
Por otra parte, este valor también está lejano a 1 por lo
que se puede deducir que esta relación lineal no es muy
intensa que digamos...
El coeficiente de correlación
Imagina que la v. a. X = beneficio (medido en millones de
euros) de la empresa X e Y = beneficio en millones de
euros de la empresa Y. Y que sabemos que la
covarianza entre ambas variables aleatorias es:
Cov(X,Y) = -1.8
Si expresáramos lo mismo en euros, en vez de en
millones de euros, tendríamos:
Cov(X*1.000.000,Y*1.000.000)=1000.000.000.000*(-1.8)
La covarianza depende de las unidades en que medimos
las variables. Por tanto, NO podemos utilizarla para
medir la intensidad de la relación lineal.
El coeficiente de correlación estandariza la covarianza de
manera que no dependa de las unidades en que estamos
midiendo.
 (X, Y) 
Definición:
Cov( X , Y )
 x y
Es fácil ver que esta medida ya no depende de las unidades.
En el ejemplo anterior:
 (10 6 X ,10 6 Y ) 

6
10 * 10
6
10 2*610 2*6
1
cov(10 6 X ,10 6 Y )
Var (10 6 X )Var (10 6 Y )
cov( X , Y )
Var ( X )Var (Y )
Propiedades del coeficiente de correlación
•
No depende de las unidades
•
Siempre está entre –1 y 1.
Este resultado deriva de la conocida desigualdad de
Schwartz. Para toda v.a Z y V,
[ E ( ZV )]2  E ( Z 2 ) E (V 2 )
Llamando: Z = X-E(X) y V = Y-E(Y) y tomando raíces
cuadradas:
  x y  cov( X , Y )   x y
Interpretación
CORR(X,Y) = 1. Existe una relación lineal
exacta entre X e Y, y la pendiente de la
recta es positiva:
0< CORR(X,Y) <1, relación lineal + entre X
e Y, más intensa cuanto más cercana a
1.
CORR(X,Y) = 0, ausencia de relación lineal.
-1< CORR(X,Y) <0, relación lineal (-) entre
X e Y, más intensa cuanto más cercana
a -1
CORR(X,Y) = -1, existe una relación lineal
(-) exacta entre X e Y.
Resumen del formulario:
41
42
43
Son normales
44
Si f(x,y) es una función de densidad no normal bidimensional, entonces
no necesariamente fx(x) y fy(y) no son normales:
45
46
47
48
49
50
51
Transformación de variables
aleatorias bidimensionales
Dada una variable bidimensional (X, Y), con función densidad
de probabilidad conjunta f(x, y) y una transformación biunívoca:
U = u(X, Y),
V = v(X, Y)
la función de densidad de probabilidad conjunta de la nueva
variable aleatoria bidimensional (U, V) será:
g(u, v) = f(x(u,v), y(u,v)) |J|
con:
x
J  u
y
u
x u
v  x
y
v
v
x
u
y
v
y52
1
Ejemplo de transformación bidimensional
Sean x,y dos números aleatorios generados por distribuciones
normales tipificadas N(0,1). Si son independientes, su distribución
sobre un plano será:
 x2  1
 y2  1
 (x2  y2 ) 
1
P( x, y) 
Exp  
Exp   
Exp

2
2
2

2
2

 2




Hagamos una transformación a coordenadas polares (R,θ).
Con d = R2 = x2 + y2 :
( x, y)
1 1
P( d ,  ) 
P( x, y) 
Exp(d / 2)
 (d ,  )
2 2
que es equivalente al producto de una distribución exponencial de
vida media 2, y una distribución uniforme definida en el intervalo
[0,2π].
54
(Press et al., “Numerical Recipes”)
Transformación de Box-Müller:
¿Cómo conseguir una distribución normal bidimensional
a partir de una uniforme?
Sean dos números aleatorios u1, u2 derivados de una
distribución uniforme. Se realizan las transformaciones:
R 2  2 ln u1
x  R cos   2 ln u1 cos(2 u2 )
  2 u2
y  R sin    2 ln u1 sin(2 u2 )
demuestra que nos llevan a dos números aleatorios x,y
cuya probabilidad sigue una distribución normal.
Puesto que las transformaciones dependen de funciones
trigonométricas, no son muy eficientes para el cálculo
61
computacional.
(Press et al., “Numerical Recipes”)
(−1,1)
Para hacer el algoritmo de Box-Müller
más rápido se definen las variables:
v1 =2u1−1
v2 =2u2−1
Se generan números hasta que
(v1,v2) se encuentre dentro del
círculo de radio R = 1.
(1,1)
R
θ v2
v1
(−1,−1)
(1,−1)
  2 ln d 
x  v1

 d 
1/ 2
  2 ln d 
y  v2 

 d 
1/ 2
para d ≤ 1.
v1
v1
cos   2
R (v1  v 22 )1/ 2
v2
v2
sin  
 2
R (v1  v 22 )1/ 2
Estas transformaciones modificadas
son más eficientes en el cálculo.
62
(Press et al., “Numerical Recipes”)
63
64