Distribuciones Discretas

Download Report

Transcript Distribuciones Discretas

5. Distribuciones discretas
-¿Qué tal van las clases,
Bartolo? Me pregunta mi
barbero.
-Bien... Dando probabilidad
y estadística... Respondo.
-¡Ah! Probabilidad... Yo
suelo jugar a la lotería...
Dice mientras me pasa la
cuchilla.
-Cuando compro un número, tal y como yo lo veo, hay dos
posibilidades: ganar o perder. De modo que tengo un 50% de
probabilidad de ganar y un 50% de perder.
-¡Muy bien, Ricardo! Respondo, mientras pienso que no es bueno
1
contradecir a nadie que tenga una navaja en mi cuello...
Distribución de Bernoulli
Experimento de Bernoulli: solo son
posibles dos resultados: éxito o fracaso.
Podemos definir una variable aleatoria
discreta X tal que:
éxito  1
fracaso  0
Si la probabilidad de éxito es p y la de fracaso 1 - p,
podemos construir una función de probabilidad:
1 x
P( x)  p (1  p)
x
x  0,1
Un típico experimento de Bernoulli es el lanzamiento de
una moneda con probabilidad p para cara y (1-p) para
cruz.
2
1 x
P( x)  p (1  p)
x
x  0, 1
Función de distribución:
1  p, para x  0
F ( x)  
 1, para x  1
3
Ejercicio: Calcular la esperanza y la varianza
de la distribución de Bernoulli.
1
E[ X ]     x P( X  x) 
x 0
0  P( X  0)  1 P( X  1)  p
1
Var ( X )  E[ X ]  ( E[ X ])   x P( X  x)  p
2
2
2
x 0
 0  P( X  0)  1  P( X  1)  p 
2
2
2
p  p  p(1  p)
2
4
2
Distribución binomial
La distribución binomial aparece cuando estamos
interesados en el número de veces que un suceso
A ocurre (éxitos) en n intentos independientes de
un experimento.
P. ej.: # de caras en n lanzamientos de una moneda.
Si A tiene probabilidad p (probabilidad de éxito) en
un intento, entonces 1-p es la probabilidad de que A
no ocurra (probabilidad de fracaso).
5
Experimento aleatorio: n = 3 lanzamientos de una moneda.
Probabilidad de éxito en cada lanzamiento (cara) = p.
Probabilidad de fracaso en cada lanzamiento (cruz) = 1- p = q.
3 p 2 (1  p)
3 p(1  p) 2
6
Supongamos que el experimento consta de n
intentos y definamos la variable aleatoria:
X = Número de veces que ocurre A.
En nuestro ejemplo: X = Número de veces que sale cara.
Entonces X puede tomar los valores 0, 1, 2, ... n.
Si consideramos uno de estos valores, digamos el
valor x , i.e. en x de los n intentos ocurre A y en n - x
no. Entonces la probabilidad de cada posible
ordenación es pxqn-x y existen  nx  idénticas
 
7
ordenaciones.
La función de probabilidad P(X = x) será
la distribución binomial:
 n x
n!
n x
B(n, p)  p( x)    p (1  p) 
p x (1  p) n x
x!(n  x)!
 x
Distribución binomial para n = 5 y
distintos valores de p, B(5, p)
8
9
Tablero de Galton
o quincunx
Quincunx
Sir Francis Galton
(1822-1911)
10
Ejercicio:
¿Cuál es la probabilidad de que en una familia de 4 hijos
exactamente 2 sean niñas?
n x
p(x)   p ( 1  p)n  x
 x
p  0.5;
n  4; x  2
 4
2
4- 2


p( 2 )    ( 0.5 ) ( 1-0.5 )
 2
11
Ejercicio:
Si una décima parte de personas tiene cierto grupo
sanguíneo, ¿cuál es la probabilidad de que entre 100
personas escogidas al azar exactamente 8 de ellas
pertenezcan a este grupo sanguíneo?
n x
n x


p(x)    p ( 1  p)
 x
p  0.1;
n  100; x  8
100
 ( 0.1 )8( 1-0.1 )92
p( 8 )  
 8 
12
¿Y si la pregunta es 8 como máximo?
n x
p(x  8 )     p ( 1  p)n  x
x 0  x 
8
100
(0.1) x ( 0.9 )100  x
  
x 0  x 
8
13
Calcula la probabilidad de obtener al menos dos seises al
lanzar un dado cuatro veces.
 n  k nk
P(k )    p q
k 
(k  0,1,....n)
p = 1/6, q = 5/6, n = 4
Al menos dos seises, implica que nos valen k = 2, 3, 4.
P(2) + P(3) + P (4)
 4  1 
   
 2  6 
2
 5   4  1 
     
 6   3  6 
2
3
 5   4  1 
     
 6   4  6 
4
1
171
 4 (6  25  4  5  1) 
 0.132
6
1296
14
Ejercicio:
Supongamos que la probabilidad de encontrar una estrella
de masa m* >10 M en un cúmulo estelar joven es del 4%.
¿Cuál es la probabilidad de que en una muestra escogida al
azar, entre 10 miembros del cúmulo encontremos 3 estrellas
con m* >10 M?
n x
p(x)   p ( 1  p)n  x
 x
p  0.04;
n  10; x  3
10
3
10 - 3
p( 3 )    ( 0.04 ) ( 1-0.04 )  0.043 0.967  0.006
3
15
Chuck-a-luck: Elige un número entre 1 y 6. Lanzas 3 dados.
Si el número que has elegido sale en los 3 dados cobras
3 euros. Si sale en 2 cobras 2 euros. Si sale en un dado
cobras 1 euro. Y si no sale en ninguno, pagas 1 euro.
¿Es un juego justo?
 3  1 
    
 3  6 
 3  1 
   
 1  6 
1
3
 3  1 
5
   3    
6
 2  6 
0
2
5
 2
6
 3  5 
5
  1      (1)  0.08
6
 0  6 
2
3
16
Características de la distribución
binomial
Media
= E(X) = n p
= 5 · 0.1 = 0.5
= 5 · 0.5 = 0.25
P(X)
.6
.4
.2
0
n = 5 p = 0.1
X
0
1
2
3
4
5
Desviación estándar
  np(1  p)
  5  0.1 (1  0.1)  0.67
  5  0.5  (1  0.5)  1.1
P(X)
.6
.4
.2
0
n = 5 p = 0.5
X
0
1
2
3
4
5
17
18
Distribución multinomial
Cuando hay más de dos acontecimientos posibles (A1, A2,
A3 ...) con probabilidades p1 , p2 , p3 ... constantes y
tales que:
 pi  1
i
x1 x2 x3
n!
p ( x1 , x 2 , x3 ...) 
p1 . p 2 . p3 ....
x1! x 2 ! x3!..
19
Un método de diagnóstico tiene 3 resultados posibles:
positivo (P), negativo (N) y dudoso (D). Se sabe que, en la
población, el 10% de los sujetos son positivos, el 70%
negativos y el resto dudosos. ¿Qué probabilidad hay de, en
una muestra de 5 individuos, obtener exactamente 1 positivo,
1 negativo y 3 dudosos ?
5!
1
1
3
p(1,3,1) 
0.1  0.7  0.2  0.0112
1!.3!.1!
20
Distribución geométrica
Consideremos el siguiente experimento:
Partimos de un experimento de Bernoulli donde la
probabilidad de que ocurra un suceso es
p (éxito) y la probabilidad de que no ocurra
q = 1- p (fracaso). Repetimos nuestro experimento
hasta conseguir el primer éxito. Definimos la variable
aleatoria X, como el número de fracasos hasta que
se obtiene el primer éxito. Entonces:
G ( p)  P( X  x)  1  p  p,
x
x  0,1, 2, ...
21
p(x)
G( p)  P( X  x)  1  p  p,
x
x  0,1, 2, ...
x
Función de distribución:
n
F (n)   (1  p) p 1  (1  p)
x
n 1
x 0
22
¿Cómo simular de manera sencilla en el ordenador
una variable aleatoria binomial X?
Sumando n variables aleatorias independientes
cuyos valores pueden ser 1 o 0, con probabilidad p
y 1-p respectivamente.
¿Y cómo simular una distribución geométrica de
parámetro p?
Una manera es generar una secuencia de números
aleatorios en [0, 1) con la función rnd, y paramos
cuando obtengamos un número que no exceda a p,
que es el equivalente al primer éxito.
El problema es que si p es pequeño, en promedio se
necesitan 1/p pasos de tiempo y se consume mucho
23
tiempo de cómputo.
Una forma alternativa con tiempo de cómputo
independiente del valor de p sería:
Sea q = 1-p y definamos la variable Y como el menor
entero que satisface:
1  qY  rnd
Entonces tenemos:
i 1
P(Y  i)  P(1  q  rnd  1  q )
i
q
i 1
i 1
i 1
 q  q (1  q)  q p.
i
De modo que Y está distribuida geométricamente
con parámetro p.
24
Para generar Y, basta con que despejemos de:
1  q  rnd
Y
 Ln (1  rnd ) 

Y  int
Ln q


25
26
Un acontecimiento ocurre, en la población, en el 10% de los
casos. ¿Qué tamaño de muestra debo tomar para tener una
probabilidad del 95% de obtener al menos un éxito ?
n
0.95   pq
x1
x 1
q 1
 p.
q 1
n
0.9n  1
0.95  0.1.
 0.95  (0.9n  1)  0.95  0.9n  1
0.9  1
ln 0.05
 0.05  0.9  ln 0.05  n ln 0.9  n 
 28.4  29
ln 0.9
n
27
Distribución binomial negativa
(de Pascal o de Pólya)
Consideremos el siguiente experimento:
Partimos de un experimento de Bernoulli donde la probabilidad
de que ocurra un suceso es p (éxito) y la probabilidad de que
no ocurra q = 1- p (fracaso). Repetimos nuestro experimento
hasta conseguir el r-ésimo éxito. Definimos la variable
aleatoria X, como el número de fracasos x hasta que se
obtiene el r-ésimo éxito. Entonces:
El último tiene que ser un éxito.
 x  r  1 r
x
 p 1  p  ,
BN (r , p)  P( X  x)  
 x 
x  0,1, 2, ...
Se denomina binomial negativa porque los coeficiente provienen de
la serie binomial negativa:
p-x  ( 1-q)-x
28
Distribución binomial negativa
(de Pascal o de Pólya)
La distribución binomial negativa también se puede definir
como el número de pruebas x hasta la aparición de r éxitos.
Como el número de pruebas x, en este caso, contabiliza
tanto los éxitos como los fracasos se tendría según ésta
definición que:
 x  1 r
x r
 p 1  p  ,
BN (r , p)  P( X  x)  
 r  1
x  r, r  1, r  2, ...
29
Disponemos de una moneda trucada con probabilidad de cara
igual a p=0.25. La lanzamos hasta que obtenemos 2 caras.
La distribución del número de lanzamientos x será:
 x  1
x2
2
0.25 1  0.25 ,
BN (r  2, p  0.25)  P( X  x)  
 2  1
x  2,3, 4, ...
P(x)
x
30
Elegir al azar con reemplazo
Elegir al azar con reemplazo significa que escogemos al azar
un elemento de un conjunto y lo regresamos para elegir de nuevo
al azar. Esto garantiza la independencia de las elecciones y nos
lleva a una distribución binomial.
Si una caja contiene N bolas de las cuales A son rojas, entonces
la probabilidad de escoger al azar una bola roja es: p = A/N.
Si repetimos el experimento sacando n bolas con reemplazo la
probabilidad de que x sean rojas es:
 n  A 
P( x)    
 x  N 
x
A

1  
 N
n x
( x  0,1,....n)
(Una distribución binomial)
31
Elegir al azar sin reemplazo
Elegir al azar sin reemplazo significa que no devolvemos
el elemento elegido al azar al conjunto. De modo que las
probabilidades de la siguiente elección dependen de las
anteriores.
Si repetimos el experimento anterior sacando n bolas sin
reemplazo, ¿cuál será ahora la probabilidad de que x sean
rojas?
N
Casos posibles   
n
Para calcular los casos favorables observa que:
N = A + (N – A). De las A bolas rojas tomaremos x y de
las N – A bolas no rojas tomaremos n – x.
32
Distribución hipergeométrica
 A
   diferentesformasde tomarx bolas rojasde A
 x
 N  A

  diferentesformasde tomarn  x bolas no rojas de N  A
 nx 
 A  N  A 

Casos favorables  
 x  n  x 
 A  N  A 
 

x  n  x 

H (n, N , A)  P( x) 
N
 
n
( x  0,1, ..., n)
33
Queremos seleccionar al azar dos bolas de una caja que contiene
10 bolas, tres de las cuales son rojas. Encuentra la función de
probabilidad de la variable aleatoria : X = Número de bolas rojas
en cada elección (con y sin reemplazo).
Tenemos N = 10, A = 3, N - A = 7, n = 2
Escogemos con reemplazo:
 2  3 
p( x)    
 x  10 
x
7
 
 10 
2 x
, p(0)  0.49, p(1)  0.42, p(2)  0.09
Escogemos sin reemplazo:
 3  7 
 

x  2  x 

p( x) 
10
 
2
21
3
p(0)  p(1) 
 0.47, p(2) 
 0.07
45
45
34
Hipergeométrica
N = 24
X=8
n=5
x
0
1
2
3
4
5
P(x)
0.1028
0.3426
0.3689
0.1581
0.0264
0.0013
N = 240
X = 80
n=5
x
0
1
2
3
4
5
P(x)
0.1289
0.3306
0.3327
0.1642
0.0398
0.0038
Binomial
n=5
p = 8/24 =1/3
P(x)
0.1317
0.3292
0.3292
0.1646
0.0412
0.0041
Error
-0.0289
0.0133
0.0397
-0.0065
-0.0148
-0.0028
n=5
p = 80/240 =1/3
P(x)
0.1317
0.3292
0.3292
0.1646
0.0412
0.0041
Error
-0.0028
0.0014
0.0035
-0.0004
-0.0014
-0.0003
Observa que si N,
A, N-A son grandes
comparados con n
no hay gran
diferencia en qué
distribución
empleemos.
La distribución
binomial es una
aproximación
aceptable a la
hipergeométrica
si n < 5% de N.
35
Distribución de Poisson
Cuando en una distribución binomial el número de intentos (n)
es grande y la probabilidad de éxito (p) es pequeña, la
distribución binomial converge a la distribución de Poisson:

e 
p( x) 
, x  0,1,2,...   0
x!
x
donde np = 
Observa que si p es pequeña, el éxito es
un “suceso raro”.
La distribución de Poisson, junto con la uniforme y la
36
binomial, son las distribuciones más utilizadas.
Un proceso poissoniano es aquél compuesto de
eventos discretos que son independientes en el
espacio y/o en el tiempo.
Por ejemplo la llegada de fotones a un detector.
Usemos la distribución binomial para modelar el
proceso. Podemos dividir el intervalo de tiempo en el
que ocurre el proceso en n subintervalos suficientemente
pequeños, como para asegurarnos que a lo sumo se
produce un evento en cada subintervalo. De modo que
en cada subintervalo, o se producen 0 o 1 ocurrencias.
A lo sumo llega un fotón en cada subintervalo o ninguno.
De modo que podemos entender el proceso como un
experimento de Bernoulli. Para determinar p, podemos
razonar de la siguiente manera:
37
En promedio se producirán λt ocurrencias en un intervalo de
tiempo t. Si este intervalo se divide en n subintervalos,
entonces esperaríamos en promedio (usando Bernoulli):
np ocurrencias. Así: λt = np, p = λt / n.
Sin pérdida de generalidad supongamos que t = 1 y que X
es la variable aleatoria = número total de ocurrencias.
Sabemos que:
 
P( X  0)  B(n, p,0)  (1  p)  1  
 n
n
n
Observa que para n grande P(X = 0) es aproximadamente e-λ.
Además para n grande (y por tanto p muy pequeño):
B(n, p, k )
  (k  1) p 


B(n, p, k  1)
k (1  p)
k
38
B(n, p,0)  e
Tenemos entonces
la siguiente ecuación
iterada:
B(n, p, k ) 


k
B(n, p, k  1)
Que nos proporciona:
P( X  1)  B(n, p,1)  e
P( X  2)  B(n, p,2) 

2
2
e 
...
P( X  k ) 
k
k!
e 
39
Bombas sobre Londres en la II Guerra Mundial
(Feller)
Supón que vivías en uno de los 100 bloques que aparecen en la gráfica
inferior. La probabilidad de que una bomba cayera en tu bloque era 1/100.
Como cayeron 400 bombas, podemos entender el número de impactos en tu
bloque como el número de éxitos en un experimento de Bernoulli con n = 400
y p = 1/100. Podemos usar una Poisson con λ=400 1/100=4:
400 bombas
e 4 4 x
p ( x) 
x!
Observado
Predicho
10 x 10
40
Características de la distribución de
Poisson
Media
  E (X )  
Desviación estándar
 
.6
.4
.2
0
X
0

Nota: el máximo de la distribución
se encuentra en x  
= 0.5
P(X)
1
2
3
4
5
= 6
P(X)
.6
.4
.2
0
X
0
2
4
6
8
10
41
La distribución de Poisson se obtiene como aproximación de
una distribución binomial con la misma media, para ‘n grande’
(n > 30) y ‘p pequeño’ (p < 0,1). Queda caracterizada por un
único parámetro μ (que es a su vez su media y varianza).
  n p = 
Distribución de Poisson para varios valores de .
42
Si la probabilidad de fabricar un televisor defectuoso es
p = 0.01, ¿cuál es la probabilidad de que en un lote de 100
televisores contenga más de 2 televisores defectuosos?
La distribución binomial nos daría el resultado exacto:
100
99
98
2
100
100
100

 99 

 99   1  
 99   1 
c



P( A )  
  
 
  
 

 0  100
 1  100  100  2  100  100
 0.9206
 n  x n x
p( x)    p q
 x
( x  0,1,....n)
El suceso complementario Ac: No más de 2 televisores
defectuosos puede aproximarse con una distribución de
Poisson con  = np = 1, sumando p(0) + p(1) + p(2).
1
P( A )  e (1  1  12 )  0.9197
c
μ x μ
p ( x) 
e
x!
( x  0,1,....)
43
La señal promedio recibida en un telescopio de una fuente
celeste es de 10 fotones por segundo. Calcular la probabilidad
de recibir 7 fotones en un segundo dado.
Una distribución de Poisson
con μ = 10.
P(7) = 107 e−10 / 7! = 0.09, es decir
μ x μ
p ( x) 
e
x!
( x  0,1,....)
9%
Parece muy baja. Comparemos con el valor de máxima
probabilidad que ocurrirá para x = 10:
μ = 10
P(10) = 1010 x e−10 / 10! = 0.125, es decir 12.5%
Las probabilidades poissonianas para un número de eventos
dado, son siempre pequeñas, incluso en el máximo de la
distribución de probabilidad.
44
Si en promedio, entran 2 coches por minuto en un garaje, ¿cuál
es la probabilidad de que durante un minuto entren 4 o más
coches?
Si asumimos que un minuto puede dividirse en muchos
intervalos cortos de tiempo independientes y que la probabilidad
de que un coche entre en uno de esos intervalos es p – que para
un intervalo pequeño será también pequeño – podemos
aproximar la distribución a una Poisson con  = np = 2.
El suceso complementario “entran 3 coches o menos” tiene
probabilidad:
2 20
0!
P( A )  p(0)  p(1)  p(2)  p(3)  e (  
c
y la respuesta es 1 – 0.857 = 0.143
22
2!
 )  0.857
μ x μ
p ( x) 
e
x!
( x  0,1,....)
21
1!
23
3!
45
46
Ley de Benford
47
Primer dígito significativo
0,0174
299.959

x   , x  m 10 , 1  m  10
n
d ( x)  m
·105
2,99959
[2,99959] = 2
1,74 ·10-2
[1,74] = 1
48
Las barras negras representan las frecuencias de
aparición como primer dígito significativo
(d = 1,2,3,...,9) en una lista de N = 201 constantes
físicas.
49
Leading digit Probability
1
30.1 %
2
17.6 %
3
12.5 %
4
9.7 %
5
7.9 %
6
6.7 %
7
5.8 %
8
5.1 %
9
4.6 %
En barras blancas aparecen las frecuencias de aparición
como primer dígito de los números 1 a 9 en el tamaño en
bytes de N = 1.295.777 ficheros.
50
Simon Newcomb
(1835-1909).
Note on the frequency of use of the
different digits in natural numbers.
Amer. J. Math. 4 (1881) 39-40.
 d 1
P(d )  log

 d 
51
Frank Benford
The law of anomalous
numbers.
Proc. Am. Philos. Soc.
78 (1938) 551-538.
1
2
3
4
5
6
7
8
9
Sampls
Rivers, Area
31.0
16.4
10.7
11.3
7.2
8.6
5.5
4.2
5.1
335
Population
33.9
20.4
14.2
8.1
7.2
6.2
4.1
3.7
2.2
3259
Constants
41.3
14.4
4.8
8.6
10.6
5.8
1.0
2.9
10.6
104
Newspapers
30.0
18.0
12.0
10.0
8.0
6.0
6.0
5.0
5.0
100
Specific Heat
24.0
18.4
16.2
14.6
10.6
4.1
3.2
4.8
4.1
1389
Pressure
29.6
18.3
12.8
9.8
8.3
6.4
5.7
4.4
4.7
703
H.P. Lost
30.0
18.4
11.9
10.8
8.1
7.0
5.1
5.1
3.6
690
Mol. Wgt.
26.7
25.2
15.4
10.8
6.7
5.1
4.1
2.8
3.2
1800
Drainage
27.1
23.9
13.8
12.6
8.2
5.0
5.0
2.5
1.9
159
Atomic Wgt.
47.2
18.7
5.5
4.4
6.6
4.4
3.3
4.4
5.5
91
,
25.7
20.3
9.7
6.8
6.6
6.8
7.2
8.0
8.9
5000
Design
26.8
14.8
14.3
7.5
8.3
8.4
7.0
7.3
5.6
560
Reader's Digest
33.4
18.5
12.4
7.5
7.1
6.5
5.5
4.9
4.2
308
Cost Data
32.4
18.8
10.1
10.1
9.8
5.5
4.7
5.5
3.1
741
X-Ray Volts
27.9
17.5
14.4
9.0
8.1
7.4
5.1
5.8
4.8
707
Am. League
32.7
17.6
12.6
9.8
7.4
6.4
4.9
5.6
3.0
1458
Blackbody
31.0
17.3
14.1
8.7
6.6
7.0
5.2
4.7
5.4
1165
Addresses
28.9
19.2
12.6
8.8
8.5
6.4
5.6
5.0
5.0
342
,
25.3
16.0
12.0
10.0
8.5
8.8
6.8
7.1
5.5
900
Death Rate
27.0
18.6
15.7
9.4
6.7
6.5
7.2
4.8
4.1
418
Average
30.6
18.5
12.4
9.4
8.0
6.4
5.1
4.9
4.7
1011
Title
Probable Error
52
53
Las barras representan las frecuencias de aparición como primer dígito
de los números 10 a 99 en los N = 1.295.777 ficheros medidos. La línea
continua representa la ley de Benford generalizada para dos dígitos.
54
Invarianza de base y de escala
en la densidad de probabilidad
Theodore Hill
Invarianza de escala
Invarianza de base
No toda lista de números que cumple la Ley de Benford proviene
de una distribución invariante de escala. Pero seguro que es
invariante de base.
55
Procesos multiplicativos
56
 = -1
5 décadas
5 décadas
57
Para una lista de números que siga una distribución de
probabilidad en forma de ley de potencias N-1, tendremos
que la probabilidad del primer dígito significativo es
independiente de la década y sigue la ley de Benford:
10 k ( d 1)

k
10 d




N 1dN  Ln 10k (d  1)  Ln 10k d 
 10k (d  1) 
 d 1
  Ln
Ln 

k
 d 
 10 d 
Normalizando:
 d 1
P(d )  log

 d 
58
The demonstration of Benford’s Law (and also for the distribution of the second
digit) was done in 1996 by Professor Theodore Hill (School of
Mathematics, Center for Applied Probability, Georgia Institute of Technology) in his
article: “A Statistical Derivation of the Significant‐Digit law”.
Hill later showed there was a kind of central limit theorem that applied to a wide
variety of distributions--that combinations of distributions tend towards the
59
distribution predicted by Benford’s law even when the original distributions do not