5. Distribuciones discretas -¿Qué tal van las clases, Bartolo? Me pregunta mi barbero. -Bien...

Download Report

Transcript 5. Distribuciones discretas -¿Qué tal van las clases, Bartolo? Me pregunta mi barbero. -Bien...

5. Distribuciones discretas

-

¿Qué tal van las clases, Bartolo?

Me pregunta mi barbero.

-

Bien... Dando probabilidad y estadística...

Respondo.

-

¡Ah! Probabilidad... Yo suelo jugar a la lotería...

Dice mientras me pasa la cuchilla.

-

Cuando compro un número, tal y como yo lo veo, hay dos posibilidades: ganar o perder. De modo que tengo un 50% de probabilidad de ganar y un 50% de perder.

-¡Muy bien, Ricardo!

Respondo, mientras pienso que no es bueno contradecir a nadie que tenga una navaja en mi cuello... 1

Distribución de Bernoulli

Experimento de Bernoulli

: solo son posibles dos resultados: éxito o fracaso. Podemos definir una variable aleatoria discreta

X

tal que: éxito  1 fracaso  0 Si la

probabilidad de éxito

es

p

y la de

fracaso 1 - p

, podemos construir una función de probabilidad:

P

(

x

) 

p x

( 1 

p

) 1 

x x

 0 , 1 Jacob Bernoulli Un típico experimento de Bernoulli es el lanzamiento de una moneda con probabilidad p para cara y (1-p) para cruz.

2

P

(

x

) 

p x

( 1 

p

) 1 

x x

 0 , 1 Veremos, más adelante, que la distribución de Bernoulli es un caso particular de la distribución Binomial con n = 1.

Función de distribución:

F

(

x

)  1  1 ,

p

, para

x

 para

x

 1 0 3

Ejercicio: Calcular la esperanza y la varianza de la distribución de Bernoulli.

E

[

X

0

]

P

(

X

   

0 )

1

x

  0 

1

x P

(

X P

(

X

 

1 )

x

)

 

p Var

(

X

)   0 2 

P

(

X E

[

X

2 ]  (

E

[

X

]) 2  0 )  1 2 

P

(

X

x

1   0

x

2  1 ) 

p

2 

P

(

X

x

) 

p

2

p

p

2 

p

( 1 

p

) 4

Distribución geométrica

Consideremos el siguiente experimento: Partimos de un experimento de Bernoulli donde la probabilidad de que ocurra un suceso es

p

(éxito)

y la probabilidad de que no ocurra

q = 1- p (fracaso)

. Repetimos nuestro experimento hasta conseguir el primer aleatoria X, como el éxito. Definimos la variable

número de fracasos hasta que se obtiene el primer éxito

. Entonces:

G

(

p

) 

P

(

X x

 0

,

1

,

2

, ...

x

)   1 

p

x p

, 5

p(x)

G

(

p

) 

P

(

X x

 0

,

1

,

2

, ...

x

)   1 

p

x p

, x Función de distribución:

F

(

n

) 

x n

  0 ( 1 

p

)

x p

 1  ( 1 

p

)

n

 1

E

(

X

)  1

Var

(

X

) 

p

1 

p

2

p

The geometric distribution Y is a special case of the negative binomial distribution, with r = 1.

6

The probability distribution of the number X of Bernoulli trials needed to get one success, supported on the set { 1, 2, 3, ...} The probability distribution of the number Y = X − 1 of failures before the first success, supported on the set { 0, 1, 2, 3, ... } La probabilidad de que una muestra de aire contenga una molécula rara es 0.01. Si se supone que las muestras son independientes respecto a la presencia de la Determine molécula.

cuál es la probabilidad de que sea necesario analizar 125 muestras antes de detectar una molécula rara.

fx

(125;0.01) 0.01

 0.0029

Distribución binomial

La distribución binomial aparece cuando estamos interesados en el

número de veces que un suceso

A

ocurre (éxitos) en n intentos independientes de un experimento

.

P. ej.: # de caras en n lanzamientos de una moneda.

Si

A

tiene probabilidad

p

(probabilidad de éxito)

intento, entonces

1-p

es la probabilidad de que

A

ocurra

(probabilidad de fracaso)

.

en un no 10

Experimento aleatorio:

n = 3

lanzamientos de una moneda.

Probabilidad de éxito en cada lanzamiento (cara) =

p

.

Probabilidad de fracaso en cada lanzamiento (cruz) =

1- p = q

.

3

p

2 ( 1 

p

) 3

p

( 1 

p

) 2 11

Supongamos que el experimento consta de

n

intentos y definamos la variable aleatoria:

X = Número de veces que ocurre A.

En nuestro ejemplo:

X

= Número de veces que sale cara.

Entonces

X

puede tomar los valores 0, 1, 2, ...

n.

Si consideramos uno de estos valores, digamos el valor

x

, i.e. en

x

de los

n

intentos ocurre

A

y en

n - x

no. Entonces la probabilidad de cada posible ordenación es ordenaciones.

p

x

q

n-x

y existen idénticas

n x

 12

La función de probabilidad

P

(

X = x

) será

la

distribución binomial

:

B

(

n

,

p

) 

p

(

x

)   

n x

 

p x

( 1 

p

)

n

x

n

!

x

!

(

n

x

)!

p x

( 1 

p

)

n

x

Distribución binomial para

n

= 5 y distintos valores de

p, B(5, p)

13

The binomial distribution is frequently used to model the number of successes in a sample of size n drawn with replacement from a population of size N. If the sampling is carried out without replacement, the draws are not independent and so the resulting distribution is a hypergeometric distribution, not a binomial one. However, for N much larger than n, the binomial distribution is a good approximation, and widely used.

14

Características de la distribución binomial

Media

 = E(X) =

n p

 =

5 · 0.1

=

0.5

 =

5 · 0.5

=

0.25

Desviación estándar

 

np

( 1 

p

)     5  0 .

1  ( 1  0 .

1 )  0 .

67 5  0 .

5  ( 1  0 .

5 )  1 .

1

.6

P(X) .4

.2

0 0

n

= 5

p

= 0.1

1 2 3 4 5 X .6

P(X) .4

.2

0 0

n

= 5

p

= 0.5

1 2 3 4 5 X

16

18

Tablero de Galton o quincunx

Comprar un quincux: http://www.qualitytng.com/.

Applets: http://www.jcu.edu/math/isep/Quincunx/Qui ncunx.html

Quincunx Sir Francis Galton (1822-1911 )

La vida y la obra de Galton , así como el contexto histórico en que se desarrollaron, está muy bien explicado en el libro de Stigler: "The History of Statistics" (cap. 8).

¿Cuál es la probabilidad de que en una familia de 4 hijos exactamente 2 sean niñas?

p

(

x

)   

n x

 

p x

( 1 

p

)

n

x p

 0

.

5

; n

 4

; x

 2

p

( 2 )    4 2   0

.

5 2 ( 1

-

0

.

5 ) 4

-

2 Si una décima parte de personas tiene cierto grupo sanguíneo, ¿cuál es la probabilidad de que entre 100 personas escogidas al azar, exactamente 8 de ellas pertenezcan a este grupo sanguíneo? ¿Y si la pregunta es 8 como máximo?

p

(

x

)   

n x

 

p x

( 1 

p

)

n

x p

 0

.

1

; n

 100

; x

 8

p

( 8 )    100 8   0

.

1 8 ( 1

-

0

.

1 ) 92

p

(

x

 8 )  

x

8   0  

n x

 

p x

( 1 

x

8   0   100

x

  0 .

1

x

 0 .

9 100 

x p

)

n

x

20

Calcula la probabilidad de obtener al menos dos seises al lanzar un dado cuatro veces.

P

(

k

)   

n k

 

p k q n

k

(

k

 0 , 1 ,....

n

)

p =

1/6,

q =

5/6,

n

= 4 Al menos dos seises, implica que nos valen k = 2, 3, 4.

P

(2)

+ P

(3)

+ P

(4)    4  2   1 6 2 5 6 2    4  3   1 6  3 5 6    4  4   1 6  1 6 4 ( 6  25  4  5  1 )  171 1296  0 .

132 4 21

Supongamos que la probabilidad de encontrar una estrella de masa m * >10 M  en un cúmulo estelar joven es del 4%. ¿Cuál es la probabilidad de que en una muestra escogida al azar, entre 10 miembros del cúmulo encontremos 3 estrellas con m * >10 M  ?

22

Chuck-a-luck

: Elige un número entre 1 y 6. Lanzas 3 dados. Si el número que has elegido sale en los 3 dados cobras 3 euros. Si sale en 2 cobras 2 euros. Si sale en un dado cobras 1 euro. Y si no sale en ninguno, pagas 1 euro. ¿Es un juego justo?

    3  3   1 6    3 1    1 6  1 3 5 6 5 6 0  3    3  2   1 6 2  1    3  0   5 6 3 2 5 6  2  (  1 )   0 .

08 28

NACIMIENTO DE LA TEORIA DE PROBABILIDADES Hay dos jugadores jugando a un juego, donde el primer jugador gana con probabilidad p cada partida. El total de lo apostado es ganado por el jugador que gana por primera vez N partidas. Supongamos que el primer jugador ha ganado k partidas y el segundo j y se interrumpe el juego: ¿Cómo debe dividirse el total entre ambos jugadores?

Debemos calcular la probabilidad de que el primer jugador gane N - k juegos, antes de que el segundo gane N - j.

P

N n

   

j

0 1  

N N

k

k

n

 

p N

k

( 1 

p

)

n

Blaise Pascal

1623 - 1662 De modo que el primer jugador debería llevarse un porcentaje P del premio y el segundo (1-P).

29

Distribución multinomial

Podemos generalizar la distribución binomial cuando hay más de dos acontecimientos posibles (A 1 , A 2 , A 3 ...) con probabilidades

p 1

,

p 2

,

p 3 ...

constantes y tales que: 

i p i

 1

p

(

x

1 ,

x

2 ,

x

3 ...) 

n

!

x

1 !

x

2 !

x

3 !..

p

1

x

1 .

p

2

x

2 .

p

3

x

3 ....

30

Un método de diagnóstico tiene 3 resultados posibles: positivo (P), negativo (N) y dudoso (D). Se sabe que, en la población, el 10% de los sujetos son positivos, el 70% negativos y el resto dudosos. ¿Qué probabilidad hay de, en una muestra de 5 individuos, obtener exactamente 1 positivo, 1 negativo y 3 dudosos ?

p

( 1 , 3 , 1 )  5 !

1 !.

3 !.

1 !

0 .

1 1  0 .

7 1  0 .

2 3  0 .

0112 31

32

¿Cómo simular de manera sencilla en el ordenador una variable aleatoria

binomial

X?

Sumando n variables aleatorias independientes cuyos valores pueden ser 1 o 0, con probabilidad p y 1-p respectivamente. ¿Y cómo simular una

distribución geométrica

parámetro p? de Una manera es generar una secuencia de números aleatorios en [0, 1) con la función rnd, y paramos cuando obtengamos un número que no exceda a p, que es el equivalente al primer éxito. El problema es que si p es pequeño, en promedio se necesitan 1/p pasos de tiempo y se consume mucho tiempo de cómputo. 33

Una forma alternativa con tiempo de cómputo independiente del valor de p sería: Sea q = 1- p y definamos la variable Y como el menor entero que satisface: 1 

q Y

rnd

Entonces tenemos:

P

(

Y

i

) 

P

( 1 

q i

rnd

 1 

q i

 1 ) 

q i

 1 

q i

q i

 1 ( 1 

q

) 

q i

 1

p

.

De modo que Y está distribuida geométricamente con parámetro p.

34

Para generar Y, basta con que despejemos de: 1 

q Y

rnd Y

 int  

Ln

( 1 

rnd

)

Ln q

  35

Un acontecimiento ocurre, en la población, en el 10% de los casos. ¿Qué tamaño de muestra debo tomar para tener una probabilidad del 95% de obtener al menos un éxito ?

0 .

95 

x n

  1

pq x

 1 

p

q n q

 1  1 0 .

95  0 .

1  0 .

9

n

 1 0 .

9  1  0 .

95   ( 0 .

9

n

 1 )  0 .

95   0 .

9

n

 1  0 .

05   0 .

9

n

 ln 0 .

05 

n

ln 0 .

9 

n

 ln 0 .

05  28 .

4  29 ln 0 .

9 36

Distribución binomial negativa

Consideremos el siguiente experimento: Partimos de un experimento de Bernoulli donde la probabilidad de que ocurra un suceso es

p

(éxito)

y la probabilidad de que no ocurra

q = 1- p (fracaso)

. Repetimos nuestro experimento

hasta conseguir el r ésimo éxito

. Definimos la variable aleatoria

X

, como el número de fracasos obtiene el r ésimo éxito. Entonces:

x

hasta que se El último tiene que ser un éxito.

BN

(

r

,

p

) 

P

(

X

x

)   

x

r x

 1  

p r

 1 

p

x

,

x

 0

,

1

,

2

, ...

Se denomina binomial negativa porque los coeficiente provienen de la serie binomial negativa:

p -x

 ( 1

-q

)

-x

37

Distribución binomial negativa

(de Pascal o de Pólya)

La distribución binomial negativa también se puede definir como el número de pruebas

x

hasta la aparición de

r

éxitos. Como el número de pruebas

x,

tanto los éxitos como los fracasos se tendría según ésta definición que: en este caso, contabiliza

BN

(

r

,

p

) 

P

(

X x

r, r

 1

,

x

)   

x r

  1 1  

p r

 1 

r

 2 ,

...

p

x

r

,  

r

(1 

p

)

p

2 38

Disponemos de una moneda trucada con probabilidad de cara igual a p=0.25. La lanzamos hasta que obtenemos 2 caras. La distribución del número de lanzamientos

x

será:

BN

(

r

 2 ,

p

 0 .

25 ) 

P

(

X

x

)   

x

2   1 1   0 .

25 2  1  0 .

25 

x

 2 ,

x

 2

,

3

,

4 ,

...

P(x) 39 x

Una aeronave tiene 3 computadoras idénticas. Sólo una de ellas se emplea para controlar la nave, las otras 2 son de reserva, redundantes, por si falla la primera. Durante una hora de operación la probabilidad de fallo es 0.0005.

– ¿Cuál es el tiempo promedio de fallo de las tres computadoras?

– ¿Cuál es la probabilidad de que las 3 fallen durante un vuelo de 5 horas?

a)  3/ 0.0005

 6000

h

b)  5)  0.0005

3  3    4)    5)   9

Elegir al azar con reemplazo

Elegir al azar con reemplazo significa

que escogemos al azar un elemento de un conjunto y lo regresamos para elegir de nuevo al azar. Esto garantiza la

independencia de las elecciones

lleva a una

distribución binomial

.

y nos Si una caja contiene

N

bolas de las cuales

A

son rojas, entonces la probabilidad de escoger al azar una bola roja es:

p = A/N.

Si repetimos el experimento sacando

n

bolas con reemplazo la probabilidad de que

x

sean rojas es:

P

(

x

)

  

n

x

 

A N x

1

A N n

x

(

x

0 , 1 ,....

n

)

44 (Una distribución binomial)

Elegir al azar sin reemplazo

Elegir al azar sin reemplazo

significa que no devolvemos el elemento elegido al azar al conjunto. De modo que las probabilidades de la siguiente elección dependen de las anteriores. Si repetimos el experimento anterior sacando

n

bolas sin reemplazo, ¿cuál será ahora la probabilidad de que

x

sean rojas?

Casos posibles

  

N n

  Para calcular los casos favorables observa que:

N = A + (N – A).

las

N – A

De las

A

bolas rojas tomaremos bolas no rojas tomaremos

n – x.

x

y de 45

Distribución hipergeométrica

 

A x

   diferentes formas de tomar

x

bolas rojas de

A

 

N n

 

x A

   diferentes formas de tomar

n

x

bolas no rojas de

N

A

Casos favorables   

A x

   

N n

 

x A

 

H

(

n

,

N

,

A

) 

P

(

x

)   

A x

     

N n N n

   

x A

  (

x

 0 , 1 , ..., 46

n

)

Queremos seleccionar al azar dos bolas de una caja que contiene 10 bolas, tres de las cuales son rojas. Encuentra la función de probabilidad de la variable aleatoria :

X = Número de bolas rojas en cada elección (con y sin reemplazo).

Tenemos

N

= 10,

A =

3,

N - A =

7,

n

= 2 Escogemos con reemplazo:

p

(

x

)    2 

x

  3 10

x

7 10 2 

x

,

p

( 0 )  0 .

49 ,

p

( 1 )  0 .

42 ,

p

( 2 )  0 .

09 Escogemos sin reemplazo:

p

(

x

)    3

x

    2 7 

x

 

p

( 0 )    10 2  

p

( 1 )  21  45 0

.

47

, p

( 2 )  3 45  0 .

07 47

Se debe seleccionar 2 miembros de un que asistan a una comité, entre 5, para convención. Suponga que el comité está formado por 3 mujeres y 2 hombres. Determine la probabilidad de seleccionar 2 mujeres al azar: Tenemos N = 5, n = 2, A = 3 y x = 2:

f

(2)  3 2 0 5    3 10  0.3

x

0 1 2 3 4 5

x

0 1 2 3 4 5

Hipergeométrica N = 24 X = 8 n = 5 Binomial n = 5 p = 8/24 =1/3 P(x)

0.1028

0.3426

0.3689

0.1581

0.0264

0.0013

N = 240 X = 80 n = 5 P(x)

0.1317

0.3292

0.3292

0.1646

0.0412

0.0041

n = 5 p = 80/240 =1/3 P(x)

0.1289

0.3306

0.3327

0.1642

0.0398

0.0038

P(x)

0.1317

0.3292

0.3292

0.1646

0.0412

0.0041

Error

-0.0289

0.0133

0.0397

-0.0065

-0.0148

-0.0028

Error

-0.0028

0.0014

0.0035

-0.0004

-0.0014

-0.0003

Observa que si

N, A, N-A

son grandes comparados con

n

no hay gran diferencia en qué distribución empleemos. La distribución binomial es una aproximación aceptable a la hipergeométrica si

n

< 5% de

N

. 49

Distribución de Poisson

Cuando en una distribución binomial el número de intentos (

n

) es grande y la probabilidad de éxito (

p

) es pequeña, la distribución binomial converge a la distribución de Poisson:

p

(

x

) 

e

  

x x

!

,

x

 0

,

1

,

2

, ...

  0 donde

np =

 Observa que si p es pequeña, el éxito es un “suceso raro”.

La distribución de Poisson, junto con la uniforme y la binomial, son las distribuciones más utilizadas. La distribución de Poisson expresa, a partir de una frecuencia de ocurrencia media  , la probabilidad que ocurra un determinado número de eventos durante cierto periodo de tiempo.

51

Considera los siguientes experimentos: • El

n úmero de clientes

que llegan a la

ventanilla de un banco a la hora

. • El número de

pacientes

que ingresan en

un día por urgencias

en un hospital. • El número de

denuncias

que se presentan

diariamente en un juzgado

.

• El número de

coches

que circulan por

una rotonda a la hora

.

Las v.a. definidas en los ejemplos anteriores comparten las siguientes caracter ísticas: • • • Todas ellas se refieren a

contar el n úmero de veces que un determinado suceso ocurre en un periodo de tiempo determinado

.

La probabilidad de que dicho suceso ocurra es la misma a lo largo del tiempo.

(si la unidad de tiempo es un d ía, la probabilidad de que el suceso en cuesti ón ocurra es la misma para hoy, para mañana, etc.)

El n úmero de sucesos que ocurren en una unidad de tiempo es independiente del número de sucesos que ocurren durante cualquier otra unidad

.

Distribución de Poisson

Consideramos una v.a. X que cuenta el

unidad número de veces que un determinado suceso ocurre en una

(normalmente de tiempo o de espacio). Si verifica: 1) La probabilidad de que el suceso estudiado se produzca en la unidad es constante a lo largo del tiempo. 2) El número de veces que ocurre un suceso durante la unidad considerada es independiente del número de veces que ocurre dicho suceso en otra unidad.

3) Si se considera una unidad inferior (superior), la probabilidad de que ocurra un determinado número de sucesos se reduce (aumenta) proporcionalmente.

Entonces X es una v.a.

que sigue una distribución de Poisson.

Ejemplo: Poisson Sea X el número de clientes que han entrado en una tienda de alimentación a lo largo de un mes. Para poder suponer que X sigue una distribución de tendríamos que verificar que: 1)

La probabilidad de entrar en la tienda es la misma a lo largo del periodo

(suponemos entonces, que no han abierto/cerrado otras tiendas de la competencia, etc). Esto es equivalente a comprobar que el número medio de clientes en un mes es más o menos constante.

2) Además tiene que ocurrir que

el número de clientes en un determinado mes

, por ejemplo, octubre, sea

independiente del número de clientes que hubo en otro mes

, por ejemplo, septiembre. (En este caso sería suponer que no hay clientela fija).

3) Supongamos que el

número medio de clientes es 400 al mes

. Entonces si X es Poisson se ha de cumplir que el número medio de clientes a los

dos meses es 800

y el número medio de clientes

a la semana es 100

.

Características de la distribución de Poisson

p

(

x

) 

e

  

x x

!

,

x

 0

,

1

,

2

, ...

  0

Media

   

Desviación estándar

  

.6

P( X ) .4

.2

0 0 1



= 0.5

2 3



= 6 4 5 X

Nota: el máximo de la distribución se encuentra en x  

.6

P( X ) .4

.2

0 0 2 4 6 8 X 10

55

La distribución de Poisson se obtiene como aproximación de una distribución binomial con la misma media, para ‘n grande’ (n > 30) y ‘p pequeño’ (p < 0,1). Queda caracterizada por un único parámetro μ (que es a su vez su media y varianza).

  

np

= 

La distribución de Poisson es asimétrica, siendo en general más probables los valores pequeños de la variable que los mayores (normalmente se asocia a procesos que ocurren muy pocas veces). Sin embargo, si  crece, la distribución tiende a la simetría.

Distribución de Poisson para varios valores de  .

56

El n úmero medio de aviones que usan una pista de aterrizaje en un aeropuerto es 2 cada media hora. Suponiendo que siguen una ley de Poisson, ¿cuál es la probabilidad de que el número de llegadas sea 5 o mayor?

¿Cuál es la probabilidad de que en un cuarto de hora aterrizen más de 4 aviones?

P(X

5)

= 1 - [P(0) + P(1) + P(2) + P(3) + P(4)] = 1 - [

e

-2 +2 ·

e

-2 +2 2 ·

e

-2 /2 + 2 3 ·

e

-2 /6 + 2 4 ·

e

-2 /24] = .052.

Sea Y el n úmero de aviones que aterrizan en esa pista cada cuarto de hora. Entonces Y es una Poisson de parámetro 1: Por tanto, P( Y > 4) = P(Y

5)

= 1 - [P(Y=0) + P(Y=1) + P(Y=2) + P(Y=3) + P(Y=4)] =1 - [

e

-1 +1 ·

e

-1 +1 2 ·

e

-1 /2 + 1 3 ·

e

-1 /6 + 1 4 ·

e

-1 /24] =...

Si la probabilidad de fabricar un televisor defectuoso es

p =

0.01, ¿cuál es la probabilidad de que en un lote de 100 televisores contenga más de 2 televisores defectuosos?

La distribución binomial nos daría el resultado exacto:

P

(

A c

)    100 0    99 100  100    100 1    99 100  0 .

9206 99 1 100    100 2    99 100

p

(

x

)   

n x

 

p x q n

x

(

x

 0 , 1 ,....

n

) 98 1 100 2 El suceso complementario

A c : No más de 2 televisores defectuosos

puede aproximarse con una distribución de Poisson con  =

np

= 1, sumando p(0) + p(1) + p(2).

P

(

A c

) 

e

 1 ( 1  1  1 2 )  0 .

9197

p

(

x

)  μ x

x

!

e

 μ (

x

 0 , 1 ,....) 58

59

Bombas sobre Londres en la II Guerra Mundial (Feller)

Supón que vivías en uno de los 100 bloques que aparecen en la gráfica inferior. La probabilidad de que una bomba cayera en tu bloque era 1/100. Como cayeron 400 bombas, podemos entender el número de impactos en tu bloque como el número de éxitos en un experimento de Bernoulli con n = 400 y p = 1/100. Podemos usar una Poisson con λ = 400  1/100 = 4: 400 bombas

p

(

x

) 

e

 4 4

x x

!

Observado Predicho 60 10 x 10

Muertos por coz de caballo

La explicación de cómo se interpreta la frecuencia acumulada queda mucho más clara si se tienen los datos desglosados por año y regimiento, tal como aparecen en la publicación original de Bortkiewicz . La tabla de la parte superior contiene los muertos por regimiento y año. En el regimiento G (primera fila) no murió nadie en el año 75, murieron 2 en el 76, otros 2 en el 77… En total hay 144 casillas que tienen un cero (una rayita), 91 casillas que tienen un 1, 32 casillas que tienen un 2… Para tener el valor medio de muertos por casilla hay que ver que el total de muertos es: 1 ×91+2×32+3×11+4×2=196. Como hay 280 casillas, el número medio de muertos por casilla es 196/280=0,7. Con este valor medio y aplicando la fórmula de la distribución de Poisson se tiene que: -Probabilidad de 0 muertos = 0,4966 -Probabilidad de 1 muerto = 0,3476 ; etc.

Una vez se tienen las probabilidades, multiplicando por 280 se tienen los valores esperados.

Cuando escribí el libro busqué los datos originales pero no los encontré. Reproduje la tabla tal como la vi en el texto de Bulmer, ahora veo que es muy parecida a la que aparece en el original (parte central de la página). Hay algo que no entiendo (mi alemán = 0): lo que parece la columna de valores esperados no coincide con los resultados que se obtienen. No sé si se está calculando otra cosa o hay algún error de cálculo o de redondeo. El texto completo se puede descargar aquí .

Goles en la liga española

Cuando escribí esto la última temporada de la que se tenían los datos completos era la 2008-09. El mejor resumen de resultados lo encontré en La Vanguardia del 1 de junio del 2009 partido. Los datos y gráficos obtenidos, en formato Minitab, están aquí .

. También se tiene una buena aproximación si en vez de goles por equipo se toma como variable los goles por Pere Grima, «La certeza absoluta y otras ficciones» RBA 61

El perímetro torácico de los soldados

Las aportaciones de Quetelet y su estudio sobre el torax de los soldados están en el libro de Ian Hacking: "La domesticación del azar", cap. 13. La cita que se reproduce está en la página 164. [ Arriba ]

Ley de Stigler de los Epónimos

Stigler lo explica en el capítulo 14 de su libro: "Statisitcs on the Table". Hay una lista de ejemplos en la wikipedia: http://en.wikipedia.org/wiki/List_of_examples_of_Stigler%27s_law Pere Grima, «La certeza absoluta y otras ficciones» RBA 62

Relación entre las distribuciones Poisson y Binomial

La distribución de Poisson es una aproximación de la distribución Binomial cuando n es muy grande y p es pequeño En estos casos, podremos usar tanto la distribución de Poisson como la binomial para calcular estas probabilidades. ¿Cómo?

Veamos un ejemplo: La probabilidad de que en una página de un libro haya una errata es 0.02. ¿Cuál es la probabilidad que en libro de 200 páginas haya 3 erratas?

Sea X = número de erratas en el libro.

Lo podemos interpretar como una binomial, entonces X es B(200,0.02).

Por tanto la prob. que nos piden:

P

(

X

 3 )    200 3   0.02

3  0.98

197  0 .

1973

También podríamos calcularlo usando la distribución de Poisson.

Fíjate que E(X) = np = 200*0.02 = 4. En la distribución de Poisson , el parámetro  representa la esperanza de la variable, por tanto, para calcular la aproximación, consideramos X sigue una distribución P( 4 ), entonces:

P

(

X

 3 )  4 3

e

 4 / 3 !

 0 .

1954 Por tanto, una distribución binomial se puede aproximar por una distribución de Poisson (es decir, las prob. calculadas a partir de una u otra fórmula son muy parecidas) si n es grande (consideramos n grande si n es mayor que 100) y p pequeño, de manera que np < 10

Un

proceso poissoniano

es aquél compuesto de eventos discretos que son

independientes en el espacio y/o en el tiempo

.

Por ejemplo la llegada de fotones a un detector.

Usemos la distribución binomial para modelar el proceso. Podemos

dividir el intervalo de tiempo en el que ocurre el proceso en n subintervalos suficientemente pequeños

, como para asegurarnos que

a lo sumo se produce un evento en cada subintervalo

. De modo que en cada subintervalo, o se producen 0 o 1 ocurrencias.

A lo sumo llega un fotón en cada subintervalo o ninguno.

De modo que podemos entender el proceso como un

experimento de Bernoulli

. Para

determinar p

, podemos razonar de la siguiente manera: 66

En promedio se producirán

λt ocurrencias en un intervalo de tiempo t

. Si este intervalo se divide en

n subintervalos

, entonces esperaríamos en promedio (usando Bernoulli):

np ocurrencias

. Así: λt = np, p = λt/n.

Sin pérdida de generalidad supongamos que t = 1 (p = λ/n) y que X es la variable aleatoria X = número total de ocurrencias.

Sabemos que:

P

(

X

 0 ) 

B

(

n

,

p

, 0 )  ( 1 

p

)

n

 

n n

Observa que para n grande P(X = 0) es aproximadamente e λ . Además para n grande (y por tanto p muy pequeño):

B B

(

n

, (

n

,

p

,

p

,

k

)

k

 1 ) 

 (

k k

( 1   1 )

p p

) 

k

67

Tenemos entonces la siguiente ecuación iterada:

B

(

n

,

B

(

n

,

p

, 0 ) 

e

 

p

,

k

) 

B

(

n

,

k p

,

k

 1 ) Que nos proporciona:

P

(

X P

(

X

 1 ) 

B

(

n

,

p

, 1 ) 

e

   2 ) 

B

(

n

,

p

, 2 ) 

2 2

e

  ...

P

(

X

k

) 

k k

!

e

  68

La señal promedio recibida en un telescopio de una fuente celeste es de 10 fotones por segundo. Calcular la probabilidad de recibir 7 fotones en un segundo dado.

Una distribución de Poisson con μ = 10.

p

(

x

)  μ x

x

!

e

 μ (

x

 0 , 1 ,....) P(7) = 10 7 e −10 / 7! = 0.09, es decir 9% Parece muy baja. Comparemos con el valor de máxima probabilidad que ocurrirá para x = 10: μ = 10 P(10) = 10 10 x e −10 / 10! = 0.125, es decir 12.5% Las probabilidades poissonianas para un número de eventos dado, son siempre pequeñas, incluso en el máximo de la distribución de probabilidad. 69

Si en promedio, entran 2 coches por minuto en un garaje, ¿cuál es la probabilidad de que durante un minuto entren 4 o más coches?

Si asumimos que un minuto puede dividirse en muchos intervalos cortos de tiempo independientes y que la probabilidad de que un coche entre en uno de esos intervalos es un intervalo pequeño será también pequeño – podemos aproximar la distribución a una Poisson con  =

np p –

que para = 2.

El suceso complementario

“entran 3 coches o menos”

tiene probabilidad:

P

(

A c

) 

p

( 0 ) 

p

( 1 ) 

p

( 2 ) 

p

( 3 ) 

e

 2 ( 2 0 0 !

 2 1 1 !

 2 2 2 !

 2 3 3 !

)  0 .

857 y la respuesta es 1 – 0.857 = 0.143

p

(

x

)  μ x

x

!

e

 μ (

x

 0 , 1 ,....) 70

El número de enfermos que solicitan atención de urgencia en un hospital durante un periodo de 24 horas tiene una media de  = 43,2 pacientes. Unas obras en las instalaciones mermarán las capacidades de atención del servicio. Se sabe que colapsará si el número de enfermos excede de 50. ¿Cual es la probabilidad de que colapse el servicio de urgencias del hospital? Bajo las condiciones del modelo de Poisson, se trata de una distribución

P(43,2).

La probabilidad solicitada es Pr {

X

> 50} = 1 – Pr {

X

<= 50} = 1 - F(50) = 0.13.

El responsable del servicio deberá valorar si esta probabilidad es lo suficientemente alta como para reforzar urgencias.

Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p = 1/100.000. Calcular la probabilidad de que en una ciudad con 500.000 habitantes haya más de 3 personas con dicha enfermedad.

Calcular el número esperado de habitantes que la padecen. Consideremos la v.a.

X

que contabiliza el número de personas que padecen la enfermedad. Claramente sigue un modelo binomial, pero que puede ser aproximado por un modelo de Poisson, de modo que: Así el número esperado de personas que padecen la enfermedad es Existe una gran dispersión, y no sería extraño encontrar que en realidad hay muchas más personas o menos que están enfermas. La probabilidad de que haya más de tres personas enfermas es:

Benford's Law

The leading digit of a number represents its non-zero leftmost digit.

299.959

0,0174

x

   ,

x

d

(

m x

)  10 

n

,   1 

m

 10

2,99959 ·10

5

[2,99959] = 2 1,74 ·10

-2

[1,74] = 1

Simon Newcomb

(1835-1909).

Note on the frequency of use of the different digits in natural numbers.

Amer. J. Math. 4 (1881) 39-40.

Red bars: Leading digit histogram of a list of 201 physical constants in SI.

P

(

d

)  log

d

1

Red bars: Leading digit histogram of a list of 201 physical constants in SI.

Grey bars: Benford’s law

Frank Benford

The law of anomalous numbers.

Proc. Am. Philos. Soc. 78 (1938) 551-538.

Title

Rivers, Area Population Constants Newspapers Specific Heat Pressure H.P. Lost Mol. Wgt.

Drainage Atomic Wgt.

, Design Reader's Digest Cost Data X-Ray Volts Am. League Blackbody Addresses , Death Rate Average Probable Error

2

16.4

20.4

14.4

18.0

18.4

18.3

18.4

25.2

23.9

18.7

20.3

14.8

18.5

18.8

17.5

17.6

17.3

19.2

16.0

18.6

18.5

1

31.0

33.9

41.3

30.0

24.0

29.6

30.0

26.7

27.1

47.2

25.7

26.8

33.4

32.4

27.9

32.7

31.0

28.9

25.3

27.0

30.6

3

10.7

14.2

4.8

12.0

16.2

12.8

11.9

15.4

13.8

5.5

9.7

14.3

12.4

10.1

14.4

12.6

14.1

12.6

12.0

15.7

12.4

5

7.2

7.2

10.6

8.0

10.6

8.3

8.1

6.7

8.2

6.6

6.6

8.3

7.1

9.8

8.1

7.4

6.6

8.5

8.5

6.7

8.0

4

11.3

8.1

8.6

10.0

14.6

9.8

10.8

10.8

12.6

4.4

6.8

7.5

7.5

10.1

9.0

9.8

8.7

8.8

10.0

9.4

9.4

7

5.5

4.1

1.0

6.0

3.2

5.7

5.1

4.1

5.0

3.3

7.2

7.0

5.5

4.7

5.1

4.9

5.2

5.6

6.8

7.2

5.1

6

8.6

6.2

5.8

6.0

4.1

6.4

7.0

5.1

5.0

4.4

6.8

8.4

6.5

5.5

7.4

6.4

7.0

6.4

8.8

6.5

6.4

9

5.1

2.2

10.6

5.0

4.1

4.7

3.6

3.2

1.9

5.5

8.9

5.6

4.2

3.1

4.8

3.0

5.4

5.0

5.5

4.1

4.7

8

4.2

3.7

2.9

5.0

4.8

4.4

5.1

2.8

2.5

4.4

8.0

7.3

4.9

5.5

5.8

5.6

4.7

5.0

7.1

4.8

4.9

Sampls

335 3259 104 100 1389 703 690 1800 159 91 5000 560 308 741 707 1458 1165 342 900 418 1011

5.761.455 primes 50.847.534 primes 455.052.511 primes 4.118.054.813 primes

Red bars: Leading digit histogram of the prime number sequence in the interval [1,N].

Benford Generalizado

L. Pietronero, E. Tossati, V. Tossati and A. Vespignani.

Explaining the uneven distribution of numbers in nature: the laws of Benford and Zipf.

Physica A 293 (2001) 297-304.

P

(

d

)  log

d

1

Scale invariance Red bars: Leading digit histogram of a list of 201 physical constants in SI.

Grey bars: Benford’s law

P

(

x

) ~

x

 1  10

k

10

k d

(

d

 1 )

x

 1

dx

 log   10

k

( 10

d k

d

1 )    log

d d

1

Generalized Benford's Law (GBL)

P

(

x

) ~

x

   10

k

10

k d

(

d

 1 )

x

 

dN

( 10

1  

1

 

)

k

(

d

1 )

1   

d

1   

P

(

d

)  1 10 1    1  (

d

 1 )  

1 ;

d

1 , 2 , ...

, 9

lim

 0

P

(

d

)

1 / 9

1   

d

1   

5.761.455 primes 50.847.534 primes 455.052.511 primes 4.118.054.813 primes

Red bars: Leading digit histogram of the prime number sequence in the interval [1,N]. Red bars: Generalized Benford's law.

(

N

)

1

Ln N

a a

1 .

1

0 .

1

Why do prime number sequence exhibit this unexpected pattern in the leading digit distribution?

New Pattern Found in Prime Numbers

May 8th, 2009 By Lisa Zyga

Physorg.com

"Me esperaré a la película, a ver si entiendo algo :)"

The Counting Prime Function

(

x

)

# of primes in the interval

[

2

,x]

.

 (25) = 9.

"For me, the smoothness with which this curve climbs is one of the most astonishing facts in mathematics."

Don Zagier, "The first 50 million primes"

Mathematical Intelligencer

,

0

(1977) 1-19

The logarithmic integral function Li(x)

Li

(

x

)   2

x du Ln u

"within the accuracy of our picture, the two coincide exactly."

Don Zagier, "The first 50 million primes"

Mathematical Intelligencer

,

0

(1977) 1-19

Prime Number Theorem

Valee Poussin and Hadamard (1896)  (

x

) ~

x

ln

x

 (

x

)

x

lim  

x

/ ln

x

 1

God may not play dice with the universe, but something strange is going on with the prime numbers.

Paul Erdös

Modelo de Cràmer

Conditions for conformance to GBL

Conditions for conformance to GBL

Conditions for conformance to GBL

The primes counting function L(N)

L

(

N

)

e

(

N

)

N cte

x

  (

N

)

dx L

(

N

) 

e

 1   (

N

) (

N

)

N

1   (

N

) with  (

N

)  1

Ln N

a

Minimum for a = 1

105