Distribuciones de probabilidad_resumidas Signorini
Download
Report
Transcript Distribuciones de probabilidad_resumidas Signorini
Distribuciones de
probabilidad
Marcelo Signorini
Consejo Nacional de Investigaciones Científicas y Técnicas
Instituto Nacional de Tecnología Agropecuaria – EEA Rafaela
Argentina
Correo electrónico: [email protected]
Distribuciones de probabilidad
Las evaluaciones de riesgos descansan sobre el uso
apropiado que se haga de las distribuciones de
probabilidad.
Las distribuciones deben mostrar:
la variabilidad.
la incertidumbre en los datos.
Variabilidad e Incertidumbre
VARIABILIDAD:
• Efecto del azar
• Parte del sistema
• No reductible
INCERTIDUMBRE:
• Falta de conocimiento
• Gran impacto en los modelos
• Se puede reducir
Variables
El dilema pasa por encontrar la distribución de
probabilidad que refleje el comportamiento de los
datos que tenemos (y en algunas circunstancias, los
que ni siquiera tenemos).
Para ordenarnos, debemos considerar inicialmente
la variable a considerar.
Estudiar las diferentes distribuciones, sus bondades,
desventajas, usos y aplicaciones.
Esta presentación no pretende ser un estudio
exhaustivo sino refrescar conocimientos.
Tenemos suficientes distribuciones
para elegir la más apropiada
Binomial(5, 0.5)
Discrete({x}, {p})
Poisson(1)
0.40
0.45
0.30
0.35
0.4
0.4
0.25
0.15
0.20
0.10
0.2
0.10
0.15
0.2
0.15
0.10
0.10
0.05
0.05
5.0%
90.0%
5.0%
1.000
4.000
90.0%
4.000
Cumul(-2.5, 2.5, {x}, {p})
5.0%
0.30
-0.5
7
6
5
4
3
2
1
0
-1
3.5
3.0
2.5
2.0
1.5
0.30
0.40
0.35
0.30
0.20
0.20
0.10
0.15
0.10
0.10
0.05
5.0%
0.865
5.0% >
11.07
1.15
90.0%
5.0%
1.705
-2.06
5.0%
>
3.43
5.0%
-2.37
7
0.00
-3
6
5
4
3
2
1
0
-1
-2
-3
10
8
6
4
90.0%
Lognorm(2.5, 2.5) Shift=-2.5
0.6
2
0.00
7
6
0.05
0.00
-4
90.0%
Logistic(0, 0.5)
5
4
3
2
1
0
-1
-2
-3
3
2
1
0
5.0%
-1.705
InvGauss(2.5, 2.5) Shift=-2.5
Histogrm(-2.5, 2.5, {p})
-1
-2
0.00
-3
16
14
12
10
8
6
4
2
0
90.0%
0.0
90.0%
>
5.0%
-2.06
4.99
Pert(-2.5, 0, 2.5)
3
0.15
2
0.10
0.25
0.15
1
0.20
0.05
-2
1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
0.40
0.05
0.00
0.30
General(-2.5, 2.5, {x}, {p})
0.45
0.15
0.2
0.02
0.35
Gamma(2, 1.25) Shift=-2.5
0
0.04
0.30
5.0% >
3.000
0.25
0.06
0.4
0.35
90.0%
0.000
-1
0.4
0.40
>
0.35
0.20
0.08
0.40
5.0%
4.000
0.45
0.25
0.6
0.45
90.0%
0.000
0.35
0.8
0.45
5.0%
2.000
0.30
0.6
90.0%
0.00
0.8
0.10
5.0%
0.135
0.05
0.0
Expon(2.5) Shift=-2.5
0.35
0.12
0.0
1.0
90.0%
0.000
0.25
0.2
0.5
>
4.000
Erlang(2, 1.25) Shift=-2.5
1.0
0.14
1.0
0.0
-0.5
7
6
5
4
3
2
1
0
-1
4.0
3.5
3.0
4.5
0.000
0
0.16
1.2
4.000
-2
1.4
90.0%
1.000
ChiSq(5)
0.18
0.00
0.0
90.0%
1.000
Beta(2, 2)
2.5
2.0
1.5
1.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
0.00
1.0
0.00
1.6
0.1
0.05
0.5
6
5
4
3
2
1
0
-1
0.00
0.1
0.5
0.05
-2
0.10
0.20
0.3
4.5
0.3
4.0
0.15
3.5
0.20
0.15
0.25
0.30
3.0
0.20
0.20
0.35
0.5
0.40
2.5
0.25
0.5
NegBin(1, 0.5)
0.6
2.0
0.25
0.25
HyperGeo(3, 3, 6)
0.50
1.5
0.30
Geomet(0.5)
0.6
1.0
0.30
DUniform({x})
0.30
0.5
0.35
0.0
0.35
>
5.0%
-1.528
3.43
90.0%
5.0%
1.597
Triang(-2.5, 0, 2.5)
0.40
0.40
0.45
0.35
0.35
0.40
0.30
0.30
0.35
0.25
0.25
Uniform(-2.5, 2.5)
0.25
0.5
0.3
0.20
0.20
0.20
0.20
0.15
0.15
0.10
0.10
0.05
0.05
0.05
0.00
0.00
0.00
0.2
0.10
0.05
90.0%
5.0%
1.626
90.0%
-2.04
5.0%
4.81
>
< 5.0%
-1.472
90.0%
5.0% >
1.472
90.0%
-2.051
>
4.453
5.0%
-1.554
90.0%
5.0%
1.554
90.0%
-1.709
2.50
1.48
0.46
0.00
-0.56
2.50
1.48
0.46
2.50
1.48
0.46
-0.56
-1.58
-2.60
2.50
1.48
0.46
-0.56
-1.58
2.50
1.48
0.46
-0.56
-1.58
-2.60
12
10
8
6
4
2
0
-2
0.00
-4
3
2
1
0
-1
-2
-3
0.0
-2.60
0.05
0.00
-0.56
0.1
0.05
5.0%
-1.539
0.10
0.15
-1.58
0.10
-2.60
0.15
0.10
-1.58
0.15
0.15
0.25
0.25
0.20
0.20
0.30
-2.60
0.25
0.4
90.0%
1.709
-2.250
2.250
Distribuciones
discretas
BINOMIAL
El experimento arroja dos posibles resultados.
Mutuamente excluyentes.
Éxitos (p) y fracasos (q = 1 – p).
El experimento lleva implícita una probabilidad de
ocurrencia.
Se definen las siguientes variables:
• n : la cantidad de veces que se hace el
experimento
• p : la probabilidad de que un experimento arroje
éxito.
• resultado: la cantidad de veces que se obtiene
éxito en las n veces que se hace el experimento.
BINOMIAL
Binomial(5, 0.5)
0.35
E(X) media = n.p
0.30
0.25
S2X = n.p.(1-p)
0.20
0.15
0.10
0.05
6
5
4
3
2
1
0
-1
0.00
Usos: prevalencia, sensibilidad,
especificidad, etc.
5.0%
90.0%
5.0%
1.000
4.000
p = 0,2
p = 0,5
p = 0,8
BINOMIAL
Ejemplo:
En un establecimiento lechero que cuenta con 350
vacas en ordeño se diagnosticaron 25 vacas positivas a
brucelosis. ¿Cómo se pude representar el número de
vacas positivas a brucelosis para este caso?.
~ Binomial (350, 0,07)
BETA
Modelar una distribución en ausencia
de datos.
Beta(2, 3.4)
2.0
1.8
1.6
Puede adquirir múltiples formas (PERT,
Triangular, Uniforme, Normal, Lognormal,
etc.).
1.4
1.2
1.0
0.8
0.6
0.4
0.2
5.0%
0.088
90.0%
5.0%
0.711
1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
0.0
Su rango va de 0 a 1.
Puede corregirse para adoptar otros
rangos.
Ejemplo:
BETA
Continuando con el caso anterior del relevamiento
serológico de brucelosis en un establecimiento lechero, si
se desea extrapolar este resultado de prevalencia a toda
una cuenta lechera (con aproximadamente 15.000 vacas
en ordeño, ¿Qué inconvenientes observa?
~ Beta(r+1, n – r +1)
~ Beta(25+1, 350-25+1)
BETA
Modelo inicial (350 vacas)
# Vacas positivas a brucelosis ~ Binomial (n, p)
Modelo final (15.000 vacas)
Poisson
Λ = la cantidad esperada de eventos por
unidad de intervalo (k) (intensidad).
Poisson(3.6)
0.25
Λ = nº eventos / k
0.20
0.15
Λ = media = varianza
0.10
0.05
90.0%
1.00
10.0
7.3
4.6
1.9
-0.8
0.00
5.0% >
7.00
Usos: Es un proceso que consiste en
considerar un continuo, en el cual ocurren
eventos.
Número de enfermos por año, Nº de
cabezas de ganado faenadas por mes, Nº
de bacterias por mL de leche, etc.
POISSON
Ejemplo:
Un análisis microbiológico de leche en polvo arrojó que
el promedio de microorganismos aerobios totales en
una partida determinada era de 150 UFC/gramo de
producto. ¿Cómo representaría a la variable “carga
microbiana” en este caso?
Distribuciones
continuas
UNIFORME
Se dice que una variable aleatoria
continua es uniforme entre a y b si el
conjunto de sus valores posibles es el
intervalo [a;b] y todos esos valores
tienen la misma probabilidad.
Uniform(-2.5, 2.5)
0.25
0.20
0.15
0.10
Útil cuando solo se conoce el rango.
0.05
90.0%
-2.250
2.250
3
2
1
0
-1
-2
-3
0.00
Se usa
aleatorios.
como
generador
de
nº
TRIANGULAR
Triang(-2.5, 0, 2.5)
0.45
Útil en ausencia de datos mejores.
0.40
0.35
Parámetros: mínimo, más probable y
máximo.
0.30
0.25
0.20
0.15
0.10
0.05
5.0%
-1.709
90.0%
5.0%
1.709
3
2
1
0
-1
-2
-3
0.00
Usada para modelar la opinión de
expertos.
PERT
Pert(-2.5, 1.4, 2.5)
Similar a la distribución triangular
(mismos parámetros).
0.50
0.45
0.40
0.35
0.30
Forma más “redondeada” que le otorga
un perfil más natural y está menos
influenciada por los valores extremos.
0.25
0.20
0.15
0.10
0.05
5.0%
90.0%
-0.680
2.171
3
2
1
0
-1
-2
-3
0.00
Mismas ventajas que triangular.
NORMAL
Normal(0, 2.5)
Parámetros: media (µ) y desviación
estándar (σ).
0.18
0.16
0.14
0.12
Útil para modelar la mayor parte de las
variables biológicas.
0.10
0.08
0.06
0.04
Fácil manejo e interpretación.
0.02
< 5.0%
-4.11
90.0%
8
6
4
2
0
-2
-4
-6
-8
0.00
5.0% >
4.11
Teorema central del límite.
ACUMULATIVA
Cumul(-2.5, 2.5, {x}, {p})
1.0
Se emplea para transformar una serie de
datos en una distribución empírica.
0.8
Parámetros:
0.6
5.0%
-1.705
90.0%
5.0%
1.705
3
2
• {xi}, {pi}; donde i = 1 a n
1
0.0
0
• máximo
-1
0.2
-2
• mínimo
-3
0.4
Ejemplo:
ACUMULATIVA
Un
análisis
microbiológico
de
Campylobacter
termofílicos en pollos arrojó los siguientes resultados.
Sobre un total de 40 pollos muestreados:
13 presentaron <36 NMP/canal
6 Presentaron 200 NMP/canal
7 presentaron 500 NMP/canal
2 presentaron 1.000 NMP/canal
6 presentaron 5.000 NMP/canal
5 presentaron 10.000 NMP/canal
1 presentó 18.000 NMP/canal
DISTRIBUCIONES EMPÍRICAS
General(0, 1, {x}, {p})
2.5
GENERAL: a partir de un rango de
datos, se fija para cada punto de una
serie de datos, su probabilidad.
2.0
1.5
1.0
0.5
5.0%
0.092
90.0%
1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
0.0
Tiene un uso similar a la distribución
acumulativa.
5.0%
0.718
Histogrm(0, 1, {p})
HISTOGRAMA: similar interpretación
que la general solo que se definen
probabilidades por rangos de valores
dentro de un rango general de la
distribución.
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
5.0%
0.079
90.0%
5.0%
0.717
1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
0.0
DISTRIBUCIONES EMPÍRICAS
Ejemplo:
Continuando con el caso anterior, la distribución del
NMP de Campylobacter termofílicos en pollos también
puede ser analizada mediante distribuciones General e
Histograma.
Distribución General
Distribución Histograma
COMPARACIÓN ENTRE
DISTRIBUCIONES EMPÍRICAS
Distribución
Acumulativa
Distribución
General
Distribución
Histograma
Diferentes formas para mostrar las
distribuciones
Normal(0, 1)
Función de densidad
de probabilidad
0.45
0.40
0.35
0.30
0.25
Normal(0, 1)
0.20
0.15
1.0
0.10
0.9
0.05
0.8
0.7
3
2
1
0
-1
-2
-3
0.00
0.6
0.5
0.4
0.3
0.2
0.1
< 5.0%
-1.645
90.0%
3
2
1
0
0.0
-1
5.0% >
1.645
-2
90.0%
-3
< 5.0%
-1.645
5.0% >
1.645
Distribución
acumulativa
Muchas
gracias