Transcript estadistica

ESTUDIO ESTADÍSTICO

RECURRENCIA DE TSUNAMIS SOBREDIMENSIONADOS EN LA BAHÍA DE QUINTERO

MODELO PREDICTIVO PROBABILÍSTICO

El contexto estadístico

El contexto estadístico

Distribución normal

El modelo de probabilidad más usado en estadística es la distribución normal o gaussiana.

El contexto estadístico

Distribuciones con asimetría positiva y soporte mayor que cero

Sin embargo, muchos fenómenos naturales no pueden describirse mediante la distribución normal ni mediante otras distribuciones simétricas. Hay diversas áreas de la ciencia donde se requieren modelos de probabilidad asimétricos.

El contexto estadístico

Distribuciones de vida

El análisis de tiempos de ocurrencia de eventos aleatorios es de interés en ingeniería y medicina. Este tipo de variable estadística que tiene asociada probabilidades (variable aleatoria) y que corresponde al tiempo tiene una conducta frecuentemente asimétrica, tal como lo indica el estudio pionero de: • Davis (1952) Y los textos de: • • Lawless (2002) Marshall & Olkin (2007).

La geología es también un área en donde hay interés por el estudio de la ocurrencia de eventos recurrentes, como terremotos y explosiones volcánicas.

El contexto estadístico

Modelos de daño acumulativo

En algunos análisis de ocurrencia de eventos en el tiempo se presenta degradación o desgaste debido a acumulación de tensión induciendo a una falla o ruptura cuando un umbral de resistencia es superado.

• Ingeniería : fatiga de materiales.

• Medicina : varios tipos de cáncer y enfermedades cardíacas crónicas.

• Calidad del aire : efecto acumulativo de contaminantes de la atmósfera.

• Calidad del agua : efecto acumulativo de nutrientes vegetales.

• Neurociencia : producción de espigas en neuronas.

• Salud pública : mortalidad humana asociada con diversos factores.

• Forestación: efecto del diámetro de un árbol en su mortalidad.

• Sismología: recurrencia de terremotos y tsunamis.

El contexto estadístico

Modelos de daño acumulativo

Las placas tectónicas que producen los terremotos y tsunamis van acumulando tensión en el tiempo.

Con los terremotos, y tal como ocurre con la fatiga de materiales, no es posible medir la cantidad de energía acumulada, transformándose ésta en una variable latente. Sin embargo, sí es posible conocer la cantidad de tiempo que ha transcurrido desde el terremoto predecesor, es decir desde la ruptura anterior.

El contexto estadístico

Probabilidad condicional

Considere dos eventos aleatorios “A” y “B”. La probabilidad de que ocurra “A” dado que ya ocurrió “B” se define como: P(A | B) = P(A n B) / P(B) En particular, considere “T” como el tiempo hasta ocurrencia de un evento determinado y “A = { T > t }” y “B = { T < dt + t }”, entonces la probabilidad de que ocurra le evento antes de tiempo dt + t, dado que ya ha transcurrido un tiempo t es P(T < dt + t | T > t) = P(t < T < dt + t) / P(T > t) = (P(T < t + dt + t) - P(T < t ))/( 1- P(T < t)) t dt + t

El contexto estadístico

Tasa de fallas o de riesgo

Considere una variable aleatoria T y sus fdp f(t) y fda F(t) correspondientes. Entonces, la tasa de riesgo o amenaza es h(t) = f(t) / (1 – F(t)); t > 0.

La tasa de fallas, amenaza o riesgo indica qué tan propenso es que un evento que no ocurrido hasta una fecha determinada ocurra en el instante inmediatamente siguiente.

Esta tasa no es una probabilidad (sólo en el caso de variables aleatorias discretas lo es, que no es el caso del tiempo, ya que éste es una variable continua), La tasa de riesgo permite distinguir distribuciones, lo que no es fácil de hacer al mirar una fdp y su histograma correspondiente.

Gráfico TTT

Los datos

Escenario 1

Tabla 1. Fechas en que ocurrieron los tsunamis sobredimensionados en Bahía de Quintero, de acuerdo al estudio geológico Evento A B C D E F G H I J Límite inferior 3984 A.C.

3639 A.C.

2919 A.C.

2340 A.C.

1775 A.C.

1637 A.C.

786 A.C.

3 D.C.

265 D.C.

1643 D.C.

Centro del intervalo 4082 A.C.

3672 A.C.

2970 A.C.

2407 A.C.

1860 A.C.

1688 A.C.

803 A.C.

42 D.C.

338 D.C.

1720 D.C.

Límite superior 4180 A.C.

3705 A.C.

3020 A.C.

2474 A.C.

1945 A.C.

1739 A.C.

819 A.C.

80 D.C.

410 D.C.

1796 D.C.

Escenario 2

Tabla 2. Fechas en que ocurrieron los tsunamis sobredimensionados en Bahía de Quintero, de acuerdo al estudio geológico, más un dato imputado Evento A B C D E F G H I I’ J Límite inferior 3984 A.C.

3639 A.C.

2919 A.C.

2340 A.C.

1775 A.C.

1637 A.C.

786 A.C.

3 D.C.

265 D.C.

835 D.C.

1643 D.C.

Centro del intervalo 4082 A.C.

3672 A.C.

2970 A.C.

2407 A.C.

1860 A.C.

1688 A.C.

803 A.C.

42 D.C.

338 D.C.

890 D.C.

(*) 1720 D.C.

Límite superior 4180 A.C.

3705 A.C.

3020 A.C.

2474 A.C.

1945 A.C.

1739 A.C.

819 A.C.

80 D.C.

410 D.C.

945 D.C.

1796 D.C.

El modelo predictivo probabilístico

El modelo predictivo probabilístico

• • • • • Basados en los comentarios del “contexto estadístico-modelos de daño acumulativo”, contamos con 2 elementos que nos ayudaron a escoger el modelo estadístico usado en el análisis.

Estos elementos son: (i) El tiempo entre ocurrencias de terremotos gigantes y (ii) a acumulación de energía, cuya liberación después de (iii) superar el umbral de resistencia, provoca la ocurrencia del evento sísmico que genera los tsunamis.

Estos dos elementos permiten proponer una clase de distribuciones estadísticas de daño acumulativo como modelos predictivos probabilísticos. Éstas son: La distribución Birnbaum-Saunders (BS) o de fatiga, La distribución gamma, La distribución gaussiana inversa (GI), La distribución log-normal y La distribución Weibull.

Análisis exploratorio de los datos

Tabla 4. Resumen de estadísticas descriptivas de tiempos (en años) para los escenarios indicados

Análisis exploratorio de los datos

Datos Escenario 1 (izq) Esc. 1 (centro) Escenario 1 (der) Escenario 2 (izq) Esc. 2 (centro) Escenario 2 (der) Mediana Promedio 512.0

562.5

614.0

496.0

557.5

619.5

587.7

644.6

701.5

523.5

580.2

636.9

D.E.

370.7

364.2

359.5

254.6

240.0

227.2

C.V.

63.1% 56.5% 51.3% 48.6% 41.4% 35.6% C.S.

0.48

0.60

0.71

-0.21

-0.23

-0.26

C.C.

Rango -0.89 1222.5

-0.67

-0.45

1210.0

1197.5

-1.44

-1.41

-1.35

747.5

713.5

679.5

Mín.

87 172 257 87 172 257 Máx.

1309.5

1382.0

1454.5

834.5

885.5

936.5

n

9 9 9 10 10 10

Elección del modelo

Elección del modelo

Distribución Valor-p KS BS 0.911

Escenario 1 AIC BIC 133.571 133.966

R 2 99.94%

Escenario 1 Escenario 2

Estimación del modelo predictivo probabilístico

Estimación del modelo predictivo probabilístico

Intervalo de tiempo (0, t1) Dentro de 5 años más Dentro de 10 años más Dentro de 15 años más Dentro de 20 años más Dentro de 25 años más Dentro de 50 años más Dentro de 100 años más Dentro de 200 años más Dentro de 300 años más Dentro de 400 años más Dentro de 500 años más Dentro de 600 años más

Escenario 1

Escenario 1 Probabilidad(0 < T < t1 | T > 282) Límite inferior 0,80% 1,60% 2,50% 3,30% 4,10% 8,20% Centro 0,60% 1,20% 1,80% 2,50% 3,10% 6,40% Límite superior 0,40% 0,80% 1,20% 1,70% 2,10% 4,50% 16,50% 32,20% 46,20% 58,00% 67,70% 75,50% 13,40% 28,30% 42,70% 55,60% 66,40% 75,10% 10,00% 23,00% 37,10% 50,70% 62,60% 72,50% Escenario 2 Probabilidad(t1 < T < t2 | T > 282) Límite inferior 0,90% 1,90% 2,90% 3,80% 4,80% 9,70% Centro 0,60% 1,20% 1,90% 2,60% 3,30% 6,90% Límite superior 0,30% 0,60% 1,00% 1,40% 1,70% 3,90% 19,70% 38,90% 55,40% 68,40% 78,30% 85,40% 15,10% 33,50% 51,40% 66,50% 78,10% 86,20% 9,50% 25,10% 43,40% 60,70% 74,60% 84,60%

Escenario 2

Escenario 1

Tasa de riesgo

Escenario 2

Conclusiones

Conclusiones

• Mediante estudios históricos y geológicos se reconoció la ocurrencia de 10 tsunamis sobredimensionados en la Bahía de Quintero durante los últimos 6.000 años.

• El análisis estadístico realizado se basó en los datos de tiempos transcurridos entre tsunamis, que ocurrieron en promedio cada 600 años, lo que estadísticamente es una muestra pequeña.

• Ya que las fechas de los eventos consistieron de intervalos y no datos puntuales, esto se para datos solucionó a través de métodos simbólicos por intervalos.

Conclusiones

•Una tercera dificultad fue considerar un evento no detectado por la geología mediante imputación de datos, contando así con dos escenarios de observaciones de tiempos de ocurrencia. El análisis estadístico fue realizado en ambos escenarios.

• Primero se realizó un análisis exploratorio para validar los modelos predictivos probabilísticos propuestos que permitieron predecir la probabilidad de ocurrencia de tsunamis sobredimensionados en la Bahía de Quintero.

• Luego se usaron métodos de bondad de ajuste y de selección para escoger los modelos predictivos probabilísticos adecuados. En ambos escenario el modelo basado en la distribución Birnbaum-Saunders resultó ser muy apropiado. Este modelo fue usado para estimar las probabilidades de ocurrencia de tsunamis sobredimensionados en Quintero, obteniéndose resultados relativamente similares para ambos escenarios.

Conclusiones

•Las probabilidades condicionales al tiempo transcurrido desde el último evento (1730), permitieron detectar los mayores riesgos de ocurrencia alrededor de los 900 y 800 próximos años para los escenarios 1 y 2, respectivamente.

• Desde el punto de vista del “peor escenario posible” y considerando que la vida útil de la planta es de 25 años, los resultados indican que existe una probabilidad cercana al 5% de que ocurra un tsunami sobredimensionado en Quintero .

• Si se considera una perspectiva de 50 años, a partir de hoy, la probabilidad se duplica siendo cercana al 10%. Esto quiere decir que hay una posibilidad en diez de que ocurra un evento de ese tipo durante los próximos 50 años.

Conclusiones

•Aumentando la perspectiva temporal, la probabilidad de ocurrencia de un tsunami sobredimensionado en los próximos 100 años alcanza al 20% y aproximadamente al 40% a los 200 años.

• Las probabilidades continúan aumentando en forma más o menos lineal llegando a estabilizarse aproximadamente cerca de los próximos 800 años, valor que podría considerarse como uno de los instantes más probables de que ocurra un tsunami sobredimensionado en Quintero.

• Finalmente, los modelos predictivos probabilísticos paramétricos usados fueron contrastados con una metodología no paramétrica basada en la tasa de riesgo que proporcionó resultados totalmente coherentes y coincidentes entre estas metodologías paramétrica y no paramétrica

.