Módulo 4: Mejorando la Exactitud Carlos López Vázquez carlos.lopez@ieee.org Plan  Introducción  Revisión de herramientas estadísticas  Detectando problemas  Imputando valores ausentes  Ejemplos.

Módulo 4: Mejorando la Exactitud Carlos López Vázquez [email protected] Plan  Introducción  Revisión de herramientas estadísticas  Detectando problemas  Imputando valores ausentes  Ejemplos.

Transcript Módulo 4: Mejorando la Exactitud Carlos López Vázquez [email protected] Plan  Introducción  Revisión de herramientas estadísticas  Detectando problemas  Imputando valores ausentes  Ejemplos.

Slide 1

Módulo 4:
Mejorando la Exactitud
Carlos López Vázquez
[email protected]

Slide 2

Plan
 Introducción
 Revisión

de herramientas estadísticas
 Detectando problemas
 Imputando valores ausentes
 Ejemplos

Slide 3

Una posible categorización de datos
Números reales Imágenes SPOT,
o enteros
LANDSAT, etc.; MDE

RASTER
Geología, Uso de suelo

Categóricos

MDE como TIN
VECTOR

Límites administrativos
Números reales
o enteros

TABULAR

Datos censales

Categóricos
Textual

Datos meteorológicos

Guía telefónica

Mezcla de los
anteriores

Encuesta de hogares

Slide 4

El cómo de la detección de outliers


Métodos tradicionales para el caso
multivariado
 Distancia

de Mahalanobis
(x-x)/s <==>(x-x)TC-1 (x-x)

¿Cómo hallar C y x? => Clásico, MCD, MVE, Hadi
(1994), Rocke (1996), etc.
 Análisis

de Componentes Principales (PCA)

Hawkins, 1974; López, 1994a,b, 1996, 1997
 Otros

métodos...

Slide 5

Mahalanobis de vuelta…




Si d2(x)=(x-T)TC-1 (x-T)>dcrit outlier
Depende de cómo se construyen C y T puede
ser inapropiado si hay outliers (¡!)
Ej: Philips data

Slide 6

¿Cómo hallar C y T?
•Estimadores clásicos de media y varianza
•Estimadores robustos
•High Breakdown estimators

Robust is NOT High
Breakdown
(c )
(b )

(a )
(d )

Slide 7

MCD (Rousseeuw et al., 1987)

…

…

Slide 8

FAST-MCD (Rousseeuw et al., 1999)





Mismo criterio, otro algoritmo
Más rápido, etc.
Maneja “exact fit”

Slide 9

Hadi (1992,1994)
Similar al MCD, pero no combinatorio
 Más rápido que otros
 Implementado en SAS y otros paquetes
estadísticos


Slide 10

MVE (Rousseeuw et al., 1990)
C y T tal que hay ε
datos fuera de
cada elipse
 C y T no son ahora
función directa de
un subconjunto de
datos


Slide 11

Comentario…


Los anteriores son casos particulares de
estimadores más generales
 Estimador-S
 Estimador-M



Veamos apenas una definición de cada
uno de ellos

Slide 12

Estimador-S


C=C(X) y T=T(X) tales que:

det(C) sea mínimo
1

 d   b

n
i

0

i

di 



 xi  T 

T

C

1

 xi  T 

ρ(d) función no decreciente
MVE: ρ pertenece al conjunto {0,1}

Slide 13

Estimador-M


C=C(X) y T=T(X) tales que:

det(C) sea mínimo

 x

i

 T  * u1 d i   0

i

1
n


T
2




 C
x

T
x

T
u
d
 i
i
2
i
i

u1(d) y u2(d) ni negativas ni decrecientes si d>0

Slide 14

Aplicación: Philips data

Slide 15

Recapitulando…
Estimadores basados en Mahalanobis
 Difieren entre sí en la forma de estimar
unos C y T apropiados
 Dados C y T son simples de aplicar
 Matemáticamente tratables
 Para datos tabulares
 Requieren datos sin ausencias


quizá hay que imputar primero

Slide 16

Minor ACP (Hawkins 1974)
Los CP mayores (i.e. con gran valor
propio) tienen interpretación física
 Normalmente se retienen, y los menores
se descartan
 Hawkins propone utilizar los scores
asociados como detectores de errores
 Son típicamente pequeños, e indican
algo inusual cuando son grandes


Slide 17

Otras líneas: Conglomerados


Idea básica:







Clasificar los datos en grupos
Elegir puntos en los grupos
pequeños como candidatos a
outliers
Calcular la distancia entre los
puntos candidatos y los
grupos no-candidatos
Si los puntos candidato están
lejos de todos los otros no
candidatos, entonces se les
declara outliers

© Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Slide 18

Detección en el contexto de regresión
Idea: ajustar con una función, analizar las
discrepancias y separar las más groseras
 Problema: los errores pueden
enmascararse unos a otros
 Problema: los errores pueden afectar
significativamente la función de ajuste
(Ejemplo: OLS)
 Solución ==> High breakdown methods
(LTS, LMS, etc.)


Slide 19

Efecto de errores en regresión(1)
4

x 10
1.7
1.6
1.5
1.4
1.3
1.2
75

76

77

78

Reclamos por incendio en Bélgica

79

80

81

Slide 20

Efecto de errores en regresión(2)
40
35
30
25
20
15
10
5
0
0

20

40

60

Caudal en un dos puntos de un mismo río

80

Slide 21

OLS (Gauss, 18XX?)
Minimiza la suma de cuadrados de
residuos
 Sensible a outliers en varias formas
 Muy afectado por enmascaramiento
 ¡Implementado everywhere!
 En problemas tabulares tolera ausencias


 Requiere

un OLS por cada combinación de
ausencia/presenciapuede ser pesado…

Slide 22

LMS (Rousseeuw 1984)
Minimiza la mediana de los residuos
 Es como OLS si se descartara cierto 50% de
la población
 Es por lo tanto del tipo High Breakdown
 Problema combinatorio ¡explota!
 Existen alternativas no combinatorias
(Hawkins 1993)
 Igual que OLS: tolera ausencias


Slide 23

LTS (Rousseeuw 1984)
Minimiza la suma ponderada de los residuos
 Pesos se eligen del conjunto {0.0,1.0}
 El total de casos 0.0 se especifica a priori
 Es por lo tanto del tipo High Breakdown
 Problema combinatorio ¡explota!
 Existen alternativas no combinatorias
(Hawkins 1993)
 También tolera ausencias


Slide 24

Ejemplo: Rousseeuw et al., 1999
Resultaron ser
estrellas gigantes

Previamente no
se distinguían

Slide 25

Datos raster: caso del MDE
Ampliamente estudiado en Agrimensura
 Antes: pocos puntos, muy precisos


 Típicamente

formato TIN
 Raster se calculaba a partir del TIN


Antes: fotogrametría aérea
 Típicamente

curvas de nivel
 Raster se calculaba a partir de las curvas

El productor dispone de controles
internos
 También se detectan errores al comparar
con la hidrografía, etc.


Slide 26

Situación presente



Surgen otros métodos de creación (satélite, GPS,
LIDAR, etc.)
Muchos más puntos, algo menos precisos







Imagen de satélite, etc.
Se genera directamente el raster

¡El usuario puede ahora ir al campo y controlar!
Detalle esencial: un pixel puede estar errado sin
implicar al vecino
Amerita otros métodos de control…

Slide 27

Método de Hannah (1981)
MDE en formato raster
 Establece límites en la pendiente y
cambio de pendiente


 ¡Requiere

especificarlos a priori!

Usa interpolante local
 Fácilmente implementable en GIS
 Poco impacto en la literatura;
mencionado aquí por completness


Slide 28

Método de Felicísimo (1994)
Imputa interpolando con los vecinos
 Cualquier interpolante sirve; propone
polinomio de 2do. grado en (i,j)
 Analiza la distribución de la diferencia del
interpolado vs. el verdadero valor
 Asume normalidad, y saca límites
 Relativamente simple, implementable en
SIG
 Veremos un ejemplo más adelante


Slide 29

Métodos mixtos


Usan indirectamente métodos de
regresión para detectar los errores
 Uso

de la verosimilitud (likelihood)
 Interpretación de los roles de las neuronas en
redes neuronales artificiales

Slide 30

Función de Verosimilitud (López, 1997)
En un contexto de Kriging aparece el
Variograma
 Depende de: Tipo, Alcance a y Meseta S
 Método de VCMV (Samper et al., 1987)


 Elegir

a y S que maximicen la VCMV
asumiendo que no dependen del tiempo…



¿Cómo es el método de VCMV?

Slide 31

VCMV (Samper, 1987)


VCMV: Elijo a y S, y para cada fecha repito
para los n puntos disponibles:
 Retiro

el i-ésimo
 Interpolo mediante krigeado
 Conservo la discrepancia observada

Luego se calcula la Verosimilitud
 Nuestro n era relativamente pequeño
 En general el proceso requiere minimizar
una función no lineal costosa…


Slide 32

Nuestro problema particular de VCMV





En realidad, nosotros no necesitábamos a y S …
Sólo interpolaríamos en los puntos dato
Para nuestros fines sólo necesitábamos una C y T
obtenida de los datos experimentales







No hubo necesidad de minimizar la función

Se asumió homogeneidad e isotropía
Se asumió también a y S constantes en el tiempo
Idea: dados a y S, la Verosimilitud pasa a ser
función del tiempo; un número por día
Días con valores extremos¡outliers!

Slide 33

Reflexión…
Casi nadie usa o referencia la
Verosimilitud misma; sólo la maximiza
 Algo parecido a los Mínimos Cuadrados


 ¿alguien

se fija si los mínimos cuadrados son
pequeños?



Resultó ser uno de los mejores métodos
en nuestros experimentos
No por trillado el camino es conocido
López (2005)

Slide 34

Métodos mixtos


Usan indirectamente métodos de
regresión para detectar los errores
 Uso

de la verosimilitud (likelihood)
 Interpretación de los roles de las neuronas
en redes neuronales artificiales

Slide 35

Uso de redes neuronales
Se reconocen dos líneas posibles
 Línea 1: Clasificación
 Clasificar

en forma no supervisada
 Clusters con pocos elementos  outliers


Línea 2: Regresión
 Ajustar



por MC y analizar discrepancias

Línea 2.5: Regresión+…
 Ídem

2, pero luego interpretar roles
 Unpublished work, by López

Slide 36

Tomado de Benítez et al., 1997

ANN para regresión
y  13 . 92 v1  23 . 179 v 2  2 . 143 v 3  2 . 143 v 3
sepal length

v1

sepal width

v2
petal length

petal width

v3

y

Slide 37

ANN para regresión
sepal length

sepal width

petal length

petal width

Slide 38

Versión modificada
y  13 . 92 v1  23 . 179 v 2  2 . 143 v 3

z

 if ( v     r  v  )

then z  1


else z  0


¡No participa!
y

Slide 39

Ventajas…









La Red se entrena como siempre para
regresión/clasificación
Se inspeccionan los pesos; no hay que reentrenar
Los outliers no se decretan; ¡surgen!
Desventaja: los pesos pueden ser muy sensibles a
los outliersmasking
Fue testeado en el ejemplo (caso pequeño, de
paper) y con lluvia, etc.
¡Fue el óptimo!
Es aún una teoría. Queda mucho por hacer…

Slide 40

Ejemplos de detección de outliers



Comentaremos algunos casos
Tabular Cuantitativo: datos meteorológicos
– Observados en una red de puntos fijos
– Muchas medidas en el tiempo


Viento horario
– Fuerte correlación espacio-tiempo



Lluvia diaria
– En Uruguay, sólo correlación espacial




Tabular Categórico: Datos de un Censo
Raster: MDE

Slide 41

Datos tabulares: lluvia y viento


Usamos lluvia diaria y viento horario






Lluvia tiene sólo correlación espacial
Viento tiene espacio-temporal

Para el viento, 35% de los errores simulados
aparecieron en el primer paso de depuración
Para lluvia, 81% de los errores simulados
aparecieron en el primer paso de depuración

Slide 42

Datos tabulares: censo nacional
Sólo para datos categóricos puros
 Pudimos remover 50% de los errores
revisando un 10% del conjunto


 Cinco



veces mejor que digitar de nuevo

Método general, automatizable, basado
en ACP

Slide 43

Gráficamente…

Desempeño
promedio
del método
de López

O verall res ults vs . effort level
100
3% of the s urvey s initially c ontam inated
w ith 2 errors eac h; M arginal 0.10%

90

o n lin e

80

e ope
ra t i

60

Diferentes eventos del
experimento analizados
con el método de López

B es t p
o s s ib l

% of errors found

70

50
40
30
20
10

E x pec

ted

a
p e r fo r m
e
t
a
c
li
dup

c us
n c e lo

0
0

2

4

6

8
10
12
% of c ontrolled data

14

16

Desempeño del
18
20
método
de
referencia

Slide 44

Datos raster: MDE (López 1997)


Buscamos algunos tipos de errores
 Salt

and pepper
 Spike
 Pyramid

El método es aplicable para cualquier raster
cuantitativo (imágenes, fotos, etc.)
 En el artículo, 40% de los errores fueron
encontrados con probabilidad > 88%
 Podría ser una herramienta útil para
productores y usuarios


Slide 45

Felicísimo vs. López 

50

50

100

100

150

150

200

200

250

250

300

300

350

350
20

40

60

80

100

120

140

160

180

200

20

40

60

80

100

120

140

160

¿?

180

200

Binary map of the errors located up to the 15 per cent effort with the method of
Felicísimo, 1994 (left) and López, 1997 (right). Black areas are for the suggested
locations up to the 3 per cent effort; gray ones are obtained after 15 per cent effort

Slide 46

Inaccesible al
usuario final

Felicísimo vs. López
12.0

12

55.0

11

50.0

55

11.8

50

- : 0
--: 2
: : 4

11.4

45

10

11.0
10.8

45.0

R M S E [m ]

R M S E [m ]

11.2

9

- : 0

40

R M S E [m ]

11.6

R M S E [m ]

El método de
López encuentra
errores más
grandes al
principio

--: 2
: : 4

40.0

35
- : 0
--: 2
: : 4

30
8

10.6

35.0
- : 0
--: 2
: : 4

10.4
7

25
30.0
20

10.2
10.0

6
0

1
2
E ffort [% ]

3

25.0
0

3

6
9
E ffort [% ]

12

15

15
0

1
2
E ffort [% ]

3

0

3

6
9
E ffort [% ]

12

15

El método de López
Evolution of the accuracy (left1 & left2) and RMSE found of the
más up
rápido
cumulated errors mejora
(right1 & right2)
to a given effort vs. the effort,
after removing the hypothesis
of the perfect inspector. Plots are for the
la exactitud
¡Accesible al

methods of Felicísimo (1994) (with the -o- symbol) and the modified
usuario final!
method of López (1997)

Slide 47

¿En qué
estábamos?
¿Para dónde
íbamos?

Slide 48

Otros casos


Si la Exactitud es muy afectada por outliers
¡detectar y remover outliers!



¿Y después?
 Errores

sistemáticos
 Errores no groseros

Requieren otro tipo de enfoque
 Ej.: PAI


Slide 49

Precision Accuracy Improvement








Hecho #1: se inventó el GIS
Hecho #2: se inventó el GPS
Mapas existentes + GIS Mapas digitales (OK)
Mapas digitales + GIS Más usuarios & usos
Mapas digitales + usuarios + usos + GPS ¡Sorpresa!
Mapas existentes quedan inutilizados para ciertos
propósitos





Ductos, desagües, etc. localizados con GPS
Tráfico y tránsito

Exactitud requerida >> Exactitud suministrada

Slide 50

Caso típico (OS GB)

CA Access Map

MAGIC

Follows old OS well

Follows new OS badly !
Fuente: Robin Waters

Slide 51

¿Qué puede hacer el productor?







Alternativa 1: Dejar todo como está
Alternativa 2: Hacer todo de nuevo
Alternativa 3: Intentar arreglarPAI
Problema esencialmente vinculado al error
planimétrico
Mapas existentes tienen un gran valor “residual”





Actualizados (±…)
Populares (muchas veces únicos…)
Muchísimos atributos (¡cierto!)
Son base para otros mapas derivados (¡muy cierto!)

Slide 52

PAI
Idea: corregir masivamente la planimetría
 Ej.: OS GB; TIGER files USA
 Problema internacional
 Datos digitalizados… o no
 Impactos


 del

lado del productor
 del lado del usuario

Slide 53

del lado del productor…





Reingeniería de procesos
Probable actualización tecnológica
Alternativas:







Tercerización / Trabajo propio
Modificación / Nuevo relevamiento
Incorporación de otras fuentes

¿Financiación?
Plan de actualización



Por dónde empezar
Cronograma de entregas

Slide 54

del lado del usuario…


¿Impacta/no impacta?







Análisis de riesgo: do nothing vs. arreglo
Si impactaalternativas:





¿Sólo datos PAI-compatibles?
¿Datos generados internamente?

Esperar a que PAI termine
Acompasar entregas con modificaciones
internas

Ambas tienen pros y contras

Slide 55

Resumen: No matar al mensajero…
No puede des-inventarse el GPS
 No puede des-inventarse el GIS
 No pueden des-digitalizarse los mapas


Hay que entender los problemas
 Hay que tomar decisiones apropiadas
 Hay que aprender de otros ejemplos


Slide 56

¿Estamos perdidos?

Slide 57

Plan
 Introducción
 Revisión

de herramientas estadísticas
 Detectando problemas
 Imputando valores ausentes
 Ejemplos

Slide 58

Recordemos: ¿Porqué imputar?
Detectado un error…
 Modelos que no toleran ausencias
 Bajar costo al medir menos
 Típicamente métodos de Interpolación


 Medidas



escasas, de alta exactitud

Actualmente más y más Aproximación
 Más

automatismo, menos control humano
 Medidas abundantes, de menor exactitud

Slide 59

Enfoque es función del dato…


Datos “puramente” espaciales
 Caso

más familiar para la audiencia
 Métodos de Interpolación:
– TIN, Splines, Kriging, Cressman, etc.
 Ej.:



MDE, tipo de suelo, etc.

Datos espacio-temporales
 Correlación

espacial + temporal
 Ciencias de la Tierra, pero no Agrimensura
 Ej.: Meteorológicos, uso el suelo, etc.


Formulación sensiblemente específica

Slide 60

Datos puramente espaciales
En la gran mayoría son Métodos lineales
 Coeficientes son función de punto
 Toleran ausencias
 A veces son lineales pero complicados


 Cokriging



Hay también métodos no lineales
 Redes

neuronales
 Ecuaciones constitutivas (EDP)

Slide 61

Datos espacio-temporales
Típicamente equi-muestreados en el tiempo
 Problema no resuelto: covarianza cruzada
tiempo-espacio
 Muy usual en las Ciencias de la Tierra


 Ej.:



Habitual en las aplicaciones GIS
 Ej.:



Meteorología, Hidrología, etc.

Tráfico/Tránsito, uso del suelo (!)

Poco o mal manejado en GIS comerciales

Slide 62

Muchos métodos…

Slide 63

Procedimiento sugerido…


Repita un número grande de veces







Comparar estadísticos, y luego elija…
Ventajas:







Generar ausencias al azar
Imputar con método1, método2, etc.
Calcular estadísticos de ajuste (distancias)

Tiene base estadística
Lo puede hacer el productor o el usuario
¡No requiere ir al campo a medir!

¿Y las desventajas?

Slide 64

Desventajas o problemas…




No todos los métodos están en los GIS
¿Cómo generar ausencias?






Hay que caracterizar primero SUS ausencias
Otro tema: los estadísticos de éxito






Al azar (MCAR)
En rachas (usual en datos meteorológicos)

Datos cuantitativos
Datos categóricos
Considerar o no el impacto en el modelo

Un detalle más: el tiempo de cálculo

Slide 65

¿Cómo generar ausencias?
Es más fácil que generar errores
 Hipótesis inicial: MCAR


 Test



descrito en Little (1988)

En la práctica también había rachas
 Rotura

de instrumento
 Pérdida de documento original en papel


Quizá parezca excesivo detalle, pero…

Slide 66

Estadísticos de éxito


Métricas usuales:
 RMSE:

Da mucho peso a errores groseros
 MAD (Promedio): ídem RMSE
 Percentiles: quizá más apropiado

Asumiendo que existe un dato verdadero
existe un Método Óptimo que lo asigna
 No existe en cambio un Peor Método


 Podría

usarse un Naive como referencia

Slide 67

Más sobre Estadísticos


Podría considerarse el modelo




Errores sistemáticos pueden ser peores que errores
groseros
Groseros son detectables; sistemáticos no
Ej.: errores en una factura:
– Sesgados: ¡el cliente se queja dependiendo del signo!



Otro problema: RMSE vs. Exactitud original


Ej.: RMSE lluvia ~7 mm/día; Exactitud 5 mm/día,
pero ¡¡precisión 0.1 mm/día!!

Slide 68

Plan
 Introducción
 Revisión

de herramientas estadísticas
 Detectando problemas
 Imputando valores ausentes
 Ejemplos

Slide 69

Caso del Viento horario
Problema:
 Completar un banco de datos de viento
de superficie horario
 Comparar diferentes métodos, en dos
diferentes casos:
 Ausencias

al azar
 Ausencias planificadas

Fuente: Proyecto CONICYT/BID 51/94 (1999)

Slide 70

Diseño de la metodología
Seleccionar un banco apropiado, lo más
completo posible
 Ocultar temporalmente los valores a ser
imputados (elegidos al azar o no)
 Para cada método


 imputar

todos los valores ausentes
 calcular RMSE y MAD de las discrepancias
entre el valor real y el imputado

Slide 71

El banco de datos

B R A ZIL

N T IN A



Cinco estaciones meteorológicas, separadas no
más de 400 km, en terreno suave
Aproximadamente 25 meses de registros
horarios

+
+
P as o de los Toros
+

A RG E



M elo

Treinta y Tres

+
+
C arras c o P unta del E s te

100 k m

A TLA N TIC O C E A N

Slide 72

Descripción de los métodos


Interpolación Óptima (equivalente a Krigeado
Ordinario)



Métodos basados en el Análisis de
Componentes Principales:
 Temporal

Interpolation of Principal Scores

(TIPS)
 Penalty Of the Principal Scores (POPS)

Slide 73

Decorrelación espacio-temporal
Tiene que ver Scores 9 & 10
con el ciclo
diurno

-10

20

0.00
-20

0.3
0.2
0.1
0.0

0
10
S c ore [m /s ]

0.02

1

0.04
f [1/hr]

0.3
0.2
0.1

0.06

0.02

1

0.04
f [1/hr]

5

10
15
t [hr]

20

25

0.05
0
S c ore [m /s ]

1.5
1.0
0.5

10
15
t [hr]

1

20

25

0.05
-5

0
S c ore [m /s ]

1.5

5

1.0
0.5
0.0

0.02

0.04
f [1/hr]

0.06

0

0.02

1

0.04
f [1/hr]

0.06

0.5

0

5

0.10

5

0.5

0

0.15

0.00
-5

0

0
0

0.10

0.06

0.5

0

0.15

0.0

0

0.5

0.20

20

0.0
0

0.20

0.00

-10

0.4
p [m 2/s 2]

p [m 2/s 2]

0.4

0
10
S c ore [m /s ]

0.25

1 0 0 0 *p [ m 2 / s 2 ]

0.00
-20

0.05

0.25

1 0 0 0 *p [ m 2 / s 2 ]

0.05

f [ 1 / (m / s )]

0.10
f [ 1 / (m / s )]

f [ 1 / (m / s )]

0.10

f [ 1 / (m / s )]

Scores 1 & 2

0
0

5

10
15
t [hr]

20

25

0

5

10
15
t [hr]

20

25

Slide 74

Resultados preliminares obtenidos
a) Ausencias sistemáticas

Se asumieron tres lecturas diarias (8, 14 y
21 hs.), en cuatro de cinco estaciones
 Con TIPS se logra un RMSE de 2.05 m/s
 Con POPS se logra RMSE de 2.84 m/s
 La Interpolación Óptima produce 2.84 m/s
 Asignando simplemente la media histórica
el RMSE es de 3.24 m/s


Slide 75

Resultados preliminares obtenidos
b) Ausencias al azar

Se ocultó aleatoriamente un 20% de los
datos, criterio MCAR
 Con TIPS se logra un RMSE de 1.67 m/s
 Con POPS se logra RMSE de 2.33 m/s
 La Interpolación Óptima produce 2.37 m/s
 Asignando la media histórica el RMSE es de
2.76 m/s


Slide 76

Conclusiones
El uso de la información temporal da
resultados más precisos, sugiriendo un
muestreo excesivo para esta zona
 Los resultados deben ser corroborados
en ensayos más extensos, para darle
validez estadística
 Otros métodos deben ser incluídos en la
comparación


Ver informe final de 1999

Slide 77

Caso de la lluvia diaria






Nuevamente, un problema tabular
10 estaciones, registros diarios (mm/día)
Correlación espacial pero no temporal
 TIPS falla miserablemente

Problema difícil
 RMSE

del Mejor vs. Peor método evaluado
difieren en 30%



Mejor RMSE: 7 mm/día; según los expertos,
la Exactitud~5 mm/día (!)

Slide 78

Sugerencias para lectura…


Informe CONICYT/BID 51/94 (1999)
 Análisis

comparativo de ~30 métodos

– Imputación
– Detección de outliers
 Descripción

de métodos, referencias, etc.
 No orientado a meteorología
 Único estudio sistemático conocido

Slide 79

Módulo 4:
Mejorando la Exactitud
Carlos López Vázquez
[email protected]

Módulo 4: Mejorando la Exactitud Carlos López Vázquez [email protected] Plan  Introducción  Revisión de herramientas estadísticas  Detectando problemas  Imputando valores ausentes  Ejemplos.

Transcript Módulo 4: Mejorando la Exactitud Carlos López Vázquez [email protected] Plan  Introducción  Revisión de herramientas estadísticas  Detectando problemas  Imputando valores ausentes  Ejemplos.

Directory