Módulo 4: Mejorando la Exactitud Carlos López Vázquez [email protected] Plan  Introducción  Revisión de herramientas estadísticas  Detectando problemas  Imputando valores ausentes  Ejemplos.

Download Report

Transcript Módulo 4: Mejorando la Exactitud Carlos López Vázquez [email protected] Plan  Introducción  Revisión de herramientas estadísticas  Detectando problemas  Imputando valores ausentes  Ejemplos.

Slide 1

Módulo 4:
Mejorando la Exactitud
Carlos López Vázquez
[email protected]


Slide 2

Plan
 Introducción
 Revisión

de herramientas estadísticas
 Detectando problemas
 Imputando valores ausentes
 Ejemplos


Slide 3

Una posible categorización de datos
Números reales Imágenes SPOT,
o enteros
LANDSAT, etc.; MDE

RASTER
Geología, Uso de suelo

Categóricos

MDE como TIN
VECTOR

Límites administrativos
Números reales
o enteros

TABULAR

Datos censales

Categóricos
Textual

Datos meteorológicos

Guía telefónica

Mezcla de los
anteriores

Encuesta de hogares


Slide 4

El cómo de la detección de outliers


Métodos tradicionales para el caso
multivariado
 Distancia

de Mahalanobis
(x-x)/s <==>(x-x)TC-1 (x-x)

¿Cómo hallar C y x? => Clásico, MCD, MVE, Hadi
(1994), Rocke (1996), etc.
 Análisis

de Componentes Principales (PCA)

Hawkins, 1974; López, 1994a,b, 1996, 1997
 Otros

métodos...


Slide 5

Mahalanobis de vuelta…




Si d2(x)=(x-T)TC-1 (x-T)>dcrit outlier
Depende de cómo se construyen C y T puede
ser inapropiado si hay outliers (¡!)
Ej: Philips data


Slide 6

¿Cómo hallar C y T?
•Estimadores clásicos de media y varianza
•Estimadores robustos
•High Breakdown estimators

Robust is NOT High
Breakdown
(c )
(b )

(a )
(d )


Slide 7

MCD (Rousseeuw et al., 1987)






Slide 8

FAST-MCD (Rousseeuw et al., 1999)





Mismo criterio, otro algoritmo
Más rápido, etc.
Maneja “exact fit”


Slide 9

Hadi (1992,1994)
Similar al MCD, pero no combinatorio
 Más rápido que otros
 Implementado en SAS y otros paquetes
estadísticos



Slide 10

MVE (Rousseeuw et al., 1990)
C y T tal que hay ε
datos fuera de
cada elipse
 C y T no son ahora
función directa de
un subconjunto de
datos



Slide 11

Comentario…


Los anteriores son casos particulares de
estimadores más generales
 Estimador-S
 Estimador-M



Veamos apenas una definición de cada
uno de ellos


Slide 12

Estimador-S


C=C(X) y T=T(X) tales que:

det(C) sea mínimo
1

 d   b

n
i

0

i

di 



 xi  T 

T

C

1

 xi  T 

ρ(d) función no decreciente
MVE: ρ pertenece al conjunto {0,1}


Slide 13

Estimador-M


C=C(X) y T=T(X) tales que:

det(C) sea mínimo

 x

i

 T  * u1 d i   0

i

1
n


T
2




 C
x

T
x

T
u
d
 i
i
2
i
i

u1(d) y u2(d) ni negativas ni decrecientes si d>0


Slide 14

Aplicación: Philips data


Slide 15

Recapitulando…
Estimadores basados en Mahalanobis
 Difieren entre sí en la forma de estimar
unos C y T apropiados
 Dados C y T son simples de aplicar
 Matemáticamente tratables
 Para datos tabulares
 Requieren datos sin ausencias


quizá hay que imputar primero


Slide 16

Minor ACP (Hawkins 1974)
Los CP mayores (i.e. con gran valor
propio) tienen interpretación física
 Normalmente se retienen, y los menores
se descartan
 Hawkins propone utilizar los scores
asociados como detectores de errores
 Son típicamente pequeños, e indican
algo inusual cuando son grandes



Slide 17

Otras líneas: Conglomerados


Idea básica:







Clasificar los datos en grupos
Elegir puntos en los grupos
pequeños como candidatos a
outliers
Calcular la distancia entre los
puntos candidatos y los
grupos no-candidatos
Si los puntos candidato están
lejos de todos los otros no
candidatos, entonces se les
declara outliers

© Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004


Slide 18

Detección en el contexto de regresión
Idea: ajustar con una función, analizar las
discrepancias y separar las más groseras
 Problema: los errores pueden
enmascararse unos a otros
 Problema: los errores pueden afectar
significativamente la función de ajuste
(Ejemplo: OLS)
 Solución ==> High breakdown methods
(LTS, LMS, etc.)



Slide 19

Efecto de errores en regresión(1)
4

x 10
1.7
1.6
1.5
1.4
1.3
1.2
75

76

77

78

Reclamos por incendio en Bélgica

79

80

81


Slide 20

Efecto de errores en regresión(2)
40
35
30
25
20
15
10
5
0
0

20

40

60

Caudal en un dos puntos de un mismo río

80


Slide 21

OLS (Gauss, 18XX?)
Minimiza la suma de cuadrados de
residuos
 Sensible a outliers en varias formas
 Muy afectado por enmascaramiento
 ¡Implementado everywhere!
 En problemas tabulares tolera ausencias


 Requiere

un OLS por cada combinación de
ausencia/presenciapuede ser pesado…


Slide 22

LMS (Rousseeuw 1984)
Minimiza la mediana de los residuos
 Es como OLS si se descartara cierto 50% de
la población
 Es por lo tanto del tipo High Breakdown
 Problema combinatorio ¡explota!
 Existen alternativas no combinatorias
(Hawkins 1993)
 Igual que OLS: tolera ausencias



Slide 23

LTS (Rousseeuw 1984)
Minimiza la suma ponderada de los residuos
 Pesos se eligen del conjunto {0.0,1.0}
 El total de casos 0.0 se especifica a priori
 Es por lo tanto del tipo High Breakdown
 Problema combinatorio ¡explota!
 Existen alternativas no combinatorias
(Hawkins 1993)
 También tolera ausencias



Slide 24

Ejemplo: Rousseeuw et al., 1999
Resultaron ser
estrellas gigantes

Previamente no
se distinguían


Slide 25

Datos raster: caso del MDE
Ampliamente estudiado en Agrimensura
 Antes: pocos puntos, muy precisos


 Típicamente

formato TIN
 Raster se calculaba a partir del TIN


Antes: fotogrametría aérea
 Típicamente

curvas de nivel
 Raster se calculaba a partir de las curvas

El productor dispone de controles
internos
 También se detectan errores al comparar
con la hidrografía, etc.



Slide 26

Situación presente



Surgen otros métodos de creación (satélite, GPS,
LIDAR, etc.)
Muchos más puntos, algo menos precisos







Imagen de satélite, etc.
Se genera directamente el raster

¡El usuario puede ahora ir al campo y controlar!
Detalle esencial: un pixel puede estar errado sin
implicar al vecino
Amerita otros métodos de control…


Slide 27

Método de Hannah (1981)
MDE en formato raster
 Establece límites en la pendiente y
cambio de pendiente


 ¡Requiere

especificarlos a priori!

Usa interpolante local
 Fácilmente implementable en GIS
 Poco impacto en la literatura;
mencionado aquí por completness



Slide 28

Método de Felicísimo (1994)
Imputa interpolando con los vecinos
 Cualquier interpolante sirve; propone
polinomio de 2do. grado en (i,j)
 Analiza la distribución de la diferencia del
interpolado vs. el verdadero valor
 Asume normalidad, y saca límites
 Relativamente simple, implementable en
SIG
 Veremos un ejemplo más adelante



Slide 29

Métodos mixtos


Usan indirectamente métodos de
regresión para detectar los errores
 Uso

de la verosimilitud (likelihood)
 Interpretación de los roles de las neuronas en
redes neuronales artificiales


Slide 30

Función de Verosimilitud (López, 1997)
En un contexto de Kriging aparece el
Variograma
 Depende de: Tipo, Alcance a y Meseta S
 Método de VCMV (Samper et al., 1987)


 Elegir

a y S que maximicen la VCMV
asumiendo que no dependen del tiempo…



¿Cómo es el método de VCMV?


Slide 31

VCMV (Samper, 1987)


VCMV: Elijo a y S, y para cada fecha repito
para los n puntos disponibles:
 Retiro

el i-ésimo
 Interpolo mediante krigeado
 Conservo la discrepancia observada

Luego se calcula la Verosimilitud
 Nuestro n era relativamente pequeño
 En general el proceso requiere minimizar
una función no lineal costosa…



Slide 32

Nuestro problema particular de VCMV





En realidad, nosotros no necesitábamos a y S …
Sólo interpolaríamos en los puntos dato
Para nuestros fines sólo necesitábamos una C y T
obtenida de los datos experimentales







No hubo necesidad de minimizar la función

Se asumió homogeneidad e isotropía
Se asumió también a y S constantes en el tiempo
Idea: dados a y S, la Verosimilitud pasa a ser
función del tiempo; un número por día
Días con valores extremos¡outliers!


Slide 33

Reflexión…
Casi nadie usa o referencia la
Verosimilitud misma; sólo la maximiza
 Algo parecido a los Mínimos Cuadrados


 ¿alguien

se fija si los mínimos cuadrados son
pequeños?



Resultó ser uno de los mejores métodos
en nuestros experimentos
No por trillado el camino es conocido
López (2005)


Slide 34

Métodos mixtos


Usan indirectamente métodos de
regresión para detectar los errores
 Uso

de la verosimilitud (likelihood)
 Interpretación de los roles de las neuronas
en redes neuronales artificiales


Slide 35

Uso de redes neuronales
Se reconocen dos líneas posibles
 Línea 1: Clasificación
 Clasificar

en forma no supervisada
 Clusters con pocos elementos  outliers


Línea 2: Regresión
 Ajustar



por MC y analizar discrepancias

Línea 2.5: Regresión+…
 Ídem

2, pero luego interpretar roles
 Unpublished work, by López


Slide 36

Tomado de Benítez et al., 1997

ANN para regresión
y  13 . 92 v1  23 . 179 v 2  2 . 143 v 3  2 . 143 v 3
sepal length

v1

sepal width

v2
petal length

petal width

v3

y


Slide 37

ANN para regresión
sepal length

sepal width

petal length

petal width


Slide 38

Versión modificada
y  13 . 92 v1  23 . 179 v 2  2 . 143 v 3

z

 if ( v     r  v  )

then z  1


else z  0


¡No participa!
y


Slide 39

Ventajas…









La Red se entrena como siempre para
regresión/clasificación
Se inspeccionan los pesos; no hay que reentrenar
Los outliers no se decretan; ¡surgen!
Desventaja: los pesos pueden ser muy sensibles a
los outliersmasking
Fue testeado en el ejemplo (caso pequeño, de
paper) y con lluvia, etc.
¡Fue el óptimo!
Es aún una teoría. Queda mucho por hacer…


Slide 40

Ejemplos de detección de outliers



Comentaremos algunos casos
Tabular Cuantitativo: datos meteorológicos
– Observados en una red de puntos fijos
– Muchas medidas en el tiempo


Viento horario
– Fuerte correlación espacio-tiempo



Lluvia diaria
– En Uruguay, sólo correlación espacial




Tabular Categórico: Datos de un Censo
Raster: MDE


Slide 41

Datos tabulares: lluvia y viento


Usamos lluvia diaria y viento horario






Lluvia tiene sólo correlación espacial
Viento tiene espacio-temporal

Para el viento, 35% de los errores simulados
aparecieron en el primer paso de depuración
Para lluvia, 81% de los errores simulados
aparecieron en el primer paso de depuración


Slide 42

Datos tabulares: censo nacional
Sólo para datos categóricos puros
 Pudimos remover 50% de los errores
revisando un 10% del conjunto


 Cinco



veces mejor que digitar de nuevo

Método general, automatizable, basado
en ACP


Slide 43

Gráficamente…

Desempeño
promedio
del método
de López

O verall res ults vs . effort level
100
3% of the s urvey s initially c ontam inated
w ith 2 errors eac h; M arginal 0.10%

90

o n lin e

80

e ope
ra t i

60

Diferentes eventos del
experimento analizados
con el método de López

B es t p
o s s ib l

% of errors found

70

50
40
30
20
10

E x pec

ted

a
p e r fo r m
e
t
a
c
li
dup

c us
n c e lo

0
0

2

4

6

8
10
12
% of c ontrolled data

14

16

Desempeño del
18
20
método
de
referencia


Slide 44

Datos raster: MDE (López 1997)


Buscamos algunos tipos de errores
 Salt

and pepper
 Spike
 Pyramid

El método es aplicable para cualquier raster
cuantitativo (imágenes, fotos, etc.)
 En el artículo, 40% de los errores fueron
encontrados con probabilidad > 88%
 Podría ser una herramienta útil para
productores y usuarios



Slide 45

Felicísimo vs. López 

50

50

100

100

150

150

200

200

250

250

300

300

350

350
20

40

60

80

100

120

140

160

180

200

20

40

60

80

100

120

140

160

¿?

180

200

Binary map of the errors located up to the 15 per cent effort with the method of
Felicísimo, 1994 (left) and López, 1997 (right). Black areas are for the suggested
locations up to the 3 per cent effort; gray ones are obtained after 15 per cent effort


Slide 46

Inaccesible al
usuario final

Felicísimo vs. López
12.0

12

55.0

11

50.0

55

11.8

50

- : 0
--: 2
: : 4

11.4

45

10

11.0
10.8

45.0

R M S E [m ]

R M S E [m ]

11.2

9

- : 0

40

R M S E [m ]

11.6

R M S E [m ]

El método de
López encuentra
errores más
grandes al
principio

--: 2
: : 4

40.0

35
- : 0
--: 2
: : 4

30
8

10.6

35.0
- : 0
--: 2
: : 4

10.4
7

25
30.0
20

10.2
10.0

6
0

1
2
E ffort [% ]

3

25.0
0

3

6
9
E ffort [% ]

12

15

15
0

1
2
E ffort [% ]

3

0

3

6
9
E ffort [% ]

12

15

El método de López
Evolution of the accuracy (left1 & left2) and RMSE found of the
más up
rápido
cumulated errors mejora
(right1 & right2)
to a given effort vs. the effort,
after removing the hypothesis
of the perfect inspector. Plots are for the
la exactitud
¡Accesible al

methods of Felicísimo (1994) (with the -o- symbol) and the modified
usuario final!
method of López (1997)


Slide 47

¿En qué
estábamos?
¿Para dónde
íbamos?


Slide 48

Otros casos


Si la Exactitud es muy afectada por outliers
¡detectar y remover outliers!



¿Y después?
 Errores

sistemáticos
 Errores no groseros

Requieren otro tipo de enfoque
 Ej.: PAI



Slide 49

Precision Accuracy Improvement








Hecho #1: se inventó el GIS
Hecho #2: se inventó el GPS
Mapas existentes + GIS Mapas digitales (OK)
Mapas digitales + GIS Más usuarios & usos
Mapas digitales + usuarios + usos + GPS ¡Sorpresa!
Mapas existentes quedan inutilizados para ciertos
propósitos





Ductos, desagües, etc. localizados con GPS
Tráfico y tránsito

Exactitud requerida >> Exactitud suministrada


Slide 50

Caso típico (OS GB)

CA Access Map

MAGIC

Follows old OS well

Follows new OS badly !
Fuente: Robin Waters


Slide 51

¿Qué puede hacer el productor?







Alternativa 1: Dejar todo como está
Alternativa 2: Hacer todo de nuevo
Alternativa 3: Intentar arreglarPAI
Problema esencialmente vinculado al error
planimétrico
Mapas existentes tienen un gran valor “residual”





Actualizados (±…)
Populares (muchas veces únicos…)
Muchísimos atributos (¡cierto!)
Son base para otros mapas derivados (¡muy cierto!)


Slide 52

PAI
Idea: corregir masivamente la planimetría
 Ej.: OS GB; TIGER files USA
 Problema internacional
 Datos digitalizados… o no
 Impactos


 del

lado del productor
 del lado del usuario


Slide 53

del lado del productor…





Reingeniería de procesos
Probable actualización tecnológica
Alternativas:







Tercerización / Trabajo propio
Modificación / Nuevo relevamiento
Incorporación de otras fuentes

¿Financiación?
Plan de actualización



Por dónde empezar
Cronograma de entregas


Slide 54

del lado del usuario…


¿Impacta/no impacta?







Análisis de riesgo: do nothing vs. arreglo
Si impactaalternativas:





¿Sólo datos PAI-compatibles?
¿Datos generados internamente?

Esperar a que PAI termine
Acompasar entregas con modificaciones
internas

Ambas tienen pros y contras


Slide 55

Resumen: No matar al mensajero…
No puede des-inventarse el GPS
 No puede des-inventarse el GIS
 No pueden des-digitalizarse los mapas


Hay que entender los problemas
 Hay que tomar decisiones apropiadas
 Hay que aprender de otros ejemplos



Slide 56

¿Estamos perdidos?


Slide 57

Plan
 Introducción
 Revisión

de herramientas estadísticas
 Detectando problemas
 Imputando valores ausentes
 Ejemplos


Slide 58

Recordemos: ¿Porqué imputar?
Detectado un error…
 Modelos que no toleran ausencias
 Bajar costo al medir menos
 Típicamente métodos de Interpolación


 Medidas



escasas, de alta exactitud

Actualmente más y más Aproximación
 Más

automatismo, menos control humano
 Medidas abundantes, de menor exactitud


Slide 59

Enfoque es función del dato…


Datos “puramente” espaciales
 Caso

más familiar para la audiencia
 Métodos de Interpolación:
– TIN, Splines, Kriging, Cressman, etc.
 Ej.:



MDE, tipo de suelo, etc.

Datos espacio-temporales
 Correlación

espacial + temporal
 Ciencias de la Tierra, pero no Agrimensura
 Ej.: Meteorológicos, uso el suelo, etc.


Formulación sensiblemente específica


Slide 60

Datos puramente espaciales
En la gran mayoría son Métodos lineales
 Coeficientes son función de punto
 Toleran ausencias
 A veces son lineales pero complicados


 Cokriging



Hay también métodos no lineales
 Redes

neuronales
 Ecuaciones constitutivas (EDP)


Slide 61

Datos espacio-temporales
Típicamente equi-muestreados en el tiempo
 Problema no resuelto: covarianza cruzada
tiempo-espacio
 Muy usual en las Ciencias de la Tierra


 Ej.:



Habitual en las aplicaciones GIS
 Ej.:



Meteorología, Hidrología, etc.

Tráfico/Tránsito, uso del suelo (!)

Poco o mal manejado en GIS comerciales


Slide 62

Muchos métodos…


Slide 63

Procedimiento sugerido…


Repita un número grande de veces







Comparar estadísticos, y luego elija…
Ventajas:







Generar ausencias al azar
Imputar con método1, método2, etc.
Calcular estadísticos de ajuste (distancias)

Tiene base estadística
Lo puede hacer el productor o el usuario
¡No requiere ir al campo a medir!

¿Y las desventajas?


Slide 64

Desventajas o problemas…




No todos los métodos están en los GIS
¿Cómo generar ausencias?






Hay que caracterizar primero SUS ausencias
Otro tema: los estadísticos de éxito






Al azar (MCAR)
En rachas (usual en datos meteorológicos)

Datos cuantitativos
Datos categóricos
Considerar o no el impacto en el modelo

Un detalle más: el tiempo de cálculo


Slide 65

¿Cómo generar ausencias?
Es más fácil que generar errores
 Hipótesis inicial: MCAR


 Test



descrito en Little (1988)

En la práctica también había rachas
 Rotura

de instrumento
 Pérdida de documento original en papel


Quizá parezca excesivo detalle, pero…


Slide 66

Estadísticos de éxito


Métricas usuales:
 RMSE:

Da mucho peso a errores groseros
 MAD (Promedio): ídem RMSE
 Percentiles: quizá más apropiado

Asumiendo que existe un dato verdadero
existe un Método Óptimo que lo asigna
 No existe en cambio un Peor Método


 Podría

usarse un Naive como referencia


Slide 67

Más sobre Estadísticos


Podría considerarse el modelo




Errores sistemáticos pueden ser peores que errores
groseros
Groseros son detectables; sistemáticos no
Ej.: errores en una factura:
– Sesgados: ¡el cliente se queja dependiendo del signo!



Otro problema: RMSE vs. Exactitud original


Ej.: RMSE lluvia ~7 mm/día; Exactitud 5 mm/día,
pero ¡¡precisión 0.1 mm/día!!


Slide 68

Plan
 Introducción
 Revisión

de herramientas estadísticas
 Detectando problemas
 Imputando valores ausentes
 Ejemplos


Slide 69

Caso del Viento horario
Problema:
 Completar un banco de datos de viento
de superficie horario
 Comparar diferentes métodos, en dos
diferentes casos:
 Ausencias

al azar
 Ausencias planificadas

Fuente: Proyecto CONICYT/BID 51/94 (1999)


Slide 70

Diseño de la metodología
Seleccionar un banco apropiado, lo más
completo posible
 Ocultar temporalmente los valores a ser
imputados (elegidos al azar o no)
 Para cada método


 imputar

todos los valores ausentes
 calcular RMSE y MAD de las discrepancias
entre el valor real y el imputado


Slide 71

El banco de datos

B R A ZIL

N T IN A



Cinco estaciones meteorológicas, separadas no
más de 400 km, en terreno suave
Aproximadamente 25 meses de registros
horarios

+
+
P as o de los Toros
+

A RG E



M elo

Treinta y Tres

+
+
C arras c o P unta del E s te

100 k m

A TLA N TIC O C E A N


Slide 72

Descripción de los métodos


Interpolación Óptima (equivalente a Krigeado
Ordinario)



Métodos basados en el Análisis de
Componentes Principales:
 Temporal

Interpolation of Principal Scores

(TIPS)
 Penalty Of the Principal Scores (POPS)


Slide 73

Decorrelación espacio-temporal
Tiene que ver Scores 9 & 10
con el ciclo
diurno

-10

20

0.00
-20

0.3
0.2
0.1
0.0

0
10
S c ore [m /s ]

0.02

1

0.04
f [1/hr]

0.3
0.2
0.1

0.06

0.02

1

0.04
f [1/hr]

5

10
15
t [hr]

20

25

0.05
0
S c ore [m /s ]

1.5
1.0
0.5

10
15
t [hr]

1

20

25

0.05
-5

0
S c ore [m /s ]

1.5

5

1.0
0.5
0.0

0.02

0.04
f [1/hr]

0.06

0

0.02

1

0.04
f [1/hr]

0.06

0.5

0

5

0.10

5

0.5

0

0.15

0.00
-5

0

0
0

0.10

0.06

0.5

0

0.15

0.0

0

0.5

0.20

20

0.0
0

0.20

0.00

-10

0.4
p [m 2/s 2]

p [m 2/s 2]

0.4

0
10
S c ore [m /s ]

0.25

1 0 0 0 *p [ m 2 / s 2 ]

0.00
-20

0.05

0.25

1 0 0 0 *p [ m 2 / s 2 ]

0.05

f [ 1 / (m / s )]

0.10
f [ 1 / (m / s )]

f [ 1 / (m / s )]

0.10

f [ 1 / (m / s )]

Scores 1 & 2

0
0

5

10
15
t [hr]

20

25

0

5

10
15
t [hr]

20

25


Slide 74

Resultados preliminares obtenidos
a) Ausencias sistemáticas

Se asumieron tres lecturas diarias (8, 14 y
21 hs.), en cuatro de cinco estaciones
 Con TIPS se logra un RMSE de 2.05 m/s
 Con POPS se logra RMSE de 2.84 m/s
 La Interpolación Óptima produce 2.84 m/s
 Asignando simplemente la media histórica
el RMSE es de 3.24 m/s



Slide 75

Resultados preliminares obtenidos
b) Ausencias al azar

Se ocultó aleatoriamente un 20% de los
datos, criterio MCAR
 Con TIPS se logra un RMSE de 1.67 m/s
 Con POPS se logra RMSE de 2.33 m/s
 La Interpolación Óptima produce 2.37 m/s
 Asignando la media histórica el RMSE es de
2.76 m/s



Slide 76

Conclusiones
El uso de la información temporal da
resultados más precisos, sugiriendo un
muestreo excesivo para esta zona
 Los resultados deben ser corroborados
en ensayos más extensos, para darle
validez estadística
 Otros métodos deben ser incluídos en la
comparación


Ver informe final de 1999


Slide 77

Caso de la lluvia diaria






Nuevamente, un problema tabular
10 estaciones, registros diarios (mm/día)
Correlación espacial pero no temporal
 TIPS falla miserablemente

Problema difícil
 RMSE

del Mejor vs. Peor método evaluado
difieren en 30%



Mejor RMSE: 7 mm/día; según los expertos,
la Exactitud~5 mm/día (!)


Slide 78

Sugerencias para lectura…


Informe CONICYT/BID 51/94 (1999)
 Análisis

comparativo de ~30 métodos

– Imputación
– Detección de outliers
 Descripción

de métodos, referencias, etc.
 No orientado a meteorología
 Único estudio sistemático conocido


Slide 79

Módulo 4:
Mejorando la Exactitud
Carlos López Vázquez
[email protected]