Módulo 4: Mejorando la Exactitud Carlos López Vázquez [email protected] Plan Introducción Revisión de herramientas estadísticas Detectando problemas Imputando valores ausentes Ejemplos.
Download ReportTranscript Módulo 4: Mejorando la Exactitud Carlos López Vázquez [email protected] Plan Introducción Revisión de herramientas estadísticas Detectando problemas Imputando valores ausentes Ejemplos.
Slide 1
Módulo 4:
Mejorando la Exactitud
Carlos López Vázquez
[email protected]
Slide 2
Plan
Introducción
Revisión
de herramientas estadísticas
Detectando problemas
Imputando valores ausentes
Ejemplos
Slide 3
Una posible categorización de datos
Números reales Imágenes SPOT,
o enteros
LANDSAT, etc.; MDE
RASTER
Geología, Uso de suelo
Categóricos
MDE como TIN
VECTOR
Límites administrativos
Números reales
o enteros
TABULAR
Datos censales
Categóricos
Textual
Datos meteorológicos
Guía telefónica
Mezcla de los
anteriores
Encuesta de hogares
Slide 4
El cómo de la detección de outliers
Métodos tradicionales para el caso
multivariado
Distancia
de Mahalanobis
(x-x)/s <==>(x-x)TC-1 (x-x)
¿Cómo hallar C y x? => Clásico, MCD, MVE, Hadi
(1994), Rocke (1996), etc.
Análisis
de Componentes Principales (PCA)
Hawkins, 1974; López, 1994a,b, 1996, 1997
Otros
métodos...
Slide 5
Mahalanobis de vuelta…
Si d2(x)=(x-T)TC-1 (x-T)>dcrit outlier
Depende de cómo se construyen C y T puede
ser inapropiado si hay outliers (¡!)
Ej: Philips data
Slide 6
¿Cómo hallar C y T?
•Estimadores clásicos de media y varianza
•Estimadores robustos
•High Breakdown estimators
Robust is NOT High
Breakdown
(c )
(b )
(a )
(d )
Slide 7
MCD (Rousseeuw et al., 1987)
…
…
Slide 8
FAST-MCD (Rousseeuw et al., 1999)
Mismo criterio, otro algoritmo
Más rápido, etc.
Maneja “exact fit”
Slide 9
Hadi (1992,1994)
Similar al MCD, pero no combinatorio
Más rápido que otros
Implementado en SAS y otros paquetes
estadísticos
Slide 10
MVE (Rousseeuw et al., 1990)
C y T tal que hay ε
datos fuera de
cada elipse
C y T no son ahora
función directa de
un subconjunto de
datos
Slide 11
Comentario…
Los anteriores son casos particulares de
estimadores más generales
Estimador-S
Estimador-M
Veamos apenas una definición de cada
uno de ellos
Slide 12
Estimador-S
C=C(X) y T=T(X) tales que:
det(C) sea mínimo
1
d b
n
i
0
i
di
xi T
T
C
1
xi T
ρ(d) función no decreciente
MVE: ρ pertenece al conjunto {0,1}
Slide 13
Estimador-M
C=C(X) y T=T(X) tales que:
det(C) sea mínimo
x
i
T * u1 d i 0
i
1
n
T
2
C
x
T
x
T
u
d
i
i
2
i
i
u1(d) y u2(d) ni negativas ni decrecientes si d>0
Slide 14
Aplicación: Philips data
Slide 15
Recapitulando…
Estimadores basados en Mahalanobis
Difieren entre sí en la forma de estimar
unos C y T apropiados
Dados C y T son simples de aplicar
Matemáticamente tratables
Para datos tabulares
Requieren datos sin ausencias
quizá hay que imputar primero
Slide 16
Minor ACP (Hawkins 1974)
Los CP mayores (i.e. con gran valor
propio) tienen interpretación física
Normalmente se retienen, y los menores
se descartan
Hawkins propone utilizar los scores
asociados como detectores de errores
Son típicamente pequeños, e indican
algo inusual cuando son grandes
Slide 17
Otras líneas: Conglomerados
Idea básica:
Clasificar los datos en grupos
Elegir puntos en los grupos
pequeños como candidatos a
outliers
Calcular la distancia entre los
puntos candidatos y los
grupos no-candidatos
Si los puntos candidato están
lejos de todos los otros no
candidatos, entonces se les
declara outliers
© Tan,Steinbach, Kumar
Introduction to Data Mining
4/18/2004
Slide 18
Detección en el contexto de regresión
Idea: ajustar con una función, analizar las
discrepancias y separar las más groseras
Problema: los errores pueden
enmascararse unos a otros
Problema: los errores pueden afectar
significativamente la función de ajuste
(Ejemplo: OLS)
Solución ==> High breakdown methods
(LTS, LMS, etc.)
Slide 19
Efecto de errores en regresión(1)
4
x 10
1.7
1.6
1.5
1.4
1.3
1.2
75
76
77
78
Reclamos por incendio en Bélgica
79
80
81
Slide 20
Efecto de errores en regresión(2)
40
35
30
25
20
15
10
5
0
0
20
40
60
Caudal en un dos puntos de un mismo río
80
Slide 21
OLS (Gauss, 18XX?)
Minimiza la suma de cuadrados de
residuos
Sensible a outliers en varias formas
Muy afectado por enmascaramiento
¡Implementado everywhere!
En problemas tabulares tolera ausencias
Requiere
un OLS por cada combinación de
ausencia/presenciapuede ser pesado…
Slide 22
LMS (Rousseeuw 1984)
Minimiza la mediana de los residuos
Es como OLS si se descartara cierto 50% de
la población
Es por lo tanto del tipo High Breakdown
Problema combinatorio ¡explota!
Existen alternativas no combinatorias
(Hawkins 1993)
Igual que OLS: tolera ausencias
Slide 23
LTS (Rousseeuw 1984)
Minimiza la suma ponderada de los residuos
Pesos se eligen del conjunto {0.0,1.0}
El total de casos 0.0 se especifica a priori
Es por lo tanto del tipo High Breakdown
Problema combinatorio ¡explota!
Existen alternativas no combinatorias
(Hawkins 1993)
También tolera ausencias
Slide 24
Ejemplo: Rousseeuw et al., 1999
Resultaron ser
estrellas gigantes
Previamente no
se distinguían
Slide 25
Datos raster: caso del MDE
Ampliamente estudiado en Agrimensura
Antes: pocos puntos, muy precisos
Típicamente
formato TIN
Raster se calculaba a partir del TIN
Antes: fotogrametría aérea
Típicamente
curvas de nivel
Raster se calculaba a partir de las curvas
El productor dispone de controles
internos
También se detectan errores al comparar
con la hidrografía, etc.
Slide 26
Situación presente
Surgen otros métodos de creación (satélite, GPS,
LIDAR, etc.)
Muchos más puntos, algo menos precisos
Imagen de satélite, etc.
Se genera directamente el raster
¡El usuario puede ahora ir al campo y controlar!
Detalle esencial: un pixel puede estar errado sin
implicar al vecino
Amerita otros métodos de control…
Slide 27
Método de Hannah (1981)
MDE en formato raster
Establece límites en la pendiente y
cambio de pendiente
¡Requiere
especificarlos a priori!
Usa interpolante local
Fácilmente implementable en GIS
Poco impacto en la literatura;
mencionado aquí por completness
Slide 28
Método de Felicísimo (1994)
Imputa interpolando con los vecinos
Cualquier interpolante sirve; propone
polinomio de 2do. grado en (i,j)
Analiza la distribución de la diferencia del
interpolado vs. el verdadero valor
Asume normalidad, y saca límites
Relativamente simple, implementable en
SIG
Veremos un ejemplo más adelante
Slide 29
Métodos mixtos
Usan indirectamente métodos de
regresión para detectar los errores
Uso
de la verosimilitud (likelihood)
Interpretación de los roles de las neuronas en
redes neuronales artificiales
Slide 30
Función de Verosimilitud (López, 1997)
En un contexto de Kriging aparece el
Variograma
Depende de: Tipo, Alcance a y Meseta S
Método de VCMV (Samper et al., 1987)
Elegir
a y S que maximicen la VCMV
asumiendo que no dependen del tiempo…
¿Cómo es el método de VCMV?
Slide 31
VCMV (Samper, 1987)
VCMV: Elijo a y S, y para cada fecha repito
para los n puntos disponibles:
Retiro
el i-ésimo
Interpolo mediante krigeado
Conservo la discrepancia observada
Luego se calcula la Verosimilitud
Nuestro n era relativamente pequeño
En general el proceso requiere minimizar
una función no lineal costosa…
Slide 32
Nuestro problema particular de VCMV
En realidad, nosotros no necesitábamos a y S …
Sólo interpolaríamos en los puntos dato
Para nuestros fines sólo necesitábamos una C y T
obtenida de los datos experimentales
No hubo necesidad de minimizar la función
Se asumió homogeneidad e isotropía
Se asumió también a y S constantes en el tiempo
Idea: dados a y S, la Verosimilitud pasa a ser
función del tiempo; un número por día
Días con valores extremos¡outliers!
Slide 33
Reflexión…
Casi nadie usa o referencia la
Verosimilitud misma; sólo la maximiza
Algo parecido a los Mínimos Cuadrados
¿alguien
se fija si los mínimos cuadrados son
pequeños?
Resultó ser uno de los mejores métodos
en nuestros experimentos
No por trillado el camino es conocido
López (2005)
Slide 34
Métodos mixtos
Usan indirectamente métodos de
regresión para detectar los errores
Uso
de la verosimilitud (likelihood)
Interpretación de los roles de las neuronas
en redes neuronales artificiales
Slide 35
Uso de redes neuronales
Se reconocen dos líneas posibles
Línea 1: Clasificación
Clasificar
en forma no supervisada
Clusters con pocos elementos outliers
Línea 2: Regresión
Ajustar
por MC y analizar discrepancias
Línea 2.5: Regresión+…
Ídem
2, pero luego interpretar roles
Unpublished work, by López
Slide 36
Tomado de Benítez et al., 1997
ANN para regresión
y 13 . 92 v1 23 . 179 v 2 2 . 143 v 3 2 . 143 v 3
sepal length
v1
sepal width
v2
petal length
petal width
v3
y
Slide 37
ANN para regresión
sepal length
sepal width
petal length
petal width
Slide 38
Versión modificada
y 13 . 92 v1 23 . 179 v 2 2 . 143 v 3
z
if ( v r v )
then z 1
else z 0
¡No participa!
y
Slide 39
Ventajas…
La Red se entrena como siempre para
regresión/clasificación
Se inspeccionan los pesos; no hay que reentrenar
Los outliers no se decretan; ¡surgen!
Desventaja: los pesos pueden ser muy sensibles a
los outliersmasking
Fue testeado en el ejemplo (caso pequeño, de
paper) y con lluvia, etc.
¡Fue el óptimo!
Es aún una teoría. Queda mucho por hacer…
Slide 40
Ejemplos de detección de outliers
Comentaremos algunos casos
Tabular Cuantitativo: datos meteorológicos
– Observados en una red de puntos fijos
– Muchas medidas en el tiempo
Viento horario
– Fuerte correlación espacio-tiempo
Lluvia diaria
– En Uruguay, sólo correlación espacial
Tabular Categórico: Datos de un Censo
Raster: MDE
Slide 41
Datos tabulares: lluvia y viento
Usamos lluvia diaria y viento horario
Lluvia tiene sólo correlación espacial
Viento tiene espacio-temporal
Para el viento, 35% de los errores simulados
aparecieron en el primer paso de depuración
Para lluvia, 81% de los errores simulados
aparecieron en el primer paso de depuración
Slide 42
Datos tabulares: censo nacional
Sólo para datos categóricos puros
Pudimos remover 50% de los errores
revisando un 10% del conjunto
Cinco
veces mejor que digitar de nuevo
Método general, automatizable, basado
en ACP
Slide 43
Gráficamente…
Desempeño
promedio
del método
de López
O verall res ults vs . effort level
100
3% of the s urvey s initially c ontam inated
w ith 2 errors eac h; M arginal 0.10%
90
o n lin e
80
e ope
ra t i
60
Diferentes eventos del
experimento analizados
con el método de López
B es t p
o s s ib l
% of errors found
70
50
40
30
20
10
E x pec
ted
a
p e r fo r m
e
t
a
c
li
dup
c us
n c e lo
0
0
2
4
6
8
10
12
% of c ontrolled data
14
16
Desempeño del
18
20
método
de
referencia
Slide 44
Datos raster: MDE (López 1997)
Buscamos algunos tipos de errores
Salt
and pepper
Spike
Pyramid
El método es aplicable para cualquier raster
cuantitativo (imágenes, fotos, etc.)
En el artículo, 40% de los errores fueron
encontrados con probabilidad > 88%
Podría ser una herramienta útil para
productores y usuarios
Slide 45
Felicísimo vs. López
50
50
100
100
150
150
200
200
250
250
300
300
350
350
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
¿?
180
200
Binary map of the errors located up to the 15 per cent effort with the method of
Felicísimo, 1994 (left) and López, 1997 (right). Black areas are for the suggested
locations up to the 3 per cent effort; gray ones are obtained after 15 per cent effort
Slide 46
Inaccesible al
usuario final
Felicísimo vs. López
12.0
12
55.0
11
50.0
55
11.8
50
- : 0
--: 2
: : 4
11.4
45
10
11.0
10.8
45.0
R M S E [m ]
R M S E [m ]
11.2
9
- : 0
40
R M S E [m ]
11.6
R M S E [m ]
El método de
López encuentra
errores más
grandes al
principio
--: 2
: : 4
40.0
35
- : 0
--: 2
: : 4
30
8
10.6
35.0
- : 0
--: 2
: : 4
10.4
7
25
30.0
20
10.2
10.0
6
0
1
2
E ffort [% ]
3
25.0
0
3
6
9
E ffort [% ]
12
15
15
0
1
2
E ffort [% ]
3
0
3
6
9
E ffort [% ]
12
15
El método de López
Evolution of the accuracy (left1 & left2) and RMSE found of the
más up
rápido
cumulated errors mejora
(right1 & right2)
to a given effort vs. the effort,
after removing the hypothesis
of the perfect inspector. Plots are for the
la exactitud
¡Accesible al
methods of Felicísimo (1994) (with the -o- symbol) and the modified
usuario final!
method of López (1997)
Slide 47
¿En qué
estábamos?
¿Para dónde
íbamos?
Slide 48
Otros casos
Si la Exactitud es muy afectada por outliers
¡detectar y remover outliers!
¿Y después?
Errores
sistemáticos
Errores no groseros
Requieren otro tipo de enfoque
Ej.: PAI
Slide 49
Precision Accuracy Improvement
Hecho #1: se inventó el GIS
Hecho #2: se inventó el GPS
Mapas existentes + GIS Mapas digitales (OK)
Mapas digitales + GIS Más usuarios & usos
Mapas digitales + usuarios + usos + GPS ¡Sorpresa!
Mapas existentes quedan inutilizados para ciertos
propósitos
Ductos, desagües, etc. localizados con GPS
Tráfico y tránsito
Exactitud requerida >> Exactitud suministrada
Slide 50
Caso típico (OS GB)
CA Access Map
MAGIC
Follows old OS well
Follows new OS badly !
Fuente: Robin Waters
Slide 51
¿Qué puede hacer el productor?
Alternativa 1: Dejar todo como está
Alternativa 2: Hacer todo de nuevo
Alternativa 3: Intentar arreglarPAI
Problema esencialmente vinculado al error
planimétrico
Mapas existentes tienen un gran valor “residual”
Actualizados (±…)
Populares (muchas veces únicos…)
Muchísimos atributos (¡cierto!)
Son base para otros mapas derivados (¡muy cierto!)
Slide 52
PAI
Idea: corregir masivamente la planimetría
Ej.: OS GB; TIGER files USA
Problema internacional
Datos digitalizados… o no
Impactos
del
lado del productor
del lado del usuario
Slide 53
del lado del productor…
Reingeniería de procesos
Probable actualización tecnológica
Alternativas:
Tercerización / Trabajo propio
Modificación / Nuevo relevamiento
Incorporación de otras fuentes
¿Financiación?
Plan de actualización
Por dónde empezar
Cronograma de entregas
Slide 54
del lado del usuario…
¿Impacta/no impacta?
Análisis de riesgo: do nothing vs. arreglo
Si impactaalternativas:
¿Sólo datos PAI-compatibles?
¿Datos generados internamente?
Esperar a que PAI termine
Acompasar entregas con modificaciones
internas
Ambas tienen pros y contras
Slide 55
Resumen: No matar al mensajero…
No puede des-inventarse el GPS
No puede des-inventarse el GIS
No pueden des-digitalizarse los mapas
Hay que entender los problemas
Hay que tomar decisiones apropiadas
Hay que aprender de otros ejemplos
Slide 56
¿Estamos perdidos?
Slide 57
Plan
Introducción
Revisión
de herramientas estadísticas
Detectando problemas
Imputando valores ausentes
Ejemplos
Slide 58
Recordemos: ¿Porqué imputar?
Detectado un error…
Modelos que no toleran ausencias
Bajar costo al medir menos
Típicamente métodos de Interpolación
Medidas
escasas, de alta exactitud
Actualmente más y más Aproximación
Más
automatismo, menos control humano
Medidas abundantes, de menor exactitud
Slide 59
Enfoque es función del dato…
Datos “puramente” espaciales
Caso
más familiar para la audiencia
Métodos de Interpolación:
– TIN, Splines, Kriging, Cressman, etc.
Ej.:
MDE, tipo de suelo, etc.
Datos espacio-temporales
Correlación
espacial + temporal
Ciencias de la Tierra, pero no Agrimensura
Ej.: Meteorológicos, uso el suelo, etc.
Formulación sensiblemente específica
Slide 60
Datos puramente espaciales
En la gran mayoría son Métodos lineales
Coeficientes son función de punto
Toleran ausencias
A veces son lineales pero complicados
Cokriging
Hay también métodos no lineales
Redes
neuronales
Ecuaciones constitutivas (EDP)
Slide 61
Datos espacio-temporales
Típicamente equi-muestreados en el tiempo
Problema no resuelto: covarianza cruzada
tiempo-espacio
Muy usual en las Ciencias de la Tierra
Ej.:
Habitual en las aplicaciones GIS
Ej.:
Meteorología, Hidrología, etc.
Tráfico/Tránsito, uso del suelo (!)
Poco o mal manejado en GIS comerciales
Slide 62
Muchos métodos…
Slide 63
Procedimiento sugerido…
Repita un número grande de veces
Comparar estadísticos, y luego elija…
Ventajas:
Generar ausencias al azar
Imputar con método1, método2, etc.
Calcular estadísticos de ajuste (distancias)
Tiene base estadística
Lo puede hacer el productor o el usuario
¡No requiere ir al campo a medir!
¿Y las desventajas?
Slide 64
Desventajas o problemas…
No todos los métodos están en los GIS
¿Cómo generar ausencias?
Hay que caracterizar primero SUS ausencias
Otro tema: los estadísticos de éxito
Al azar (MCAR)
En rachas (usual en datos meteorológicos)
Datos cuantitativos
Datos categóricos
Considerar o no el impacto en el modelo
Un detalle más: el tiempo de cálculo
Slide 65
¿Cómo generar ausencias?
Es más fácil que generar errores
Hipótesis inicial: MCAR
Test
descrito en Little (1988)
En la práctica también había rachas
Rotura
de instrumento
Pérdida de documento original en papel
Quizá parezca excesivo detalle, pero…
Slide 66
Estadísticos de éxito
Métricas usuales:
RMSE:
Da mucho peso a errores groseros
MAD (Promedio): ídem RMSE
Percentiles: quizá más apropiado
Asumiendo que existe un dato verdadero
existe un Método Óptimo que lo asigna
No existe en cambio un Peor Método
Podría
usarse un Naive como referencia
Slide 67
Más sobre Estadísticos
Podría considerarse el modelo
Errores sistemáticos pueden ser peores que errores
groseros
Groseros son detectables; sistemáticos no
Ej.: errores en una factura:
– Sesgados: ¡el cliente se queja dependiendo del signo!
Otro problema: RMSE vs. Exactitud original
Ej.: RMSE lluvia ~7 mm/día; Exactitud 5 mm/día,
pero ¡¡precisión 0.1 mm/día!!
Slide 68
Plan
Introducción
Revisión
de herramientas estadísticas
Detectando problemas
Imputando valores ausentes
Ejemplos
Slide 69
Caso del Viento horario
Problema:
Completar un banco de datos de viento
de superficie horario
Comparar diferentes métodos, en dos
diferentes casos:
Ausencias
al azar
Ausencias planificadas
Fuente: Proyecto CONICYT/BID 51/94 (1999)
Slide 70
Diseño de la metodología
Seleccionar un banco apropiado, lo más
completo posible
Ocultar temporalmente los valores a ser
imputados (elegidos al azar o no)
Para cada método
imputar
todos los valores ausentes
calcular RMSE y MAD de las discrepancias
entre el valor real y el imputado
Slide 71
El banco de datos
B R A ZIL
N T IN A
Cinco estaciones meteorológicas, separadas no
más de 400 km, en terreno suave
Aproximadamente 25 meses de registros
horarios
+
+
P as o de los Toros
+
A RG E
M elo
Treinta y Tres
+
+
C arras c o P unta del E s te
100 k m
A TLA N TIC O C E A N
Slide 72
Descripción de los métodos
Interpolación Óptima (equivalente a Krigeado
Ordinario)
Métodos basados en el Análisis de
Componentes Principales:
Temporal
Interpolation of Principal Scores
(TIPS)
Penalty Of the Principal Scores (POPS)
Slide 73
Decorrelación espacio-temporal
Tiene que ver Scores 9 & 10
con el ciclo
diurno
-10
20
0.00
-20
0.3
0.2
0.1
0.0
0
10
S c ore [m /s ]
0.02
1
0.04
f [1/hr]
0.3
0.2
0.1
0.06
0.02
1
0.04
f [1/hr]
5
10
15
t [hr]
20
25
0.05
0
S c ore [m /s ]
1.5
1.0
0.5
10
15
t [hr]
1
20
25
0.05
-5
0
S c ore [m /s ]
1.5
5
1.0
0.5
0.0
0.02
0.04
f [1/hr]
0.06
0
0.02
1
0.04
f [1/hr]
0.06
0.5
0
5
0.10
5
0.5
0
0.15
0.00
-5
0
0
0
0.10
0.06
0.5
0
0.15
0.0
0
0.5
0.20
20
0.0
0
0.20
0.00
-10
0.4
p [m 2/s 2]
p [m 2/s 2]
0.4
0
10
S c ore [m /s ]
0.25
1 0 0 0 *p [ m 2 / s 2 ]
0.00
-20
0.05
0.25
1 0 0 0 *p [ m 2 / s 2 ]
0.05
f [ 1 / (m / s )]
0.10
f [ 1 / (m / s )]
f [ 1 / (m / s )]
0.10
f [ 1 / (m / s )]
Scores 1 & 2
0
0
5
10
15
t [hr]
20
25
0
5
10
15
t [hr]
20
25
Slide 74
Resultados preliminares obtenidos
a) Ausencias sistemáticas
Se asumieron tres lecturas diarias (8, 14 y
21 hs.), en cuatro de cinco estaciones
Con TIPS se logra un RMSE de 2.05 m/s
Con POPS se logra RMSE de 2.84 m/s
La Interpolación Óptima produce 2.84 m/s
Asignando simplemente la media histórica
el RMSE es de 3.24 m/s
Slide 75
Resultados preliminares obtenidos
b) Ausencias al azar
Se ocultó aleatoriamente un 20% de los
datos, criterio MCAR
Con TIPS se logra un RMSE de 1.67 m/s
Con POPS se logra RMSE de 2.33 m/s
La Interpolación Óptima produce 2.37 m/s
Asignando la media histórica el RMSE es de
2.76 m/s
Slide 76
Conclusiones
El uso de la información temporal da
resultados más precisos, sugiriendo un
muestreo excesivo para esta zona
Los resultados deben ser corroborados
en ensayos más extensos, para darle
validez estadística
Otros métodos deben ser incluídos en la
comparación
Ver informe final de 1999
Slide 77
Caso de la lluvia diaria
Nuevamente, un problema tabular
10 estaciones, registros diarios (mm/día)
Correlación espacial pero no temporal
TIPS falla miserablemente
Problema difícil
RMSE
del Mejor vs. Peor método evaluado
difieren en 30%
Mejor RMSE: 7 mm/día; según los expertos,
la Exactitud~5 mm/día (!)
Slide 78
Sugerencias para lectura…
Informe CONICYT/BID 51/94 (1999)
Análisis
comparativo de ~30 métodos
– Imputación
– Detección de outliers
Descripción
de métodos, referencias, etc.
No orientado a meteorología
Único estudio sistemático conocido
Slide 79
Módulo 4:
Mejorando la Exactitud
Carlos López Vázquez
[email protected]
Módulo 4:
Mejorando la Exactitud
Carlos López Vázquez
[email protected]
Slide 2
Plan
Introducción
Revisión
de herramientas estadísticas
Detectando problemas
Imputando valores ausentes
Ejemplos
Slide 3
Una posible categorización de datos
Números reales Imágenes SPOT,
o enteros
LANDSAT, etc.; MDE
RASTER
Geología, Uso de suelo
Categóricos
MDE como TIN
VECTOR
Límites administrativos
Números reales
o enteros
TABULAR
Datos censales
Categóricos
Textual
Datos meteorológicos
Guía telefónica
Mezcla de los
anteriores
Encuesta de hogares
Slide 4
El cómo de la detección de outliers
Métodos tradicionales para el caso
multivariado
Distancia
de Mahalanobis
(x-x)/s <==>(x-x)TC-1 (x-x)
¿Cómo hallar C y x? => Clásico, MCD, MVE, Hadi
(1994), Rocke (1996), etc.
Análisis
de Componentes Principales (PCA)
Hawkins, 1974; López, 1994a,b, 1996, 1997
Otros
métodos...
Slide 5
Mahalanobis de vuelta…
Si d2(x)=(x-T)TC-1 (x-T)>dcrit outlier
Depende de cómo se construyen C y T puede
ser inapropiado si hay outliers (¡!)
Ej: Philips data
Slide 6
¿Cómo hallar C y T?
•Estimadores clásicos de media y varianza
•Estimadores robustos
•High Breakdown estimators
Robust is NOT High
Breakdown
(c )
(b )
(a )
(d )
Slide 7
MCD (Rousseeuw et al., 1987)
…
…
Slide 8
FAST-MCD (Rousseeuw et al., 1999)
Mismo criterio, otro algoritmo
Más rápido, etc.
Maneja “exact fit”
Slide 9
Hadi (1992,1994)
Similar al MCD, pero no combinatorio
Más rápido que otros
Implementado en SAS y otros paquetes
estadísticos
Slide 10
MVE (Rousseeuw et al., 1990)
C y T tal que hay ε
datos fuera de
cada elipse
C y T no son ahora
función directa de
un subconjunto de
datos
Slide 11
Comentario…
Los anteriores son casos particulares de
estimadores más generales
Estimador-S
Estimador-M
Veamos apenas una definición de cada
uno de ellos
Slide 12
Estimador-S
C=C(X) y T=T(X) tales que:
det(C) sea mínimo
1
d b
n
i
0
i
di
xi T
T
C
1
xi T
ρ(d) función no decreciente
MVE: ρ pertenece al conjunto {0,1}
Slide 13
Estimador-M
C=C(X) y T=T(X) tales que:
det(C) sea mínimo
x
i
T * u1 d i 0
i
1
n
T
2
C
x
T
x
T
u
d
i
i
2
i
i
u1(d) y u2(d) ni negativas ni decrecientes si d>0
Slide 14
Aplicación: Philips data
Slide 15
Recapitulando…
Estimadores basados en Mahalanobis
Difieren entre sí en la forma de estimar
unos C y T apropiados
Dados C y T son simples de aplicar
Matemáticamente tratables
Para datos tabulares
Requieren datos sin ausencias
quizá hay que imputar primero
Slide 16
Minor ACP (Hawkins 1974)
Los CP mayores (i.e. con gran valor
propio) tienen interpretación física
Normalmente se retienen, y los menores
se descartan
Hawkins propone utilizar los scores
asociados como detectores de errores
Son típicamente pequeños, e indican
algo inusual cuando son grandes
Slide 17
Otras líneas: Conglomerados
Idea básica:
Clasificar los datos en grupos
Elegir puntos en los grupos
pequeños como candidatos a
outliers
Calcular la distancia entre los
puntos candidatos y los
grupos no-candidatos
Si los puntos candidato están
lejos de todos los otros no
candidatos, entonces se les
declara outliers
© Tan,Steinbach, Kumar
Introduction to Data Mining
4/18/2004
Slide 18
Detección en el contexto de regresión
Idea: ajustar con una función, analizar las
discrepancias y separar las más groseras
Problema: los errores pueden
enmascararse unos a otros
Problema: los errores pueden afectar
significativamente la función de ajuste
(Ejemplo: OLS)
Solución ==> High breakdown methods
(LTS, LMS, etc.)
Slide 19
Efecto de errores en regresión(1)
4
x 10
1.7
1.6
1.5
1.4
1.3
1.2
75
76
77
78
Reclamos por incendio en Bélgica
79
80
81
Slide 20
Efecto de errores en regresión(2)
40
35
30
25
20
15
10
5
0
0
20
40
60
Caudal en un dos puntos de un mismo río
80
Slide 21
OLS (Gauss, 18XX?)
Minimiza la suma de cuadrados de
residuos
Sensible a outliers en varias formas
Muy afectado por enmascaramiento
¡Implementado everywhere!
En problemas tabulares tolera ausencias
Requiere
un OLS por cada combinación de
ausencia/presenciapuede ser pesado…
Slide 22
LMS (Rousseeuw 1984)
Minimiza la mediana de los residuos
Es como OLS si se descartara cierto 50% de
la población
Es por lo tanto del tipo High Breakdown
Problema combinatorio ¡explota!
Existen alternativas no combinatorias
(Hawkins 1993)
Igual que OLS: tolera ausencias
Slide 23
LTS (Rousseeuw 1984)
Minimiza la suma ponderada de los residuos
Pesos se eligen del conjunto {0.0,1.0}
El total de casos 0.0 se especifica a priori
Es por lo tanto del tipo High Breakdown
Problema combinatorio ¡explota!
Existen alternativas no combinatorias
(Hawkins 1993)
También tolera ausencias
Slide 24
Ejemplo: Rousseeuw et al., 1999
Resultaron ser
estrellas gigantes
Previamente no
se distinguían
Slide 25
Datos raster: caso del MDE
Ampliamente estudiado en Agrimensura
Antes: pocos puntos, muy precisos
Típicamente
formato TIN
Raster se calculaba a partir del TIN
Antes: fotogrametría aérea
Típicamente
curvas de nivel
Raster se calculaba a partir de las curvas
El productor dispone de controles
internos
También se detectan errores al comparar
con la hidrografía, etc.
Slide 26
Situación presente
Surgen otros métodos de creación (satélite, GPS,
LIDAR, etc.)
Muchos más puntos, algo menos precisos
Imagen de satélite, etc.
Se genera directamente el raster
¡El usuario puede ahora ir al campo y controlar!
Detalle esencial: un pixel puede estar errado sin
implicar al vecino
Amerita otros métodos de control…
Slide 27
Método de Hannah (1981)
MDE en formato raster
Establece límites en la pendiente y
cambio de pendiente
¡Requiere
especificarlos a priori!
Usa interpolante local
Fácilmente implementable en GIS
Poco impacto en la literatura;
mencionado aquí por completness
Slide 28
Método de Felicísimo (1994)
Imputa interpolando con los vecinos
Cualquier interpolante sirve; propone
polinomio de 2do. grado en (i,j)
Analiza la distribución de la diferencia del
interpolado vs. el verdadero valor
Asume normalidad, y saca límites
Relativamente simple, implementable en
SIG
Veremos un ejemplo más adelante
Slide 29
Métodos mixtos
Usan indirectamente métodos de
regresión para detectar los errores
Uso
de la verosimilitud (likelihood)
Interpretación de los roles de las neuronas en
redes neuronales artificiales
Slide 30
Función de Verosimilitud (López, 1997)
En un contexto de Kriging aparece el
Variograma
Depende de: Tipo, Alcance a y Meseta S
Método de VCMV (Samper et al., 1987)
Elegir
a y S que maximicen la VCMV
asumiendo que no dependen del tiempo…
¿Cómo es el método de VCMV?
Slide 31
VCMV (Samper, 1987)
VCMV: Elijo a y S, y para cada fecha repito
para los n puntos disponibles:
Retiro
el i-ésimo
Interpolo mediante krigeado
Conservo la discrepancia observada
Luego se calcula la Verosimilitud
Nuestro n era relativamente pequeño
En general el proceso requiere minimizar
una función no lineal costosa…
Slide 32
Nuestro problema particular de VCMV
En realidad, nosotros no necesitábamos a y S …
Sólo interpolaríamos en los puntos dato
Para nuestros fines sólo necesitábamos una C y T
obtenida de los datos experimentales
No hubo necesidad de minimizar la función
Se asumió homogeneidad e isotropía
Se asumió también a y S constantes en el tiempo
Idea: dados a y S, la Verosimilitud pasa a ser
función del tiempo; un número por día
Días con valores extremos¡outliers!
Slide 33
Reflexión…
Casi nadie usa o referencia la
Verosimilitud misma; sólo la maximiza
Algo parecido a los Mínimos Cuadrados
¿alguien
se fija si los mínimos cuadrados son
pequeños?
Resultó ser uno de los mejores métodos
en nuestros experimentos
No por trillado el camino es conocido
López (2005)
Slide 34
Métodos mixtos
Usan indirectamente métodos de
regresión para detectar los errores
Uso
de la verosimilitud (likelihood)
Interpretación de los roles de las neuronas
en redes neuronales artificiales
Slide 35
Uso de redes neuronales
Se reconocen dos líneas posibles
Línea 1: Clasificación
Clasificar
en forma no supervisada
Clusters con pocos elementos outliers
Línea 2: Regresión
Ajustar
por MC y analizar discrepancias
Línea 2.5: Regresión+…
Ídem
2, pero luego interpretar roles
Unpublished work, by López
Slide 36
Tomado de Benítez et al., 1997
ANN para regresión
y 13 . 92 v1 23 . 179 v 2 2 . 143 v 3 2 . 143 v 3
sepal length
v1
sepal width
v2
petal length
petal width
v3
y
Slide 37
ANN para regresión
sepal length
sepal width
petal length
petal width
Slide 38
Versión modificada
y 13 . 92 v1 23 . 179 v 2 2 . 143 v 3
z
if ( v r v )
then z 1
else z 0
¡No participa!
y
Slide 39
Ventajas…
La Red se entrena como siempre para
regresión/clasificación
Se inspeccionan los pesos; no hay que reentrenar
Los outliers no se decretan; ¡surgen!
Desventaja: los pesos pueden ser muy sensibles a
los outliersmasking
Fue testeado en el ejemplo (caso pequeño, de
paper) y con lluvia, etc.
¡Fue el óptimo!
Es aún una teoría. Queda mucho por hacer…
Slide 40
Ejemplos de detección de outliers
Comentaremos algunos casos
Tabular Cuantitativo: datos meteorológicos
– Observados en una red de puntos fijos
– Muchas medidas en el tiempo
Viento horario
– Fuerte correlación espacio-tiempo
Lluvia diaria
– En Uruguay, sólo correlación espacial
Tabular Categórico: Datos de un Censo
Raster: MDE
Slide 41
Datos tabulares: lluvia y viento
Usamos lluvia diaria y viento horario
Lluvia tiene sólo correlación espacial
Viento tiene espacio-temporal
Para el viento, 35% de los errores simulados
aparecieron en el primer paso de depuración
Para lluvia, 81% de los errores simulados
aparecieron en el primer paso de depuración
Slide 42
Datos tabulares: censo nacional
Sólo para datos categóricos puros
Pudimos remover 50% de los errores
revisando un 10% del conjunto
Cinco
veces mejor que digitar de nuevo
Método general, automatizable, basado
en ACP
Slide 43
Gráficamente…
Desempeño
promedio
del método
de López
O verall res ults vs . effort level
100
3% of the s urvey s initially c ontam inated
w ith 2 errors eac h; M arginal 0.10%
90
o n lin e
80
e ope
ra t i
60
Diferentes eventos del
experimento analizados
con el método de López
B es t p
o s s ib l
% of errors found
70
50
40
30
20
10
E x pec
ted
a
p e r fo r m
e
t
a
c
li
dup
c us
n c e lo
0
0
2
4
6
8
10
12
% of c ontrolled data
14
16
Desempeño del
18
20
método
de
referencia
Slide 44
Datos raster: MDE (López 1997)
Buscamos algunos tipos de errores
Salt
and pepper
Spike
Pyramid
El método es aplicable para cualquier raster
cuantitativo (imágenes, fotos, etc.)
En el artículo, 40% de los errores fueron
encontrados con probabilidad > 88%
Podría ser una herramienta útil para
productores y usuarios
Slide 45
Felicísimo vs. López
50
50
100
100
150
150
200
200
250
250
300
300
350
350
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
¿?
180
200
Binary map of the errors located up to the 15 per cent effort with the method of
Felicísimo, 1994 (left) and López, 1997 (right). Black areas are for the suggested
locations up to the 3 per cent effort; gray ones are obtained after 15 per cent effort
Slide 46
Inaccesible al
usuario final
Felicísimo vs. López
12.0
12
55.0
11
50.0
55
11.8
50
- : 0
--: 2
: : 4
11.4
45
10
11.0
10.8
45.0
R M S E [m ]
R M S E [m ]
11.2
9
- : 0
40
R M S E [m ]
11.6
R M S E [m ]
El método de
López encuentra
errores más
grandes al
principio
--: 2
: : 4
40.0
35
- : 0
--: 2
: : 4
30
8
10.6
35.0
- : 0
--: 2
: : 4
10.4
7
25
30.0
20
10.2
10.0
6
0
1
2
E ffort [% ]
3
25.0
0
3
6
9
E ffort [% ]
12
15
15
0
1
2
E ffort [% ]
3
0
3
6
9
E ffort [% ]
12
15
El método de López
Evolution of the accuracy (left1 & left2) and RMSE found of the
más up
rápido
cumulated errors mejora
(right1 & right2)
to a given effort vs. the effort,
after removing the hypothesis
of the perfect inspector. Plots are for the
la exactitud
¡Accesible al
methods of Felicísimo (1994) (with the -o- symbol) and the modified
usuario final!
method of López (1997)
Slide 47
¿En qué
estábamos?
¿Para dónde
íbamos?
Slide 48
Otros casos
Si la Exactitud es muy afectada por outliers
¡detectar y remover outliers!
¿Y después?
Errores
sistemáticos
Errores no groseros
Requieren otro tipo de enfoque
Ej.: PAI
Slide 49
Precision Accuracy Improvement
Hecho #1: se inventó el GIS
Hecho #2: se inventó el GPS
Mapas existentes + GIS Mapas digitales (OK)
Mapas digitales + GIS Más usuarios & usos
Mapas digitales + usuarios + usos + GPS ¡Sorpresa!
Mapas existentes quedan inutilizados para ciertos
propósitos
Ductos, desagües, etc. localizados con GPS
Tráfico y tránsito
Exactitud requerida >> Exactitud suministrada
Slide 50
Caso típico (OS GB)
CA Access Map
MAGIC
Follows old OS well
Follows new OS badly !
Fuente: Robin Waters
Slide 51
¿Qué puede hacer el productor?
Alternativa 1: Dejar todo como está
Alternativa 2: Hacer todo de nuevo
Alternativa 3: Intentar arreglarPAI
Problema esencialmente vinculado al error
planimétrico
Mapas existentes tienen un gran valor “residual”
Actualizados (±…)
Populares (muchas veces únicos…)
Muchísimos atributos (¡cierto!)
Son base para otros mapas derivados (¡muy cierto!)
Slide 52
PAI
Idea: corregir masivamente la planimetría
Ej.: OS GB; TIGER files USA
Problema internacional
Datos digitalizados… o no
Impactos
del
lado del productor
del lado del usuario
Slide 53
del lado del productor…
Reingeniería de procesos
Probable actualización tecnológica
Alternativas:
Tercerización / Trabajo propio
Modificación / Nuevo relevamiento
Incorporación de otras fuentes
¿Financiación?
Plan de actualización
Por dónde empezar
Cronograma de entregas
Slide 54
del lado del usuario…
¿Impacta/no impacta?
Análisis de riesgo: do nothing vs. arreglo
Si impactaalternativas:
¿Sólo datos PAI-compatibles?
¿Datos generados internamente?
Esperar a que PAI termine
Acompasar entregas con modificaciones
internas
Ambas tienen pros y contras
Slide 55
Resumen: No matar al mensajero…
No puede des-inventarse el GPS
No puede des-inventarse el GIS
No pueden des-digitalizarse los mapas
Hay que entender los problemas
Hay que tomar decisiones apropiadas
Hay que aprender de otros ejemplos
Slide 56
¿Estamos perdidos?
Slide 57
Plan
Introducción
Revisión
de herramientas estadísticas
Detectando problemas
Imputando valores ausentes
Ejemplos
Slide 58
Recordemos: ¿Porqué imputar?
Detectado un error…
Modelos que no toleran ausencias
Bajar costo al medir menos
Típicamente métodos de Interpolación
Medidas
escasas, de alta exactitud
Actualmente más y más Aproximación
Más
automatismo, menos control humano
Medidas abundantes, de menor exactitud
Slide 59
Enfoque es función del dato…
Datos “puramente” espaciales
Caso
más familiar para la audiencia
Métodos de Interpolación:
– TIN, Splines, Kriging, Cressman, etc.
Ej.:
MDE, tipo de suelo, etc.
Datos espacio-temporales
Correlación
espacial + temporal
Ciencias de la Tierra, pero no Agrimensura
Ej.: Meteorológicos, uso el suelo, etc.
Formulación sensiblemente específica
Slide 60
Datos puramente espaciales
En la gran mayoría son Métodos lineales
Coeficientes son función de punto
Toleran ausencias
A veces son lineales pero complicados
Cokriging
Hay también métodos no lineales
Redes
neuronales
Ecuaciones constitutivas (EDP)
Slide 61
Datos espacio-temporales
Típicamente equi-muestreados en el tiempo
Problema no resuelto: covarianza cruzada
tiempo-espacio
Muy usual en las Ciencias de la Tierra
Ej.:
Habitual en las aplicaciones GIS
Ej.:
Meteorología, Hidrología, etc.
Tráfico/Tránsito, uso del suelo (!)
Poco o mal manejado en GIS comerciales
Slide 62
Muchos métodos…
Slide 63
Procedimiento sugerido…
Repita un número grande de veces
Comparar estadísticos, y luego elija…
Ventajas:
Generar ausencias al azar
Imputar con método1, método2, etc.
Calcular estadísticos de ajuste (distancias)
Tiene base estadística
Lo puede hacer el productor o el usuario
¡No requiere ir al campo a medir!
¿Y las desventajas?
Slide 64
Desventajas o problemas…
No todos los métodos están en los GIS
¿Cómo generar ausencias?
Hay que caracterizar primero SUS ausencias
Otro tema: los estadísticos de éxito
Al azar (MCAR)
En rachas (usual en datos meteorológicos)
Datos cuantitativos
Datos categóricos
Considerar o no el impacto en el modelo
Un detalle más: el tiempo de cálculo
Slide 65
¿Cómo generar ausencias?
Es más fácil que generar errores
Hipótesis inicial: MCAR
Test
descrito en Little (1988)
En la práctica también había rachas
Rotura
de instrumento
Pérdida de documento original en papel
Quizá parezca excesivo detalle, pero…
Slide 66
Estadísticos de éxito
Métricas usuales:
RMSE:
Da mucho peso a errores groseros
MAD (Promedio): ídem RMSE
Percentiles: quizá más apropiado
Asumiendo que existe un dato verdadero
existe un Método Óptimo que lo asigna
No existe en cambio un Peor Método
Podría
usarse un Naive como referencia
Slide 67
Más sobre Estadísticos
Podría considerarse el modelo
Errores sistemáticos pueden ser peores que errores
groseros
Groseros son detectables; sistemáticos no
Ej.: errores en una factura:
– Sesgados: ¡el cliente se queja dependiendo del signo!
Otro problema: RMSE vs. Exactitud original
Ej.: RMSE lluvia ~7 mm/día; Exactitud 5 mm/día,
pero ¡¡precisión 0.1 mm/día!!
Slide 68
Plan
Introducción
Revisión
de herramientas estadísticas
Detectando problemas
Imputando valores ausentes
Ejemplos
Slide 69
Caso del Viento horario
Problema:
Completar un banco de datos de viento
de superficie horario
Comparar diferentes métodos, en dos
diferentes casos:
Ausencias
al azar
Ausencias planificadas
Fuente: Proyecto CONICYT/BID 51/94 (1999)
Slide 70
Diseño de la metodología
Seleccionar un banco apropiado, lo más
completo posible
Ocultar temporalmente los valores a ser
imputados (elegidos al azar o no)
Para cada método
imputar
todos los valores ausentes
calcular RMSE y MAD de las discrepancias
entre el valor real y el imputado
Slide 71
El banco de datos
B R A ZIL
N T IN A
Cinco estaciones meteorológicas, separadas no
más de 400 km, en terreno suave
Aproximadamente 25 meses de registros
horarios
+
+
P as o de los Toros
+
A RG E
M elo
Treinta y Tres
+
+
C arras c o P unta del E s te
100 k m
A TLA N TIC O C E A N
Slide 72
Descripción de los métodos
Interpolación Óptima (equivalente a Krigeado
Ordinario)
Métodos basados en el Análisis de
Componentes Principales:
Temporal
Interpolation of Principal Scores
(TIPS)
Penalty Of the Principal Scores (POPS)
Slide 73
Decorrelación espacio-temporal
Tiene que ver Scores 9 & 10
con el ciclo
diurno
-10
20
0.00
-20
0.3
0.2
0.1
0.0
0
10
S c ore [m /s ]
0.02
1
0.04
f [1/hr]
0.3
0.2
0.1
0.06
0.02
1
0.04
f [1/hr]
5
10
15
t [hr]
20
25
0.05
0
S c ore [m /s ]
1.5
1.0
0.5
10
15
t [hr]
1
20
25
0.05
-5
0
S c ore [m /s ]
1.5
5
1.0
0.5
0.0
0.02
0.04
f [1/hr]
0.06
0
0.02
1
0.04
f [1/hr]
0.06
0.5
0
5
0.10
5
0.5
0
0.15
0.00
-5
0
0
0
0.10
0.06
0.5
0
0.15
0.0
0
0.5
0.20
20
0.0
0
0.20
0.00
-10
0.4
p [m 2/s 2]
p [m 2/s 2]
0.4
0
10
S c ore [m /s ]
0.25
1 0 0 0 *p [ m 2 / s 2 ]
0.00
-20
0.05
0.25
1 0 0 0 *p [ m 2 / s 2 ]
0.05
f [ 1 / (m / s )]
0.10
f [ 1 / (m / s )]
f [ 1 / (m / s )]
0.10
f [ 1 / (m / s )]
Scores 1 & 2
0
0
5
10
15
t [hr]
20
25
0
5
10
15
t [hr]
20
25
Slide 74
Resultados preliminares obtenidos
a) Ausencias sistemáticas
Se asumieron tres lecturas diarias (8, 14 y
21 hs.), en cuatro de cinco estaciones
Con TIPS se logra un RMSE de 2.05 m/s
Con POPS se logra RMSE de 2.84 m/s
La Interpolación Óptima produce 2.84 m/s
Asignando simplemente la media histórica
el RMSE es de 3.24 m/s
Slide 75
Resultados preliminares obtenidos
b) Ausencias al azar
Se ocultó aleatoriamente un 20% de los
datos, criterio MCAR
Con TIPS se logra un RMSE de 1.67 m/s
Con POPS se logra RMSE de 2.33 m/s
La Interpolación Óptima produce 2.37 m/s
Asignando la media histórica el RMSE es de
2.76 m/s
Slide 76
Conclusiones
El uso de la información temporal da
resultados más precisos, sugiriendo un
muestreo excesivo para esta zona
Los resultados deben ser corroborados
en ensayos más extensos, para darle
validez estadística
Otros métodos deben ser incluídos en la
comparación
Ver informe final de 1999
Slide 77
Caso de la lluvia diaria
Nuevamente, un problema tabular
10 estaciones, registros diarios (mm/día)
Correlación espacial pero no temporal
TIPS falla miserablemente
Problema difícil
RMSE
del Mejor vs. Peor método evaluado
difieren en 30%
Mejor RMSE: 7 mm/día; según los expertos,
la Exactitud~5 mm/día (!)
Slide 78
Sugerencias para lectura…
Informe CONICYT/BID 51/94 (1999)
Análisis
comparativo de ~30 métodos
– Imputación
– Detección de outliers
Descripción
de métodos, referencias, etc.
No orientado a meteorología
Único estudio sistemático conocido
Slide 79
Módulo 4:
Mejorando la Exactitud
Carlos López Vázquez
[email protected]