Gis e statistica spaziale: - individuare proprietà dei dati (es. pattern

Download Report

Transcript Gis e statistica spaziale: - individuare proprietà dei dati (es. pattern

Georiferimento tramite coordinate e indirizzi
(geocodifica)
Strumenti di selezione manuale, by attributes, by
spatial location
3
Gestione, associazione (join tabellare e spaziale) e
editing delle tabelle degli attributi
Sistemi di coordinate del dataframe e dei layer
Geoprocessing (merge, dissolve) (e editing)
Buffering e analisi di prossimità
Simbologia, gestione del layout e esportazione carte
in formato immagine
Gis e statistica
spaziale:
Analisi di distribuzione spaziale (pattern)
- individuare
proprietà dei dati
(es. pattern di
distribuzione o
forme di
dipendenza
spaziale) non
direttamente
osservabili
-Misure di distribuzione
John Snow’s map of Cholera
London, 1854
Case field: per calcolare diversi centri per diverse categorie
di punti
Weight: centralità assoluta o relativa
Mappe di
densità
Densità di unità condotte da imprenditori cinesi, 2008 Densità di unità locali nell’area di Prato, 2008 MEDIAN CENTER / MEAN CENTER
Fonte: elaborazione su dati Istat * Kernel density, raggio: 1.000 mt Fonte: elaborazione su dati Istat * Kernel density, raggio: 1.000 mt Spatial analyst / density / kernel density
Kernel density
Input: layer puntuale
(o lineare)
Silverman,
Density
estimation
for statistics
and data
analysis,
1986
Population field: peso
Output raster: file di
output
Search radius: distanza max dei punti il cui numero/peso
viene considerato ai fini del calcolo della densità, in map units
(default: min. extent / 250)
Calcola la densità in ogni punto della carta,
misurando il numero di punti (eventualmente pesato)
che sono inclusi entro un raggio specificato,
utilizzando una funzione gaussiana (o quadratica).
Area units: la misura di densità che comparirà in legenda
(dipende comunque dal search radius)
Cell size: la dimensione dei pixel del raster di output
(default: min. extent / 30 -> distanza media tra tutti i punti
di input, o… dipende dal modello)
Lab: la distribuzione delle imprese condotte da
stranieri a Roma (o all’interno del raccordo anulare)
Calcola e renderizza i mean center (spatial statistics /
measuring geog. distr. / …) per le imprese di proprietà di
Bangla, Cinesi, Libici, Romeni, Egizi (input: selezione di
rm_immig.shp con join tabellare di rm_immigDT.dbf;
weight field: “ADD08”; case field: “ORIGINE”)
adatta l’extent del raster di
output settando il processing
extent a quello del layer della
regione e/o utilizza lo stesso
layer come mask (raster anal.)
Fai una carta di densità delle imprese condotte da
stranieri: spatial analyst / density / kernel density
(Input: rm_immigDT.shp; Population field: ADD08 o
count; cell size: default o calcola usando “near”; search
radius: 1.000/2.000 metri / negli environments: extent e
raster analysis/mask = zoneurbanistiche). Modifica
simbologia raster (-> quantili) e in layout view: sistema e
esporta carta in formato immagine
Surface-based indicators. Es.: segregazione spaziale
Grado di segregazione tra aree a prevalenza di imprenditori cinesi e aree a prevalenza di imprenditori italiani Contributo locale alla segregazione tra aree a prevalente presenza di unità condotte da imprenditori cinesi o italiani Indicatore di concentrazione: densità di unità condotte da
cinesi in rapporto alla densità totale delle unità = rapporto
tra i due coefficienti di densità (problema: numeri bassi).
Indicatore di segregazione:
= differenza tra i due
coefficienti di densità
standardizzati o normalizzati
(da -1 a +1).
Numeratore dell’indice S (O’Sullivan-Wong 2007):
contributo locale alla segregazione spaziale = differenza tra
i valori massimi e minimi in ogni punto delle due superfici di
densità [es. italiani/cinesi = max(pCi,pIi) – min (pCi,pIi)]
PROCESSI DI CLUSTERING
Per stabilire se la distribuzione spaziale degli elementi
geografici è raggruppata, dispersa (uniforme, “inibitoria”..)
vs. casuale (complete spatial randomness hypothesis)
random
(concentrated)
Clustering: indici “globali”
Average nearest neighbour: la distanza media tra i punti
è minore (clusterizzato) o maggiore (inibitorio) della
distanza attesa nel caso di distribuzione casuale completa?
(Clark-Evans, ’50s)
Nearest neighbour ratio = observed mean distance /
expected mean distance ->
Input:
Punti: unweighted (= 1) (projected coordinate system!)
uniforme / inibitorio
clustered
(Poligoni o linee: trasforma in punti con x, y = centroide)
Processi di clustering e scala geografica
Output:
- Observed
Mean Distance
-Expected
Mean Distance
- Nearest
Neighbor Index
-Report grafico
- Variabili di
test:
p-value: probabilità che distribuzione sia risultato di processo casuale
z-score: standard deviation dei valori effettivi da quelli attesi
Fai: calcola per
imprese immigrate
nel GRA
(Nearest neighbor
hierarchical cluster):
constant-distance clustering
routine per eventi non
pesati gerarchico: cluster
del primo ordine sono a loro
volta trattati come punti e
raggruppati in cluster di
secondo ordine e così via,
fino a che i criteri (per ogni
ordine) sono soddisfatti.
Output (dbf, shp): n. cluster, mean center, deviational
ellipse e convex hull (spezzata) dei punti appartenenti al
cluster, area e densità del cluster.
Risultato influenzato da identificazione cluster primo ordine
Nella figura: 10 cluster di primo ordine, 8 cluster di
secondo ordine, 3 di terzo ordine, e così via..
La funzione K di Ripley (Ripley's k-function)
In ArcGIS: Spatial statistics / Analyzing patterns / MultiDistance Spatial Cluster Analysis
Per rilevare pattern casuali/clusterizzati/inibitori a diverse
scale/distanze fra i punti: Ripley 1976, 1981 (“Spatial
statistics”)
Linearizzazione della funzione K: la funzione L (Besag 1977)
Nel caso di distribuzione casuale completa: L(d) = d (ArcGIS)
Per ogni intorno di raggio x, K = atteso di punti / intensità
effettiva dei punti
Nel caso di distribuzione casuale completa: K(d) = πd2
Oppure L(d) = 0 (Crimestat)
Ripley’s K
Bande di confidenza: al di là delle quali i risultati possono
considerarsi significativi
Sono stimate attraverso una simulazione ripetuta di
Montecarlo (Crimestat: 100 simulazioni; ArcGIS: 0 / 9%,
99% o 99,9% dell’intervallo di confidenza). Corollario: le
simulazioni funzionano meglio con numero non piccolo di
punti (> 100)
Distanza massima
Intervalli
Crimestat: SQRT(A)/3
Crimestat: 100
ArcGIS: ?
ArcGIS: da 1 a 100
(oppure: “beginning
distance” + “distance
increment”)
Altri parametri:
Weight field: default: 1, fixed: peso (num. di eventi per
ogni punto)
NB: i punti non possono avere d=0. Il calcolo “pesato” da
risultati diversi (grado di clusterizzazione maggiore)
Opzioni: esegui entrambe e confronta. Separa i punti vicini..
Il problema dei confini: considerata la presenza di eventi
analoghi non osservati al di là dei confini dell’area di studio
(con distribuzione spaziale simile o dissimile), il numero
effettivo di punti vicini è sotto-stimato nelle aree di confine.
Boundary correction method:
Strumento “area sensitive”: il risultato è influenzato
dall’estensione effettiva dell’area
NONE: perché oltre il confine gli eventi non ci sono, sono pochi
o non rilevanti. NB: eventuali punti nel layer di input che non
ricadono nello user provided area layer, sono comunque
utilizzati ai fini del calcolo (!!!)
Study area method:
REDUCE_ANALYSIS_AREA: riduce l’area considerata.
Di default: minimum enclosing rectangle (area rettangolare
i cui lati intersecano i punti più periferici)
RIPLEY'S_EDGE_CORRECTION_FORMULA: per i punti la cui
distanza dal confine è inferiore alla distanza dai vicini interni, il
peso è maggiore, Appropriato solo nel caso di poligoni non
irregolari (es. minimum enclosing rectangle)
User provided: layer poligoniale
SIMULATE_OUTER_BOUNDARY_VALUES: simula una
distribuzione dei punti extra-confinari “mirrored”
Output:
Tabella (+ Display result graphically): ExpK, Envelopes,
ObservedK (valore dell’indice), DiffK (ObsK-ExpK)
Interpretazione
- Per verificare la persistenza o l’inversione di processi di
clusterizzazione/inibizione (attrazione/repulsione) a diverse
scale
- per verificare a quale scala essi sono più intensi
-per individuare la distanza più appropriata alla quale
calcolare altri indici di clusterizzazione/auto-correlazione (es.
max DiffK)
LAB: Calcola la funzione K di Ripley per la distribuzione
delle imprese a proprietà straniera all’interno del GRA
Input: layer puntuale imprese all’interno del GRA
(Confidence envelop: 0 permutations)*
Distance bands: 40
Beginning distance: 500
Distance increments: 500
Boundary correction method: Simulate outer-boundary
values
- per confrontare processi di clusterizzazione/inibizione tra
diverse tipologie di eventi, o rispetto alla ‘popolazione’ nel
suo complesso o nel tempo (risk analysis)
Study area: lezgis14/3/Mask_area
- Ecc..
Verifica l’output tabellare e grafico
Cautions:
- Funziona meglio per i processi clusterizzati che per quelli
inibitori
- È prevalentemente uno strumento per individuare cluster di
second-order, ie. localized clusters / a scala infraregionale o
sulle medie distanze. Funziona male per i processi di
clustering di primo ordine)
Risk-Adjusted Nearest Neighbor Hierarchic al Spatial
Clustering (Rnnh) (Crimestat)
(...l’unico indicatore di clustering che) sconta la probabilità di
identificare cluster di eventi rispetto alla distribuzione della
popolazione nel suo complesso, utilizzando un’interpolazione
tra le superfici di densità (Kernel) del primary file (eventi) e
del secondary file (es. popolazione).
- poco attendibile per piccoli insiemi di dati
- poco attendibile per aree fortemente irregolari
- attenzione a processi di punto non omogenei / non
stazionari
Ripley’s K bivariate (co-agglomerazione, co-localizzazione,
competizione/facilitazione): Crimestat, R..
Cluster di punti (XY, pesati o non pesati) vs. cluster di
valori (Z)
Cluster di valori: indici globali
SPATIAL AUTO-CORRELATION (Moran’s I):
SPATIAL AUTO-CORRELATION. Cliff & Ord, Spatial
autocorrelation, 1973.
La prima legge della geografia di Tobler (1970), “tutto è
correlato con tutto, ma le cose vicine sono più correlate delle
cose lontane”.
E’ una forma di dipendenza spaziale: dipendenza positiva o
negativa: elementi vicini sono simili (si attraggono) o dissimili
(si respingono).
Indice spaziale globale di covarianza derivato
dall’analisi dell’effetto “memory” nelle time series (P.
Moran ’40s, Whittle 1954).
Misura l’autocorrelazione spaziale ovvero il livello di
similitudine “globale” tra i caratteri (-/+) di un
elemento geografico e i caratteri degli elementi a lui
più vicini
Moran’s I
Xi – X = intensità punto Xi – intensità media
(Xi-X)(Xj-X): Cross-product, alto nel caso di valori simili
Wij: matrice dei pesi/influenze, spatial weight matrix *
Clustered/alta auto-correlazione se I è alto (I>0),
dispersed/scarsa auto-correlazione se è basso (I<0),
rispetto a Iexp=-[1/(n-1)]
Metodi per le distanze/influenze/relazioni: Conceptual.
of spatial relationships: Spatial weight matrix
Moran’s I originario: “contiguità” tra poligoni (1 se confinante,
0 tutti gli altri)
Cliff and Ord 1973: generalizzazione a diversi tipi di distanze
Conceptualization of spatial relationships (2):
Fixed distance band: pesa 1 tutti gli elementi vicini entro
un certo raggio di distanza. Appropriato per poligoni di
ampiezza molto diversa. Appropriato per ampi dataset
puntuali.
In ArcGIS:
Inverse distance: la relazione tra elementi è in misura
inversa alla loro distanza (Crimestat). Problemi computazionali
con piccole distanze (crimestat: “adjust for small distances”) e
senza soglia (n to n)
Polygon contiguity (adjacency): considera solo i poligoni
confinanti. Appropriato con poligoni regolari.
Distance Band or Threshold Distance (soprattutto per
ampi dataset): soglia al di là della quale l’influenza è nulla
(con “inverse distance”, 0 = li considera tutti, vuoto: applica
una threshold distance di default: minima distanza per la
quale tutti gli elementi hanno almeno un vicino; fixed)
Conceptualization of spatial relationships (3):
La spatial weight matrix
Zone of indifference: i neighbor (o quelli entro la distance
threshold) pesano uno. Tutti gli altri pesano in misura inversa
alla loro distanza. Appropriata come sopra, laddove
l’influenza degli elementi più distanti è determinante.
Problemi computazionali. La distance threshold non è netta,
ma influisce sui pesi.
Spatial statistics / Modeling spatial relationships / Generate
spatial weight matrix
Crea una tabella (non quadrata..), in formato .swm,
attribuendo ad ogni coppia di punti una misura di
presenza/assenza o intensità della relazionale spaziale.
Es. Polygon contiguity di
diverso tipo
Get spatial weights from file: utilizza un file di spatial
weight matrix (.swm) creato/adattato dall’utente*
Conceptualization of spatial relationships:
INVERSE_DISTANCE: (…) + Exponent (!), es. esponenz. (2)
FIXED_DISTANCE: (…)
K_NEAREST_NEIGHBORS: considera solo un numero “k” di
vicini più prossimi
CONTIGUITY_EDGES_ONLY: considera solo i poligoni che
condividono un confine (“torre”)
CONTIGUITY_EDGES_CORNERS: considera solo i poligoni che
condividono un confine e/o un vertice (“regina”)
DELAUNAY_TRIANGULATION: crea dei triangoli non
sovrapposti che uniscono i centroidi dei poligoni, e considera
solo gli elementi che condividono un vertice del triangolo
CONVERT_TABLE: consente di specificare le relazioni spaziali
in una tabella
[Convert spatial weight matrix to table (utilities)]
ROW STANDARDIZATION: i valori della spatial weight
matrix sono standardizzati in modo che la somma dei pesi
per riga = 1. Impedisce che l’indice sia influenzato dal
numero di elementi vicini (considerati): è appropriato nel
caso di dati campione e obbligatorio nel caso di polygon
contiguity, perché i poligoni (irregolari) hanno un diverso
numero di poligoni confinanti. E’ una forma di edge
correction
Variabili di test:
Z-score = standard deviation / p-value = vicino a zero
Output:
- Moran’s index
- Expected index
- Variance
- Z-score e p-value
Cautions:
- significativo solo per dataset ampi (> 30 elementi)
Vs.
Indice auto-correlazione di Geary (Moran è più robusto)
Normality: lo Z-score ha una distribuzione normale?
HIGH/LOW CLUSTERING (Getis & Ord). Probabilità che i
valori (+) alti e/o bassi siano concentrati o dispersi (simile a
average nearest neighbour)
LAB: calcola l’indice MORAN I della densità di stranieri
residenti nelle zone urbanistiche di Roma
INDICI LOCALI DI AUTO-CORRELAZIONE SPAZIALE
Spatial relationship: Polygon contiguity
Anselin locale di Moran’s I (Cluster/Outlier Anaylsis)
Inputs: rm_immig.shp,
zoneurbanistiche.shp ->
join spaziale
Associa a ciascun elemento geografico un valore alto o basso
a seconda che il valore ad esso associato sia simile o
dissimile al valore degli elementi geografici vicini
Input field: da creare
tramite layer properties /
add field / field calculator
Anselin L. (1995), Local indicators of spatial association –
LISA. Geographical Analysis 27, 93-115
Generate report
Standardization: ROW
Verifica il report grafico
Ripeti per il numero di imprese straniere ogni 10.000 abitanti
(altro input: zur_pop.dbf)
Z: intensità, S: varianza, W: spatial weight matrix
Input: poligonale (crimestat) e puntuale (ArcGIS)
Output:
Cluster type (COType) individua (e renderizza):
- gli elementi che fanno parte di cluster di valori alti (HH), o
bassi (LL), perché circondati da valori simili, che sono
statisticamente significativi (0,05) (z-score alto/positivo).
- gli elementi “outlier”, perché hanno valori alti (o bassi) ma
sono circondati da elementi con valori bassi (o alti): HL/LH, se
sono statisticamente significativi (z-score basso/negativo)
LAB: stima il grado di clusterizzazione di imprese condotte da
stranieri provenienti dalle stesse aree di origine
Indicatori locali di auto-correlazione spaziale (2):
Input: rm_immDT
Individua gli elementi geografici “hot spot”: aree con
raggruppamenti di punti con valori alti o bassi (Cliff & Ord,
Spatial autocorrelation, 1973).
Input field: ORIG_KM (distanza dal paese di origine; per
trasformare la variabile categoriale “origine” in una variabile
numerica..)
Spatial relationships: Inverse distance
Distance band: 5.000
Getis-Ord Gi, high/low clustering (HOT SPOT
ANALYSIS)
Individua (e renderizza) il valore del GiZScore (suddiviso in
classi sulla base della deviazione standard): più è alto (basso)
più l’elemento è circondato da valori alti (bassi).
(Lo Z-Score può essere utilizzato per creare superfici di
densità)
Apri e verifica la tabella degli attributi del layer di output
Cautions:
(Ripeti sul poligoniale delle zone urbanistiche per la densità di
imprese straniere)
- affidabili solo con ampi dataset (più di 30 elementi)
- test..
Problemi / requisiti per l’analisi spaziale
- Tipologia di geodati (raster, punti, linee, poligoni)
- Proiezioni (regola aurea / sist. projected e/o equidistant)
-Formato dei dati numerici (double, integer) e “falsi valori” (0)
-Il problema dei confini
-Attrazione (o contagio) “apparente”: la concentrazione di
punti (simili) è dovuta a cause esterne vs. Attrazione (o
contagio) “reale”: la presenza di un punto in un particolare
luogo aumenta la probabilità di individuare punti (simili) nelle
vicinanze, perché sono attratti gli uni agli altri. Molto difficile
distinguerli.
- Problemi distanze piccole o pari a zero.
-Dati campione o dati esausitivi? Il campione deve essere
casuale, e più ampio al diminuire della correlaz. spaziale
(Cressie 1993)
- MAUP / ecological fallacy (2nda regola della geografia)
Il problema dell’unità d’area modificabile
(M.A.U.P.): Le unità areali utilizzate nell’analisi
territoriale sono arbitrarie, modificabili, ma la loro
forma e risoluzione spaziale influenza i risultati
dell’analisi.
- Il problema delle unità amministrative (arbitrarie,
irregolari, diverse..)
Esempio: Gerrymandering. La definizione delle
circoscrizioni elettorali per favorire un determinato
partito.
The urban (and mostly liberal) concentration of Columbus,
Ohio, located at the center of the map, is split into thirds,
each segment then attached to - and outnumbered by largely conservative suburbs.
Help…
http://forums.
arcgis.com
http://support.
esri.com/en/
http://mappingcenter.
esri.com
http://blogs.esri.com/
esri/arcgis/