Analyse du plus proche voisin

Download Report

Transcript Analyse du plus proche voisin

Licence 3 – Outils mathématiques &
statistiques
1
Distribution spatiale
2
Distribution spatiale
Analyse des propriétés spatiales de l’ensemble des points.
Deux approches:
• Densité en utilisant l’analyse ‘Quadrat’.
Basée sur la fréquence de distribution ou sur la densité de
points dans une grille.
– Rapport variance / moyenne
– Comparaison avec des distributions de fréquences
théoriques.
• Analyse du plus proche voisin (Nearest Neighbor
Analysis) basée sur les distances entre les points.
3
Analyse quadrat
Census
Echantillonnage
Calcul des fréquences
Census Q = 64
Plusieurs façons de construire les
quadrats. Attention à leurs tailles!
Nbre pts
dans
Quadrat
0
1
2
3
n
51
11
2
0
Proportion
0,797
0,172
0,031
0,000
Sampling Q = 38
n
29
8
1
0
Proportion
0,763
0,211
0,026
0,000
Analyse quadrat
2A
l
P
•
Construire une grille dont les éléments
ont pour largeur :
•
Traiter chaque cellule comme une observation et compter le nombre de points
dans chacune pour créer la variable X.
•
Calculer la variance, la moyenne de X et le rapport variance / moyenne.
•
Pour une distribution uniforme la variance est 0
– Donc le rapport variance/moyenne devrait être proche de 0.
•
Pour une distribution aléatoire, la variance et la moyenne sont identiques (loi de
Poisson).
– Donc le rapport variance/moyenne devrait être proche de 1.
•
Pour une distribution de type cluster, la variance est grande.
– Donc le rapport variance/moyenne devrait être supérieur à 1.
A = aire
P = nbre de pts
5
Analyse quadrat
3
5
2
1
3
1
0
1
3
1
2
2
2
2
2
x
x
RANDOM
Quadrat Nbre de pts/
#
Quadrat
1
3
2
1
3
5
4
0
5
2
6
1
7
1
8
3
9
3
10
1
20
UNIFORME
Variance
Moyenne
Var/Moy
CLUSTER
random
x^2
9
1
25
0
4
1
1
9
9
1
60
Quadrat Nbre de pts/
#
Quadrat
1
2
2
2
3
2
4
2
5
2
6
2
7
2
8
2
9
2
10
2
20
Variance
Moyenne
Var/Moy
2,222
2,000
1,111

i 1
( Xi  X )
N 1
2
0,000
2,000
0,000
uniforme
Formule de la variance
n
0
0
10
0
0
2
2
2
2
2
0
0
10
0
0
x
x^2
4
4
4
4
4
4
4
4
4
4
40
Quadrat Nbre de pts
#
/Quadrat
1
0
2
0
3
0
4
0
5
10
6
10
7
0
8
0
9
0
10
0
20
Variance
Moyenne
Var/Moy
x^2
0
0
0
0
100
100
0
0
0
0
200
17,778
2,000
8,889
cluster
N = nombre de Quadrats = 10


n
i 1
Xi2 [( X )2 / N ]
N 1
6
Analyse quadrat
• On compare les fréquences observées dans les quadrats
avec les fréquences attendues qui seraient générées
par:
– Un modèle aléatoire (Loi de Poisson)
– Un modèle de type cluster
– Un modèle uniforme (e.g. chaque cellule possède P/Q points)
• Deux possibilités pour comparer les deux fréquences de
distribution : c2, Kolmogorov-Smirnov
7
Analyse quadrat
3
2
6
2
2
2
4
3
7
3
2
6
6
9
4
5
6
3
5
5
3
7
3
2
0
En moyenne 4 points par cellule (l100/25).
Variance = 4.59
8
Analyse quadrat
Freq
Obs, O Exp, E |O-E|
|O-E|2/E
0
1
2
3
4
5
6
7
8
9
10
1
0
6
6
2
3
4
2
0
1
0
0.64
1.83
1.49
0.25
1.7
0.21
0.75
0.18
0.74
1.35
0.13
Somme 25
.5
1.8
3.7
4.9
4.9
3.9
2.6
1.5
.7
.3
.1
.5
1.8
2.3
1.1
2.9
.9
1.4
.5
.7
.7
.1
Freq
Obs, O
Exp, E
|O-E|
|O-E|2/E
0-1
2-3
4-5
6 et +
1
12
5
7
2,3
8,6
8,8
5,3
1,3
3,4
3,8
1,7
0,73
1,34
1,64
0,54
Somme 25
χ2=4,3
Attention cependant, moins de 5 observations dans certaines classes!
On regroupe!
χ20.05,2=6, donc, avec 4,3 on ne peut toujours pas rejeter H0.
χ2=9.3
Le nombre de degrés de liberté dans ce cas = 11-1-1=9,
parce que il y a 11 classes de fréquence. Le total est connu (-1DF),
Et la moyenne a été estimée à partir de l’échantillon (-1DF).
χ20.05,9=16.9, donc, avec 9.3 on ne peut pas rejeter H0.
9
Analyse quadrat
Kolmogorov test
H0 : les données s’ajustent au modèle
H1 : les données ne s’ajustent pas au modèle
K  n max cum obs freq - cum exp freq
K est comparé avec des valeurs critiques issues de tables
Analyse quadrat
Calculation of Poisson Frequencies for Kolmogorov-Smirnov test
Number of Observed
Cumulative
Cumulative Absolute
Points in Quadrat
Total
Observed
Observed Poisson
Poisson
Difference
quadrat
Count
Point
Probability
Probability Probability Probability
0
8
0
0,8000
0,8000
0,1353
0,1353
0,6647
1
0
0
0,0000
0,8000
0,2707
0,4060
0,3940
2
0
0
0,0000
0,8000
0,2707
0,6767
0,1233
3
0
0
0,0000
0,8000
0,1804
0,8571
0,0571
4
0
0
0,0000
0,8000
0,0902
0,9473
0,1473
5
0
0
0,0000
0,8000
0,0361
0,9834
0,1834
6
0
0
0,0000
0,8000
0,0120
0,9955
0,1955
7
0
0
0,0000
0,8000
0,0034
0,9989
0,1989
8
0
0
0,0000
0,8000
0,0009
0,9998
0,1998
9
0
0
0,0000
0,8000
0,0002
1,0000
0,2000
10
2
20
0,2000
1,0000
0,0000
1,0000
0,0000
The Kolmogorov-Smirnov D test statistic is the largest Absolute Difference
= largest value in Column h
Critical Value at 5% for one sample given by:
number of quadrats
Q
number of points
P
number of points in a quadrat x
10 (sum of column B)
20 (sum of Col C)
0,6647
0.39
Significant
Analyse quadrat
Faiblesses de l’analyse Quadrat
• Les résultats peuvent dépendre la taille et de
l’orientation des quadrats!
– Il faut tester differentes tailles (ou orientations)
Analyse quadrat
Faiblesses de l’analyse Quadrat
• C’est une mesure de la dispersion et non du pattern
parce qu’elle est basée sur la densité et non sur leur
relation les uns avec les autres.
– Par exemple l’analyse Quadrat ne peut pas distinguer ces deux
patterns.
13
Analyse du plus proche voisin
•
Utilise la distance entre les points.
•
Compare la distance moyenne observée entre chaque point et son plus proche
voisin avec la distance moyenne attendue si la distribution était aléatoire.
•
NNI=Dist. moyenne Obs / Dist. moyenne attendue
Pour aléatoire,
NNI = 1
Pour cluster, NNI = 0
Pour uniforme, NNI = 2.149
Nous pouvons utiliser un test sur la loi normale pour voir si la distribution
observée est différente de ce que produirait le hasard.
Z =
Dist Moy Obs - Dist. Moy Exp.
Ecart type
Analyse du plus proche voisin
Test
(Standard error)

0.26136
n2 / A
15
Analyse du plus proche voisin
16
Analyse du plus proche voisin
•
Calculer la distance (euclidienne) de chaque point a son plus proche voisin,
en calculant l’hypothénuse du triangle
d AB  ( x A  xB ) 2  ( y A  y B ) 2
Site
X
Y
NN
dNN
A
1.7
8.7
B
2.79
B
4.3
7.7
C
0.98
C
5.2
7.3
B
0.98
D
6.7
9.3
C
2.50
E
5.0
6.0
C
1.32
F
6.5
1.7
E
4.55
13.12
________
Distance moyenne obs
d
d 13.12



 2.19
n
6
17
Analyse du plus proche voisin
A
88
E (d )  0.5
 0.5
 1.91
n
6
Parfaitement dispersé
2.15
Plus dispersé
qu’aléatoire
Totalement aléatoire
______
d
2.19
NNI 

 1.14
E (d ) 1.92
1
Plus groupé
qu’aléatoire
Parfaitement groupé
0
18
Analyse du plus proche voisin
Aléatoire
Point
1
2
3
4
5
6
7
8
9
10
Nearest
Neighbor Distance
2
1
3
0.1
2
0.1
5
1
4
1
5
2
6
2.7
10
1
10
1
9
1
10.9
Meanrdistance
Area of
Region
Density
Expected
Mean
R
NNI
Z
1.09
50
0.2
1.118034
0.974926
= -0.1515
Groupé
Nearest
Neighbor Distance
2
0.1
3
0.1
2
0.1
5
0.1
4
0.1
5
0.1
6
0.1
9
0.1
10
0.1
9
0.1
1
Point
1
2
3
4
5
6
7
8
9
10
Mean
r distance
Area of
Region
Density
Expected
Mean
RNNI
Z
0.1
50
0.2
1.118034
0.089443
= 5.508
Uniforme
Point
1
2
3
4
5
6
7
8
9
10
Nearest
Neighbor Distance
3
2.2
4
2.2
4
2.2
5
2.2
7
2.2
7
2.2
8
2.2
9
2.2
10
2.2
9
2.2
22
Mean
r distance 2.2
Area of
Region
50
Density
0.2
Expected
Mean
1.118034
RNNI
1.96774
Z
= 5.855
Analyse du plus proche voisin
• Avantages
– NNI prend en compte des distances
– Pas de probleme concernant la taille des quadrats comme précédemment.
• Inconvénients
– Attention aux effets de bord (attention à la taille et à la forme)
– Fondamentalement basée sur la distance moyenne
– On ne voit pas les variations locales (p.e. groupé localement mais pas
partout)
• Ajustement pour les effets de bord possible mais cela ne résout pas
tous les problèmes.
• Des alternatives existent. Elles sont basées sur la distribution de toutes
les distances…
20