Cours Classification..

Download Report

Transcript Cours Classification..

Analyses typologiques
But :
Classer en groupes (les plus homogènes possibles)
des unités statistiques en partant d’un ensemble de variables.
Supposition préalable :
Les regroupements existent ou peuvent exister.
Remarque :
La typologie, une fois constituée, peut devenir
un nouveau critère de description et/ou d’analyse.
Méthodes hiérarchiques
Deux grands types de
méthodes typologiques :
Méthodes non-hiérarchiques
La Classification Hiérarchique
Représenter les individus par un ensemble
de parties hiérarchiquement emboîtées.
Méthode « descendante »
Méthode « ascendante »
Du groupe aux individus
Des individus au groupe
Les différents regroupements peuvent être représentés
graphiquement à l’aide d’un dendrogramme.
Classification Hiérarchique
Méthode « descendante »
Méthode « ascendante »
Classification Hiérarchique
Méthode « ascendante »
Etape n°1
1
Etape n°2
1
2
3
4
1
2
3
5
Etape n°3
3
5
4
Etape n°4
1
4
5
4
Etape n°5
2
3
2
5
1
2
3
4
5
Classification Hiérarchique
On ne définit pas a priori le nombre de classes
Utilisation du dendrogramme
Remarque :  le nombre d’individus doit au moins être deux
fois supérieur au nombre de variables.
Exemple élémentaire
Cinq points dans un plan
•1
•6
•3
Distances euclidiennes
•2
•5
1
2
3
4
1 0 16
1
9 10
2
3
•4
Iintra = 0
Iintra = 1
5
0 17 25 2
0
4
9
4
0 13
5
0
Regroupement : 1 et 3
Nouvel individu 6
Regroupement 2 et 5
Distances euclidiennes
•1
•6
•3
•5
•7
•2
2
Iintra = 0
Iintra = 2
5
6
2 0 25 2 12
4
0 13 6
5
0
6
•4
4
7
0
Regroupement : 2 et 5
Nouvel individu 7
Regroupement 4 et 6
Distances euclidiennes
•1
•6
•3
•8
•5
•7
•2
4
Iintra = 2
Iintra = 6
7
4 0
6 19
6
0
7
•4
6
9
0
Regroupement : 4 et 6
Nouvel individu 8
Regroupement 7 et 8 et dendrogramme
•1
•6
•3
•8
•5
•7
•2
13
1
Iintra = 6
Iintra = 13
8
6
2
•4
9
7
6
1 3 4 2 5
I   mq d ²( gq , g)    mi d ²( gq , xi )
q i Q
q
INERTIE TOTALE = INERTIE INTER + INERTIE INTRA
mx  m' x '
Si on regroupe x (de poids m) et x’ (de poids m’) en y =
m  m'
mxg
2
 m' x' g
2
2
2
 m x  y  m' x' y  (m  m' ) y  g



2
perte d'inertie
m  m'
x  x'
m  m'
Contribution du couple x x’ à l’inertie
mxz
yz
2
2
 m' x ' z
2
Contribution de y à l’inertie
2
mm'

x  x'
m  m'
2
 ( m  m' ) y  z
1
mm'

2
2
2

m x  z  m' x' z 
x  x' 

(m  m' ) 
m  m'

2
4 individus : A B C D
4 POINTS dans un espace de dimension 4
4 variables : V1 V2 V3 V4
A
B
C
D
V1 V2 V3 V4
5 10 13 4
16 7 6 1
8 15 14 3
9 2 11 12
Coordonnées du centre de gravité
du nuage :
9,5 8,5 11 5
Inertie totale : 262
Carré de la distance entre A et B : 188
4,5²+1,5²+2²+1²
6,5²+1,5²+5²+4²
1,5²+6,5²+3²+2²
0,5²+6,5²+0²+7²
11² + 3² + 7² + 3²
Perte d’inertie consécutive au regroupement de A et B :
Poids de A
11188
11
94
Poids de B
EXEMPLE
DISTANCES
A
B
C
D
A
0
188
36
148
B
188
0
196
220
C
36
196
0
260
D
148
220
260
0
On regroupe A et C en une classe notée E de poids 2
PERTES
D’INERTIE
A
B
C
D
A
B
C
D
0
94
18
74
94
0
98
110
18
98
0
130
74
110
130
0
A
B
C
D
V1
5
16
8
9
V2
10
7
15
2
V3
13
6
14
11
V4
4
1
3
12
Carré de la distance
entre E et F : 134
On regroupe E et F en G
Perte d’inertie : 134
F : 12,5 4,5 8,5 6,5
E : 6,5 12,5 13,5 3,5
DISTANCES B
D
E
B
0 220 183
D
220 0 195
E
183 195 0
PERTES
B
D
E
B
D
E
0
110 122
110
0 130
122 130 0
Dendrogramme
A
1
C
2
B
3
D
18
110
92
134
24
156
130
104
78
52
26
0
Dissimilarité
CLASSIFICATION NON HIERARCHIQUE
Méthode des « nuées dynamiques »
Agrégation autour de centres mobiles
Dans cette méthode, on définit au préalable le nombre de
classes qu’on veut obtenir dans la partition finale
EXEMPLE
Var 1
Var 2
6 individus (ABCDEF) et 2 variables
A
2
1
B
3
2
C
6
5
D
8
7
E
7
6
F
9
6
On décide d’une partition en 2 classes
On choisit au hasard les deux premiers « centres » : C et F
A
B
C
D
E
F
Var 1
2
3
6
8
7
9
Var 2
1
2
5
7
6
6
ABCE
ABC Poids
Poids:4
:3 G1 : G’
4,51 3,5
DEF
DF Poids
Poids:2
:3 G2 : G’
8,52 6,5
Et ainsi de suite…
Centres initiaux : C et F
Carré de la
Carré de la
distance
distanceààGC1 distance
distanceààGF2
A
B
C
D
E
F
Centre le +
proche
12,5
32
72,5
74
GC1
4,5
18
0
4,5
50,5
52
GC1
GC1
24,5
8
12,5
2
26,5
10
8,5
10
0,5
2
GF2
2,5
4
GC2
0,5
0
GF2