Projet Informatique Master MIMSE, Spécialité 2 2012-2013

Download Report

Transcript Projet Informatique Master MIMSE, Spécialité 2 2012-2013

Projet Informatique
Master MIMSE, Spécialité 2
2012-2013
Classification Ascendante Hiérarchique
Contact : Frédéric Proïa
L’objectif du projet est la réalisation d’une Classification Ascendante Hiérarchique sur un
ensemble de données, et son stockage informatique réfléchi. Le programme devra ouvrir un
fichier de contingence au format texte et le stocker dans une structure de données adéquate.
Le programme devra détecter les problèmes de formatage dans le fichier en entrée.
Une Classification Ascendante Hiérarchique sera mise en place sur ce tableau, et elle aussi
stockée étape par étape dans une structure de données pertinente. Après ouverture du
fichier, le programme devra alors remplir 2 objectifs successifs :
– Empiler un ensemble d’actions déterminant une CAH.
– Dépiler cet ensemble et faire apparaître à l’écran la suite chronologique des actions à
effectuer pour la CAH.
Les 4 critères classiques seront offerts comme choix à l’utilisateur pour la CAH qui devra
remonter jusqu’au regroupement final (à savoir, une seule classe), mais vous êtes libres
d’en ajouter de nouveaux. Un ensemble de données réelles sera fourni pour éprouver le
programme.
Le projet devra être implémenté en R, Scilab ou Matlab. Une attention particulière sera
portée à la qualité de la programmation qui devra être proprement commentée et très
modulaire. Le code original sera envoyé accompagné d’une notice explicative.
Le rapport final contiendra une description des structures de données utilisées ainsi que des
exemples, détails et commentaires pratiques sur les résultats obtenus et sur tout ce qui vous
semblera pertinent (graphes, comparaison des sauts, etc.)
1
Annexe technique
La Classification Ascendante Hiérarchique a pour objectif le regroupement d’une certaine
population de n individus en un nombre c < n de classes. Chaque élément est comparé
grâce à une mesure de dissimilarité. En statistique, on appelle dissimilarité définie sur un
ensemble fini I à n éléments une fonction d de I × I dans R qui vérifie, pour tout i, j ∈ I 2 ,
dij ≥ 0,
dii = 0,
dij = dji .
De plus, elle est dite métrique si, pour tout i, j, k ∈ I 3 ,
dik ≤ dij + djk .
La CAH produit une hiérarchie H, c’est-à-dire un regroupement de toutes les classes de
toutes les étapes. L’ensemble des individus appartient à H lorsque la CAH est complète, mais
chaque individu pris séparément appartient aussi à H, à l’étape 0. Lors du regroupement de
2 classes C1 et C2 de cardinal respectif n1 et n2 , il se crée une classe C3 de cardinal n1 + n2
contenant l’union des éléments de C1 et de C2 . La mesure de dissimilarité entre C1 et C2
se fait classiquement par l’intermédiaire de 4 critères :
– Le critère du saut minimal,
(
)
dissim(C1 , C2 ) = min min dissim(x, y) .
x∈ C1 y∈ C2
– Le critère du saut maximal,
(
)
dissim(C1 , C2 ) = max max dissim(x, y) .
x∈ C1 y∈ C2
– Le critère du saut moyen,
dissim(C1 , C2 ) =
1 ∑ ∑
dissim(x, y).
n1 n2
x∈ C1 y∈ C2
– Le critère de Ward,
dissim(C1 , C2 ) =
n1 n2
dissim(G1 , G2 )
n1 + n2
où G1 et G2 sont les centres de gravité de C1 et C2 , respectivement. Chaque itération réduit
de 1 unité le nombre de classes en fusionnant les 2 dont la dissimilarité est minimale.
2