Transcript Article 2 - Université Laval
Un algorithme de fouille dans une représentation des données par objets: une application médicale
SIMON, Arnaud & NAPOLI, Amedeo,
Ingénierie des connaissances : Évolutions récentes et nouveaux défis
, p.195-207 Olivier Leclair, Université Laval 2003 1
Plan de présentation
Introduction Description d’un système de fouille de données Système de fouille de données pour l’épidémiologie du cancer des enfants – – – – Notions de la représentation par objet Algorithme « ALFREDO » Discussion sur le fonctionnement de l’algorithme Résultats La cartographie médicale Conclusion Olivier Leclair, Université Laval 2003 2
Introduction
Enquête épidémiologique hypothèses base de données & techniques d’analyse de données Hypothèses doivent être statistiquement confirmées et vérifiées avec les données d’une autre base, avant d’être considérées comme de la connaissance.
Olivier Leclair, Université Laval 2003 3
Introduction
(suite) – – Épidémiologie des cancers de l’enfant 1.
2.
2 bases de données: Registre Lorrain des cancers de l’enfant: circonstance de découverte, confirmations, diagnostiques et traitements entrepris Enquête « cas témoin » sur les facteurs de risque des cancers de l’enfant: antécédents médicaux et expositions diagnostiques des enfants et leurs parents Analyse avec méthodes statistiques Olivier Leclair, Université Laval 2003 4
Système de fouille de données
Fouille de données: extraction de connaissances potentiellement exploitables à partir de données brutes Système s’articule autour de 4 composantes: – – – – Bases de données et leur système de gestion Système à base de connaissances d’aide à la résolution de problème Système d’étude et d’analyse de données symboliques Interface pour l’interaction et visualisation des données et des résultats Olivier Leclair, Université Laval 2003 5
Système de fouille de données
(suite) L’analyste (médecin) joue un rôle important, car il sélectionne les données à analyser.
Il est aidé par un outil de visualisation et d’organisation des données (cartographie).
Ensuite, il choisit la méthode pour analyser les données (régression linéaire, arbres de décision, réseaux de neurones).
Olivier Leclair, Université Laval 2003 6
Épidémiologie du cancer des enfants
Notions de représentation par objets – Système de représentation de connaissance par objets: Unité de connaissance = Classe Classes organisées en hiérarchies conceptuelles Processus de classification fait partie des opérations de raisonnement Olivier Leclair, Université Laval 2003 7
Épidémiologie du cancer des enfants
(suite) – Opérations de raisonnement:
Subsomption
: relation qui permet d’organiser les classes en hiérarchie. C subsume D = C est un fils de D
Classification
: établir la position d’un objet, classe ou instance dans une hiérarchie.
APS = Ascendant plus spécifique
Cohérence et instanciation
: classe doit pouvoir avoir des instances et vice versa.
Recherche d’information
: trouver les propriétés détenues par une classe, les restrictions des propriétés et leurs valeurs.
Olivier Leclair, Université Laval 2003 8
Épidémiologie du cancer des enfants
(suite) Algorithme ALFREDO: – – – Utilise les techniques de construction d’arbres de décision et les principes de l’apprentissage par généralisation.
But: Construire à partir d’un ensemble de cibles, une procédure de classification représentée par un arbre de décision.
n
classes Feuilles de l’arbre de décision est le nom des classes cibles et à un nœud est associée une fonction test.
Olivier Leclair, Université Laval 2003 9
Épidémiologie du cancer des enfants
(suite) France Lorraine Alsace Personne
lieu-habitation âge
Meuse Moselle Maladie Adulte
diplôme
Enfant
maladie
Virale Bactérienne Homme Femme Garçon Fille Olivier Leclair, Université Laval 2003 B1
pB1
B2
pB2
10
Épidémiologie du cancer des enfants
(suite) – Détermination des propriétés significatives: Déterminer APS de nos classes cibles (I) Determiner descendants de APS(I) Supprimer les classes cibles de Desc(APS(I)) Considérer les fonctions test portant sur les propriétés de APS(I) Olivier Leclair, Université Laval 2003 11
Épidémiologie du cancer des enfants
(suite) Discussion: – – L’utilisation d’un système RCO peut se justifier par: Le mode de représentation des données est proche de celui utilisé par l’être humain.
L’utilisateur est assité lors de la création et l’évolution de la hiérarchie de classes.
Les résultats validés par l’utilisateur sont utilisés pour créer de nouvelles classes.
Olivier Leclair, Université Laval 2003 12
Épidémiologie du cancer des enfants
(suite) Résultats non retrouvés dans l’analyse statistique: – Le rôle chez les filles de la non-contraction d’infections durant la petite enfance – – L’influence des maladies virales Le faible poids à la naissance Olivier Leclair, Université Laval 2003 13
La cartographie médicale
La cartographie joue un rôle important pour l’analyse des données relatives à une répartition géographique ou démographique.
La cartographie répond aux caractéristiques d’un système de fouille de données: – – – Adaptable à tous les types de données géographiques.
L’analyste joue un rôle important dans la sélection des données, méthodes et paramètres.
L’étude des cartes permet d’émettre des hypothèses à confirmer.
Olivier Leclair, Université Laval 2003 14
Conclusion
Les méthodes proposées par le système de fouille de données permet d’exploiter les connaissances du domaine étudié, ce qui est un atout majeur pour la recherche d’hypothèses.
La cartographie permet de mettre en évidence des risques environnementaux.
Grâce à ce projet, diverses voies de recherche sont envisagées: l’adaptation de techniques de raisonnement temporel et la production d’explications à la fouille de données.
Olivier Leclair, Université Laval 2003 15
Merci!
Olivier Leclair, Université Laval 2003 16