Article 2 - Université Laval

Download Report

Transcript Article 2 - Université Laval

Un algorithme de fouille dans une représentation des données par objets: une application médicale

SIMON, Arnaud & NAPOLI, Amedeo,

Ingénierie des connaissances : Évolutions récentes et nouveaux défis

, p.195-207 Olivier Leclair, Université Laval 2003 1

Plan de présentation

    Introduction Description d’un système de fouille de données Système de fouille de données pour l’épidémiologie du cancer des enfants – – – – Notions de la représentation par objet Algorithme « ALFREDO » Discussion sur le fonctionnement de l’algorithme Résultats La cartographie médicale  Conclusion Olivier Leclair, Université Laval 2003 2

Introduction

 Enquête épidémiologique  hypothèses  base de données & techniques d’analyse de données  Hypothèses doivent être statistiquement confirmées et vérifiées avec les données d’une autre base, avant d’être considérées comme de la connaissance.

Olivier Leclair, Université Laval 2003 3

Introduction

(suite)  – – Épidémiologie des cancers de l’enfant 1.

2.

2 bases de données: Registre Lorrain des cancers de l’enfant: circonstance de découverte, confirmations, diagnostiques et traitements entrepris Enquête « cas témoin » sur les facteurs de risque des cancers de l’enfant: antécédents médicaux et expositions diagnostiques des enfants et leurs parents Analyse avec méthodes statistiques Olivier Leclair, Université Laval 2003 4

Système de fouille de données

  Fouille de données: extraction de connaissances potentiellement exploitables à partir de données brutes Système s’articule autour de 4 composantes: – – – – Bases de données et leur système de gestion Système à base de connaissances d’aide à la résolution de problème Système d’étude et d’analyse de données symboliques Interface pour l’interaction et visualisation des données et des résultats Olivier Leclair, Université Laval 2003 5

Système de fouille de données

(suite)   L’analyste (médecin) joue un rôle important, car il sélectionne les données à analyser.

Il est aidé par un outil de visualisation et d’organisation des données (cartographie).

 Ensuite, il choisit la méthode pour analyser les données (régression linéaire, arbres de décision, réseaux de neurones).

Olivier Leclair, Université Laval 2003 6

Épidémiologie du cancer des enfants

 Notions de représentation par objets – Système de représentation de connaissance par objets:  Unité de connaissance = Classe  Classes organisées en hiérarchies conceptuelles  Processus de classification fait partie des opérations de raisonnement Olivier Leclair, Université Laval 2003 7

Épidémiologie du cancer des enfants

(suite) – Opérations de raisonnement: 

Subsomption

: relation qui permet d’organiser les classes en hiérarchie.    C subsume D = C est un fils de D

Classification

: établir la position d’un objet, classe ou instance dans une hiérarchie.

APS = Ascendant plus spécifique

Cohérence et instanciation

: classe doit pouvoir avoir des instances et vice versa.

Recherche d’information

: trouver les propriétés détenues par une classe, les restrictions des propriétés et leurs valeurs.

Olivier Leclair, Université Laval 2003 8

Épidémiologie du cancer des enfants

(suite)  Algorithme ALFREDO: – – – Utilise les techniques de construction d’arbres de décision et les principes de l’apprentissage par généralisation.

But: Construire à partir d’un ensemble de cibles, une procédure de classification représentée par un arbre de décision.

n

classes Feuilles de l’arbre de décision est le nom des classes cibles et à un nœud est associée une fonction test.

Olivier Leclair, Université Laval 2003 9

Épidémiologie du cancer des enfants

(suite) France Lorraine Alsace Personne

lieu-habitation âge

Meuse Moselle Maladie Adulte

diplôme

Enfant

maladie

Virale Bactérienne Homme Femme Garçon Fille Olivier Leclair, Université Laval 2003 B1

pB1

B2

pB2

10

Épidémiologie du cancer des enfants

(suite) – Détermination des propriétés significatives:  Déterminer APS de nos classes cibles (I)  Determiner descendants de APS(I)  Supprimer les classes cibles de Desc(APS(I))  Considérer les fonctions test portant sur les propriétés de APS(I) Olivier Leclair, Université Laval 2003 11

Épidémiologie du cancer des enfants

(suite)  Discussion: – – L’utilisation d’un système RCO peut se justifier par:  Le mode de représentation des données est proche de celui utilisé par l’être humain.

 L’utilisateur est assité lors de la création et l’évolution de la hiérarchie de classes.

Les résultats validés par l’utilisateur sont utilisés pour créer de nouvelles classes.

Olivier Leclair, Université Laval 2003 12

Épidémiologie du cancer des enfants

(suite)  Résultats non retrouvés dans l’analyse statistique: – Le rôle chez les filles de la non-contraction d’infections durant la petite enfance – – L’influence des maladies virales Le faible poids à la naissance Olivier Leclair, Université Laval 2003 13

La cartographie médicale

  La cartographie joue un rôle important pour l’analyse des données relatives à une répartition géographique ou démographique.

La cartographie répond aux caractéristiques d’un système de fouille de données: – – – Adaptable à tous les types de données géographiques.

L’analyste joue un rôle important dans la sélection des données, méthodes et paramètres.

L’étude des cartes permet d’émettre des hypothèses à confirmer.

Olivier Leclair, Université Laval 2003 14

Conclusion

   Les méthodes proposées par le système de fouille de données permet d’exploiter les connaissances du domaine étudié, ce qui est un atout majeur pour la recherche d’hypothèses.

La cartographie permet de mettre en évidence des risques environnementaux.

Grâce à ce projet, diverses voies de recherche sont envisagées: l’adaptation de techniques de raisonnement temporel et la production d’explications à la fouille de données.

Olivier Leclair, Université Laval 2003 15

Merci!

Olivier Leclair, Université Laval 2003 16