Aq (Algorithme de l`étoile)

Download Report

Transcript Aq (Algorithme de l`étoile)

Aq (Algorithme de l’étoile)
Jérôme AZÉ
LRI – équipe IA
Plan






Présentation de Aq
Algorithme
Un exemple
Défauts de la méthode
Solution apportée
Application à la génomique
DEA I3 - Module Génomique
2
Aq (Algorithme de l’étoile)
 Proposé par R. Michalski (1969)
 Problème :
 un ensemble d’attributs
 2 classes (POS, NEG)
 Objectif :
 Apprendre une description correcte et complète de
la classe POS
DEA I3 - Module Génomique
3
NEG
POS
Ensemble d’apprentissage
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
DEA I3 - Module Génomique
4
Algorithme
 Diviser les exemples en deux sous ensembles
(POS, NEG)
 Choisir un exemple dans POS (le noyau)
 Trouver un ensemble de règles générales
caractérisant le noyau (l’étoile)
 Choisir la meilleure règle dans l’étoile
 Itérer s’il reste des exemples non couverts dans
POS
DEA I3 - Module Génomique
5
NEG
POS
Changement de
représentation (1/4)
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
DEA I3 - Module Génomique
M
N
F3 F4
F6 E3
T
S
R
E4 E1 F5
X Y Z
6
NEG
POS
Changement de
représentation (2/4)
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
M
N
F3 F4
F6 E3
E4 E1 F5
X Y Z
N
M
DEA I3 - Module Génomique
R
T
S
F2
F1
E2
X Y
T
S
R
Z
7
NEG
POS
Changement de
représentation (3/4)
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
E2
E4
E1
F5
M
N
R
F1 F6
E3
M
N
S
DEA I3 - Module Génomique
Att1
X
F2
F3
F4
M
N
T
Y
Z
Att2
Att3
8
NEG
POS
Changement de
représentation (4/4)
+
M
R
+
+
-
-
N
M
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
+
N
S
Att1
X
-
-
M
N
T
Y
E2
E4
E1
F5
Z
Att2
Att3
M
DEA I3 - Module Génomique
N
R
F1 F6
E3
M
N
S
Att1
X
F2
F3
F4
M
N
T
Y
Z
Att2
Att3
9
Apprentissage (1/4)
NEG
POS
 Choix du noyau : E1
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
 Génération de l ’étoile de E1 tel que F1 ne soit
pas couvert
DEA I3 - Module Génomique
10
Apprentissage (2/4)
 E1 :
F1
E1
• (Att1 = Y)
• (Att2 = N)
• (Att3 = R)
+
 Négation de F1 :
M
+
+
-
-
N
M
R
+
N
S
Att1
X
-
-
M
N
T
Y
Z
Att2
Att3
• (Att1 = Y v Z)
• (Att2 = N)
• (Att3 = R v T)
DEA I3 - Module Génomique
11
Apprentissage (3/4)
 Prise en considération de F2
• Att3 = R
• (Att3 = (R v S)) & (Att1 = (Y v Z))
• Att2 = N
+
M
R
+
+
-
-
N
M
+
N
S
DEA I3 - Module Génomique
F2
Att1
X
-
-
M
N
T
Y
Z
Att2
Att3
12
Apprentissage (4/4)
 Prise en considération de F3 (ou F4)
• (Att3 = R) & (Att1 = X v Y)
• (Att3 = (R v S)) & (Att1 = (Y v Z))
+
M
R
+
+
-
-
N
M
+
N
S
DEA I3 - Module Génomique
F3
Att1
X
-
-
M
N
T
F4
Y
Z
Att2
Att3
13
Étoile de E1
 La spécialisation des règles conduit à :
R1’ : (att1 = X v Y) & (att3 = R)
R2’ : (att1 = Y) & (att3 = R v S)
+
M
R
+
+
-
-
N
M
+
N
S
Att1
X
-
-
M
N
T
DEA I3 - Module Génomique
Y
Z
Att2
Att3
14
Critères de sélection des
règles dans l’étoile
 Maximiser le nombre d ’éléments couverts
par la règle retenue
 Minimiser le nombre d ’attributs de la
règle retenue
 Maximiser la capacité à généraliser de la
règle retenue
 ...
DEA I3 - Module Génomique
15
Critère et règle retenus
 Maximiser le nombre d’exemples couverts
 Règle retenue :
• R1’ : (att1 = X v Y) & (att3 = R)
+
E3
M
R
+
+
-
-
N
M
+
N
S
Att1
X
-
-
M
N
T
DEA I3 - Module Génomique
Y
Z
Att2
Att3
16
Itération de l’algorithme
 Exemple non couvert par R1’ : E3
 Étoile de E3 :
• R : (att1 = Y) & (att3 = R v S)
+
+
Att1
X
-
-
+
+
-
M
N
R
M
N
S
M
-
Y
-
Z
N
Att2
Att3
T
DEA I3 - Module Génomique
17
Résultat final
 Deux règles permettent de caractériser
POS par rapport à NEG
• R1 : (att1 = X v Y) & (att3 = R)
• R2 : (att1 = Y) & (att3 = R v S)
+
M
R
+
+
-
-
N
M
+
N
S
Att1
X
-
-
M
N
T
DEA I3 - Module Génomique
Y
Z
Att2
Att3
18
Défauts de Aq
 Sensibilité au bruit dans les classes
 Sensibilité liée à l’imprécision du contexte
 Solution proposée par R. Michalski (1990)
• approche à deux niveaux (two-tiered
approach )
DEA I3 - Module Génomique
19
Approche à deux niveaux
(1/3)
 Idée :
• découper la description de la classe POS en
deux parties :
 Représentation de Base du Concept (RBC)
 Interprétation Inférentielle du Concept (IIC)
 Possibilité d’apprendre des concepts
flexibles
DEA I3 - Module Génomique
20
Approche à deux niveaux
(2/3)
 Algorithme
• Utiliser Aq pour obtenir l’ensemble initial de
règles
• Retenir la règle la plus importante (nombre
maximal d’éléments de POS couverts) : RBC
• Définir la procédure IIC pour reconnaître les
éléments de POS non couverts par RBC
DEA I3 - Module Génomique
21
Approche à deux niveaux
(3/3)
 Exemple
• BCR : si A1 & A2 & … & An alors POS
• IIC : au moins 3 conditions parmi A1, …, An
doivent être vérifiées
IIC
BCR
DEA I3 - Module Génomique
22
Application à la génomique
 Caractériser des gènes (ou des protéines)
par classes de fonctions
 Caractériser des séquences d’ADN (ou
d’ARN) selon certaines propriétés
DEA I3 - Module Génomique
23