Aq (Algorithme de l`étoile)
Download
Report
Transcript Aq (Algorithme de l`étoile)
Aq (Algorithme de l’étoile)
Jérôme AZÉ
LRI – équipe IA
Plan
Présentation de Aq
Algorithme
Un exemple
Défauts de la méthode
Solution apportée
Application à la génomique
DEA I3 - Module Génomique
2
Aq (Algorithme de l’étoile)
Proposé par R. Michalski (1969)
Problème :
un ensemble d’attributs
2 classes (POS, NEG)
Objectif :
Apprendre une description correcte et complète de
la classe POS
DEA I3 - Module Génomique
3
NEG
POS
Ensemble d’apprentissage
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
DEA I3 - Module Génomique
4
Algorithme
Diviser les exemples en deux sous ensembles
(POS, NEG)
Choisir un exemple dans POS (le noyau)
Trouver un ensemble de règles générales
caractérisant le noyau (l’étoile)
Choisir la meilleure règle dans l’étoile
Itérer s’il reste des exemples non couverts dans
POS
DEA I3 - Module Génomique
5
NEG
POS
Changement de
représentation (1/4)
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
DEA I3 - Module Génomique
M
N
F3 F4
F6 E3
T
S
R
E4 E1 F5
X Y Z
6
NEG
POS
Changement de
représentation (2/4)
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
M
N
F3 F4
F6 E3
E4 E1 F5
X Y Z
N
M
DEA I3 - Module Génomique
R
T
S
F2
F1
E2
X Y
T
S
R
Z
7
NEG
POS
Changement de
représentation (3/4)
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
E2
E4
E1
F5
M
N
R
F1 F6
E3
M
N
S
DEA I3 - Module Génomique
Att1
X
F2
F3
F4
M
N
T
Y
Z
Att2
Att3
8
NEG
POS
Changement de
représentation (4/4)
+
M
R
+
+
-
-
N
M
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
+
N
S
Att1
X
-
-
M
N
T
Y
E2
E4
E1
F5
Z
Att2
Att3
M
DEA I3 - Module Génomique
N
R
F1 F6
E3
M
N
S
Att1
X
F2
F3
F4
M
N
T
Y
Z
Att2
Att3
9
Apprentissage (1/4)
NEG
POS
Choix du noyau : E1
Exemples
Att1
Att2
Att3
Classe
E1
E2
E3
E4
F1
F2
F3
F4
F5
F6
Y
X
Y
X
X
Y
Y
Z
Z
X
N
M
N
N
M
M
N
N
N
N
R
R
S
R
S
T
T
T
R
S
+
+
+
+
-
Génération de l ’étoile de E1 tel que F1 ne soit
pas couvert
DEA I3 - Module Génomique
10
Apprentissage (2/4)
E1 :
F1
E1
• (Att1 = Y)
• (Att2 = N)
• (Att3 = R)
+
Négation de F1 :
M
+
+
-
-
N
M
R
+
N
S
Att1
X
-
-
M
N
T
Y
Z
Att2
Att3
• (Att1 = Y v Z)
• (Att2 = N)
• (Att3 = R v T)
DEA I3 - Module Génomique
11
Apprentissage (3/4)
Prise en considération de F2
• Att3 = R
• (Att3 = (R v S)) & (Att1 = (Y v Z))
• Att2 = N
+
M
R
+
+
-
-
N
M
+
N
S
DEA I3 - Module Génomique
F2
Att1
X
-
-
M
N
T
Y
Z
Att2
Att3
12
Apprentissage (4/4)
Prise en considération de F3 (ou F4)
• (Att3 = R) & (Att1 = X v Y)
• (Att3 = (R v S)) & (Att1 = (Y v Z))
+
M
R
+
+
-
-
N
M
+
N
S
DEA I3 - Module Génomique
F3
Att1
X
-
-
M
N
T
F4
Y
Z
Att2
Att3
13
Étoile de E1
La spécialisation des règles conduit à :
R1’ : (att1 = X v Y) & (att3 = R)
R2’ : (att1 = Y) & (att3 = R v S)
+
M
R
+
+
-
-
N
M
+
N
S
Att1
X
-
-
M
N
T
DEA I3 - Module Génomique
Y
Z
Att2
Att3
14
Critères de sélection des
règles dans l’étoile
Maximiser le nombre d ’éléments couverts
par la règle retenue
Minimiser le nombre d ’attributs de la
règle retenue
Maximiser la capacité à généraliser de la
règle retenue
...
DEA I3 - Module Génomique
15
Critère et règle retenus
Maximiser le nombre d’exemples couverts
Règle retenue :
• R1’ : (att1 = X v Y) & (att3 = R)
+
E3
M
R
+
+
-
-
N
M
+
N
S
Att1
X
-
-
M
N
T
DEA I3 - Module Génomique
Y
Z
Att2
Att3
16
Itération de l’algorithme
Exemple non couvert par R1’ : E3
Étoile de E3 :
• R : (att1 = Y) & (att3 = R v S)
+
+
Att1
X
-
-
+
+
-
M
N
R
M
N
S
M
-
Y
-
Z
N
Att2
Att3
T
DEA I3 - Module Génomique
17
Résultat final
Deux règles permettent de caractériser
POS par rapport à NEG
• R1 : (att1 = X v Y) & (att3 = R)
• R2 : (att1 = Y) & (att3 = R v S)
+
M
R
+
+
-
-
N
M
+
N
S
Att1
X
-
-
M
N
T
DEA I3 - Module Génomique
Y
Z
Att2
Att3
18
Défauts de Aq
Sensibilité au bruit dans les classes
Sensibilité liée à l’imprécision du contexte
Solution proposée par R. Michalski (1990)
• approche à deux niveaux (two-tiered
approach )
DEA I3 - Module Génomique
19
Approche à deux niveaux
(1/3)
Idée :
• découper la description de la classe POS en
deux parties :
Représentation de Base du Concept (RBC)
Interprétation Inférentielle du Concept (IIC)
Possibilité d’apprendre des concepts
flexibles
DEA I3 - Module Génomique
20
Approche à deux niveaux
(2/3)
Algorithme
• Utiliser Aq pour obtenir l’ensemble initial de
règles
• Retenir la règle la plus importante (nombre
maximal d’éléments de POS couverts) : RBC
• Définir la procédure IIC pour reconnaître les
éléments de POS non couverts par RBC
DEA I3 - Module Génomique
21
Approche à deux niveaux
(3/3)
Exemple
• BCR : si A1 & A2 & … & An alors POS
• IIC : au moins 3 conditions parmi A1, …, An
doivent être vérifiées
IIC
BCR
DEA I3 - Module Génomique
22
Application à la génomique
Caractériser des gènes (ou des protéines)
par classes de fonctions
Caractériser des séquences d’ADN (ou
d’ARN) selon certaines propriétés
DEA I3 - Module Génomique
23