Transcript view
Extraction de Connaissances à partir de
Données (KDD*)
Mots clés :
Fouille de données, entrepôt de données, analyse de données,
classification, apprentissage
Nédra Mellouli-Nauwynck
[email protected]
* Knowledge Discovery in Data Bases (KDD) and data Mining (DM)
Introduction
KDD - La démarche
Décision
•Promouvoir le produit P dans la région R durant la période N
•Réaliser un mailing sur le produit P aux familles du profil F
Connaissance
•Une quantité Q du produit P est vendue en région R
•Les familles de profil F utilisent M% de P durant la période N
Information
•X habite la région R
•Y a A ans
•Z dépense son argent dans la ville V de la région R
Données
•Consommateurs
•Magasins
•Ventes
•Démographie
•Géographie
Introduction
Le processus de KDD
Données
Pré-traitementpré-traitées
et nettoyage
Databases
Datawarehouse
DataMart
Web
Données
cibles
visualisation
Motifs /
Modèles
Données
transformées
Introduction
Quelques définitions
Extraction d’informations originales, auparavant inconnues,
potentiellement utiles à partir de données. « Frawley & PiateskiShapiro »
La découverte de nouvelles corrélations, tendances et modèles par
le tamisage d’un large volumes de données. « John Page »
Un processus d’aide à la décision où les utilisateurs cherchent des
modèles d’interprétation dans les données. « Parsaye »
Torturer l’information jusqu’à ce qu’elle avoue. « Dimitris et al. »
Découverte de connaissances dans les bases de données (KDD)
Connaissances : un ensemble de relations entre les
données
Introduction
À retenir…Data Mining ou KDD
Besoin de retrouver toutes les informations associées à
un sujet donné, par exemple un consommateur, un
vendeur, un produit ou une activité.
Extraire des connaissances des « grandes BD »
historisées, en dégageant des tendances de fond et les
règles de l’entreprise et du marché.
1 source
de données
n sources
de données
extraction
extraction
1 utilisateur
n utilisateurs
Introduction
Data Warehouse
Entrepôt de données est une collection de données structurées
englobant les informations en provenance des différents
systèmes opérationnels
Propriétés des données
Intégrées
Non volatiles (permanentes)
Historisées
Orientées sujet
Organisées
Pour le système décisionnel
Introduction
Exploitation d’un Data Warehouse
Les outils d’exploitation d’un data Warehouse peuvent être classés
en deux catégories:
Outils d’aide à la décision permettant d ’interroger et
d’analyser l’évolution des données
Outils de DM permettant de comprendre les relations entre
les données (problème très ouvert) afin de déterminer des
modèles implicites, et de remonter de l’information non
prévisible à l’utilisateur.
Structure du cours
Première partie :
Description de la démarche détaillée du processus du DM
avec une décomposition en huit étapes successives.
Description d’un processus d’analyse des données
Deuxième partie :
Enumération de quelques techniques de DM avec un rappel
de quelques notions de bases en statistiques
Etude de certains logiciels
Etude d’un cas
Perspectives de développement et de recherche
Intégration de données hétérogènes pour le pré-traitement
Structure du cours
Première partie :
Description détaillée de la démarche du processus
du DM avec une décomposition en huit étapes
successives.
Description d’un processus d’analyse des données
Deuxième partie :
Enumération de quelques techniques de DM avec
un rappel de quelques notions de bases en
statistiques
Etude de certains logiciels
Etude d’un cas
Perspectives de développement et de recherche
Identification de profils de clients et
organisation d’une campagne de Marketing
direct
Un voyagiste organise des circuits touristiques et
offrent cinq types de prestations qui sont notés par
A, B, C, D, E. Le directeur marketing souhaite mettre
en place une option de fidélisation. En effet, la
politique de fidélisation se comprend comme le
souhait de vendre aux clients existants de nouvelles
prestations. C’est donc de transformer des
monodétenteurs de produits en multidétenteurs.
II. Processus du Data Mining :
différentes phases
•
•
•
•
•
•
•
•
Phase
Phase
Phase
Phase
Phase
Phase
Phase
Phase
1
2
3
4
5
6
7
8
de compréhension du problème
de recherche des données
de sélection des données pertinentes
de nettoyage des données
des actions sur les variables
de recherche de modèles
d’évaluation des résultats
d’intégration de la connaissance
Phase 1 de compréhension du
problème
Recueillir les « intuitions » et la
connaissance des experts pour
identifier les variables les plus
pertinentes susceptibles d’expliquer
les phénomènes analysés
Formuler le problème
Définir les objectifs
Les résultats attendus
Les moyens d’évaluation des résultats en fin du
processus de DM
Phase 1: comment faire? …
Formuler le problème
Décomposer le problème complexe en sous-problèmes de complexité
moindre et collecter les données nécessaires au traitement de chacun des
sous-problèmes
Typologie du problème
Problème d’affectation
Classification des objets en sous-ensembles homogènes. Cela
suppose la connaissance des classes. Il s’agit d’identifier les
facteurs d’affectation
Problème de structuration
Mise en évidence des classes ou des facteurs de différentiation.
Il s’agit d’identifier les facteurs de structuration.
Résultats attendus
Une démarche d’analyse critique des moyens d’exploitation de
résultats
Typologie des clients
la politique de fidélisation se comprend
comme le souhait de vendre aux clients
existants de nouvelles prestations. C’est donc
de transformer des monodétenteurs de
produits en multidétenteurs.
Proposition de plusieurs produits différents
clients monodétenteurs
hétérogènes
comprendre la répartition actuelle
avant toute vente de nouveaux
produits
Problématique de structuration des
clients
Qui sont mes clients?
Nombre de clients, les
types de produits
achetés,etc.
Problématique d’affectation
Quels sont les clients à cibler?
taux des multidétenteurs,
volume de chiffres
d’affaires,etc.
Objectifs
Mieux identifier les clients
afin de réviser les offres et
la politique marketing
Fournir au corps marketing
une liste ciblée de clients
Phase 2 de recherche des données
fichiers
supports électroniques
Documents papiers
préparer les données d’entrée, en
particulier trouver les sources,
collecter, nettoyer, transformer et
intégrer les données.
Déterminer la structure générale des
données, les règles utilisées pour les
constituer.
• Sélection des données
– Déterminer les attributs les plus représentatifs
– Déterminer les variables influentes
– Contexte du problème étudié et représentation
Phase 2 de recherche des données:
comment faire? …
Total des données collectées
Mr l’expert vs Système expert
Lister les éléments qui sont, selon lui importants (pas
d’organisation du processus d’analyse de l’expert)
Absence de l’expert
Remplacer par des techniques d’analyse telles les
réseaux de neurones, les régressions
Extraire la sémantique des données, identifier des groupes
fréquents de données, des valeurs seuils, des valeurs
aberrantes afin de réduire la dimension du problème en
isolant les variables pertinentes.
Réduction des données collectées
Réduction des données collectées
Création de méthodes de classification des variables
Observation de corrélations entre certaines données
Réduction arbitraire
--
Exemples
++
Configuration
optimale
Attention
temps de
calcul
Attention
Peu
d’exemples
stabilité
--
variables
++
Collecte des données liées aux clients, aux
produits et aux achats
Réunion de travail
avec les responsables
des produits
Responsable
marketing
Caractériser le
comportement du
client
Informations sur le client
Sexe,âge,situation matrimoniale,nb
d’enfants à charges, catégorie
socioprofessionnelle,nb d’années
anciennetés,…
Informations sur les types de produits
achetés
Produit A avec la date du 1er. Achat
Produit B //
//
…
Informations comptables
Montant des achats par produit
Date du dernier achat, type de
payement
Statut financier du client
(bon,moyen,mauvais)
Informations collectées par questionnaires et
enquêtes
Centre d’intérêts
Informations géographiques
Code de la commune, taille de la
commune,type d’habitat,etc.
Phase 3 de sélection des données
pertinentes
Pour ou contre l’échantillonnage, les avis sont assez
partagés. Il est vain d’essayer de traiter entièrement
les grosses bases de données.
Il semble judicieux de mettre en œuvre des schémas
de tirage qui permettent d’assurer de la prise en
compte de la plupart des structures qui régissent les
observations
Échantillonnage
Représentation de la population, dans quel cas
c’est avec un tirage aléatoire
stratification de la population, et mieux
représenter une sous population (20% des clients
contribuent à 80% du chiffre d’affaires)
Phase 3 : exemple(suite)
Si le client n’a effectué aucun achat sur les 3
dernières années, alors pas d’extraction
Si le client a acheté pour plus de 30 000F, on tire
aléatoirement 1 exemple parmi 4 (40%)
Sinon, on tire aléatoirement un exemple sur 10
(10%)
Obtention d’un échantillon représentatif pour
l’enjeux Marketing
Phase 4 de nettoyage des données
Selon les moyens d’acquisition des données
Manuels : plus la quantité de données à saisir est importante plus
l’erreur sur les données est probable
Automatisés : mettre des dispositifs de vérification de la cohérence
des données. Le cas des capteurs, comment faire?
Mixtes : détection des incohérence est plus complexe
Les valeurs aberrantes
Réparer les données
Valeurs contradictoires
Tenir compte de la non-qualité
Dates impossibles
des données
Les valeurs manquantes
Réduction considérable du
Des sauts de lignes ou de colonnes
Des valeurs inconnues à l’origine
nombre de variables
Les valeurs nulles
Distinguer entre une vraie valeur nulle et une fausse
Une valeur nulle : valeur inconnue, oubliée ou réellement zéro.
Phase 5 des actions sur les variables
La transformation monovariable
Modification des unités de mesures
Transformation des dates en durées
La transformation multivariable
Les ratios
Les fréquences
Les tendances
Les combinaisons linéaires et non linéaires
Normalisation
des valeurs
Phase 5 : exemple (suite)
Croisement de la variable Age et date du premier
achat => l’âge du client au premier achat
Croisement de la date du premier achat avec la date
du dernier => une durée de vie du client dans la
compagnie
Croisement des variables type d’habitat et taille de la
commune permet de caractériser le style d’habitat
Petite ville & individuelle => rural
Grande ville & individuel => banlieue chic
Grande ville & collectif
=> forte concentration
Exemples d’actions sur les variables
Chiffre
log
d’affaires
Achat en Achat en fréquence
période période
1
2
Exemple 1 23
3.145
oui
non
50%
Exemple 2 123
4.812
non
non
0%
Exemple 3 2345
7.760
oui
oui
100%
Phase 6 de recherche de modèles
L’apprentissage
Apprentissage supervisé vs. non supervisé
L’automatisme et interaction
Interaction entre algorithme d’apprentissage et l’humain
Les algorithmes de calculs
Les modèles d’équations et de projections
Issus des modèles statistiques : régression linéaire,
logistique analyse discriminante
Réseaux de neurones
L’analyse logique
Logique inductive, abductive, déductive
Généralisation, spécialisation, validation
Le canard vole,
Le pigeon vole, tous les oiseaux volent
Le moineau vole
Tous les oiseaux volent,
Titi vole titi est un oiseau
Tous les oiseaux volent,
Titi est un oiseau titi est un oiseau
Phase 6 : recherche des modèles de
ventes
Age
Détention
Chiffre d’affaires
Déterminer la typologie des clients
Un grand nombre de voyages achetés
Clients jeunes
Gros chiffre d’affaires
3%
Clients midle-âges
chiffre d’affaires
petit
6%
Un faible nombre de voyages achetés
Clients jeunes
chiffre d’affaires
moyen
20%
Clients âgés
chiffre d’affaires
moyen
4%
Clients jeunes
chiffre d’affaires
petit
22%
Clients midle-âges
chiffre d’affaires
important
5%
Clients très âgés
chiffre d’affaires
important
21%
Phase 7 d’évaluation des résultats
Une évaluation qualitative
Visualisations
Graphiques et/ou textuelle
Une évaluation quantitative
Notion d’intervalle de confiance
Un intervalle déterminant une certaine précision
Notion de validation par le test
Phase 8 d’intégration de la connaissance
Prise de décision à partir des connaissances extraites
À partir des connaissances vers la décision
Définition des actions
De la décision vers l’action
Intégration du processus de mining dans le système
informatique fonctionnel.
Conclusion
il existe de nombreuses (autres) méthodes
il n’y a pas de meilleure méthode
méthode à choisir selon
les données (continues ? manquantes ? volumineuses ? denses
? ...)
la tâche
le temps de calcul dont on dispose
règle du rasoir d’Ockham :
« pluralitas non est ponenda sine neccessitate »
« Les choses essentielles ne doivent pas être multipliées sans nécessité »
autres types de données
IV. Les bases de l’analyse des
données
•
•
•
•
La
La
La
La
notion de similarité
notion de distance
notion d’association
notion de probabilité et d’arbre de décision
Représentation des données et types
des variables
Table de décision
Exemples Attributs
décision
Age
Sexe
antécédents Analyse
de
l’examen
Patient 1
56
f
oui
positif
malade
Patient 2
45
f
non
positif
malade
Patient 3
60
m
oui
négatif
?
Disjonctive, catégorique (ordonnées, non ordonnées), continues
Les bases de l’analyse
La notion de similarité
Voiture
Diligence
calèche
Présence de roues
Oui
Oui
oui
Présence d’un plancher
Oui
Oui
oui
Présence de portes
Oui
Oui
non
Présence de moteur
Oui
Non
non
Présence d’un toit
Oui
Oui
non
calèche
voiture
diligence
oui
non
4
1
non 0
0
oui
2
0
non 2
1
oui
Coïncidences positives =1
Coïncidences négative =0
Indice de similarité [0,1]
(Russel, Jaccard, Sokal)
Cp/C ; Cp/C-Cn ; Cp+Cn/C
Les bases de l’analyse
La notion de similarité : suite
S(A,B)=1 si A et B représentent les mêmes caractéristiques et 0 sinon
Zone idéale
Zone A
Zone B
Zone C
Prix de
location
(1)
500 DT
400 DT
1000 DT
1200 DT
Distance
% travail
(2)
40 mn
60 mn
120 mn
50 mn
Garderie
(3)
oui
non
oui
non
Qualité
(4)
calme
chaude
animée
calme
NB de critères (4)
Etude de l’étendue
-variable Prix de location
Prix =Max-Min
Similarité S(I,A) =S(I,A)(i)/NB
S(I,A)(i)=1-[|PrixA-PrixI|/ Prix]
A calculer….
Les bases de l’analyse
La notion de distance
Distance (A,B)= 1-similarité(A,B)
Distance(Idéale,A)
Distance(Idéale,B)
…
Plus la similarité est importante plus les objets sont
proches
Plus les points sont proches plus les individus sont
similaires
Les bases de l’analyse
Choix de la distance
d(A,A) = 0
Rappel : distance d
d(A,B) = d(B,A)
d(A,C) d(A,B) + d(B,C)
Distance sur chaque variable
d(x,y) = |x-y|
d(x,y) = |x-y| / distance_max
Distance agrégée.
d(x,y) =
distance euclidienne :
[d (x ,y )
1
1
1
2
+...+ dn(xn,yn)2]
Les bases de l’analyse
Les techniques de classification
Distance et classification hiérarchique
Design
Facile
Produit A
1
1
Produit B
1
2
Produit C
3
Facile
3
B
2
4
4
D
A
1
Produit D
Correspondance des points
C
4
2
1
A
B
C
A
-
1
13½ 10½
B
1
-
8½
C
D
2
Design
4
AB
C
AB
-
13½ 10½
3
C
13½ -
5½
13½ 8½ -
5½
D
10½ 5½
-
10½ 3
-
5½
D
3
D
Max(D(A,X), D(B,X))
D(AB,X)= ou
Min(D(A,X), D(B,X))
A calculer …
Les bases de l’analyse
Les techniques de classification :
suite
Variance (notion de prédiction)
Moyenne
Ecart Type par rapport à la moyenne
Ecart au carré
des écarts au carré
Division par le nombre d’observations
Coefficient de variation
Ecart type / Moyenne
Plus la surface est importante plus la distribution
s’éloigne de la moyenne
Exemple
Econo
STAT
E1
3
7
E2
4
8
E3
6
9
E4
11
11
E5
16
13
E6
18
14
E7
19
15
11
11
Découper la population sur la note de Stat qui présente la plus forte variance
Créer un 1 groupe avec note <11
Créer un 2 groupe avec note >= 11
A calculer …
La notion d’association
Corrélation
Régression
Association sur des variables qualitatives 2
V. Les techniques de Data Mining
•
•
•
•
•
•
•
•
•
•
Introduction
Le raisonnement par Analogie : raisonnement à partir des
cas
Les agents intelligents
Les associations
Les arbres de décision
Les algorithmes génétiques
Les réseaux bayesiens
Les réseaux de neurones
Les outils de visualisation
Les systèmes à base de connaissances
Apprentissage supervisé
Méthode de Bayes naïf
Comment classer un nouvel exemple en fonction
d’un ensemble d’exemples pour lesquels on connaît la
classe ?
Soit un exemple d = (d1, ..., dn) et c classes k = 1,
..., c
Classe(d) = argmax
P P(di|k) . P(k)
^
k
i
proportion d’exemples di parmi ceux de la classe k
proportion d’exemples de la classe k
^
Exemple : va-t-on jouer au tennis ?
TEMPS
HUMIDITE
VENT
TENNIS
Ex1
Soleil
Haute
Oui
Oui
Ex2
Soleil
Basse
Non
Non
Ex3
nuageux
Basse
Oui
Oui
Ex4
pluvieux
Haute
Oui
Non
Ex5
pluvieux
Basse
Oui
Non
Ex6
Soleil
Basse
Oui
Oui
Ex7
pluvieux
Basse
Non
Non
Soleil
haute
Non
?
Va-t-on jouer s’il y a du soleil, beaucoup d’humidité
et pas de vent ?
Apprentissage supervisé
k plus proches voisins
Raisonnement à partir de cas
Utilisation des cas similaires pour prendre une
décision
Pas d’étape d’apprentissage (avantages et
inconvénients)
Algorithme
Décider du nombre de voisins à utiliser k (souvent k
= nbre d’attributs + 1)
Pour un enregistrement sur lequel il faut décider :
trouver les k plus proches voisins
combiner les classes des k plus proches voisins en
une classe c
Choix de la classe
on dispose des k classes des k plus proches voisins
choix de la classe du nouvel exemple :
classe majoritaire
classe pondérée
Le résultat change en fonction de tous ces choix
(distance, combinaison, calcul de la classe)
Exemple : va-t-on jouer au tennis
avec cette méthode ?
on choisit k = 4
distance euclidienne
d(A,A)=0
d(A,B)=1
calcul des voisins
combinaison des classes des voisins
Apprentissage supervisé
Arbres de décision
Représentation graphique d’une procédure de décision
Représentation compréhensive règles
fièvre
forte
normale
malade
toux
oui
non
malade
non malade
feuille
Classes
nœud
Attributs
arc
Tests sur
les attributs
Problématiques associées
Choix des attributs tests (divisions successives de
la base d’apprentissage)
Critère d’arrêt
But : construire un arbre le plus petit possible
Heuristique. Algorithme glouton.
Plusieurs algorithmes (ID3, C4.5)
Algorithme de construction
Nœud Courant racine
Répéter
Si le nœud courant est terminal
Alors l’étiqueter Nœud Courant Classe
Sinon
Sélectionner un attribut test
Créer le sous-arbre
Passer au nœud suivant non exploré
Jusqu’à obtention d’un arbre
Critère d’arrêt
Plusieurs tests possibles pour décider si le nœud
courant est terminal :
il n’y a plus assez d’exemples
les exemples ne sont pas trop mélangés (une
classe se dégage). seuil d’impureté.
On étiquette avec la classe majoritaire
Sélection de l’attribut test
Quel est l’attribut dont la connaissance nous aide le
plus sur la classe ?
Plusieurs critères possibles : test de Gini, gain
d’information, entropie, ...
ID3 : entropie de Shannon
Hs(C|A) = -
P(Xi) P(Ck|Xi). log((P(Ck|Xi)))
i
k
Exemple : va-t-on jouer au tennis
avec cette méthode ?
Construction de l’arbre
Racine : choix du 1er attribut test
Calcul de H(C|temps)
Calcul de H(C|humidité)
Calcul de H(C|vent)
Division de la base d’exemple
Nœuds terminaux ?
Attributs continus
ID3 ne les prend pas en charge
discrétisation par un expert
algorithme C4.5 :
test et calcul de l’entropie avec toutes les
coupures possibles entre les valeurs successives
exemple sur les valeurs 3,4,8 on testera
< 3,5 vs. > 3,5
< 6 vs. > 6
Avantages et inconvénients
attention au sur-apprentissage élagage
performances moins bonnes si beaucoup de classes
algorithme non incrémental
on peut expliquer une décision
permet la sélection des attributs pertinents (feature
selection)
classification rapide d’un nouvel exemple (parcours
d’arbre)
Apprentissage supervisé
Réseaux de neurones
Méthode de type boîte noire
Nombreuses applications (notamment
reconnaissance d’écriture manuscrite)
Méthode coûteuse en temps de calcul
Topologie à connaître
Une méthode issue des modèles
biologiques
• Chaque
neurone disposer en moyenne de 10.000 points de
contacts (synapses) avec les neurones qui l'entourent, et jusqu’à
50.000 !
• Nous disposons de quelques dizaines de milliards de ces neurones
à l'intérieur de notre cerveau
• De synapse en synapse, l'information transite dans la totalité de
notre corps, au travers d'environ 500 000 milliards de synapses
Problèmes linéairement ou non
linéairement séparables
on distingue 2 types de problèmes pour 2 types de
solution
OU
x1 x2 OU XOR
0 0
0
0
0 1
1
1
1 0
1
1
1 1
1
0
XOR
1
1
1
0
0
1
0
1
perceptron
perceptron
multi-couches
Approche informatique : perceptron
ENTREES
PLUSIEURS
CLASSES
POIDS
SORTIE
SOMMATION FONCTION SEUIL
Perceptron multi-couches
COUCHE D’ENTREE
COUCHE DE SORTIE
COUCHE CACHEE
Algorithme d’apprentissage des poids
Initialiser les poids de manière aléatoire
Répéter
Pour chaque exemple i
Si la sortie s n’est pas égale à la sortie attendue a
Alors poids wi wi + (a - s)xi
Jusqu’à ce que tous les exemples soient bien classés
=1
Exemple : apprentissage duX OU
logique
0
x1
x2
w1
w0
x1 x2
w2
Source : « Apprentissage à partir d'exemples », F. Denis, R. Gilleron
Apprentissage non supervisé
Segmentation (Clustering)
But : diviser la population en groupes
Maximiser la similarité intra-groupe
Maximiser la dissimilarité inter-groupes
Exemple : notes d’étudiants
note s
note s
25,00
00
20,00
00
00
reseaux
00
15,00
10,00
00
5,00
00
0,00
0,00
5,00
0,00
10,00
BD
5,00
15,00
10,00
BD
20,00
15,00
20,00
Algorithme des k-moyennes
1.
2.
3.
Choisir le nombre de groupes à créer k
Choisir k centres initiaux c1, .., ck
Pour chaque exemple, l’affecter au groupe i dont le centre est le
plus proche
4. Si aucun exemple ne change de groupe
5. Alors STOP
6. Sinon
a)
Calculer les nouveaux centres :
Pour i = 1 à k
ci est la moyenne des éléments du groupe
b)
Aller en 2)
Exemple : faire 2 groupes d’étudiants
• Centres initiaux : c1=(11,13) c2=(14,18)
e1
e2
e3
e4
e5
• d(e1,c1)= [(14-11)2 + (14-13)2]1/2= 3.16
• d(e1,c2) = [(14-14)2 + (14-18)2]1/2 4
• d(e2,c1)= 4.12 d(e2,c2) 2.24
14
12
16
10
14
14
17
20
11
16
• d(e3,c1) > d(e3,c2)
e3
• d(e4,c1) < d(e4,c2)
• d(e5,c1) > d(e5,c2)
• Nouveaux centres :
e2
e5
• c’1 = ((14+10)/2,(14+11)/2) = (12,12.5)
• c’2 = ((12+16+14)/3),(17+20+16)/3)=(14,17.6)
e1
• calcul de d(e1,c’1) d(e1,c’2) …
• résultat inchangé FIN
e4
10
Problèmes
Nécessité de l’existence d’une distance
Choix de k
Influence du choix des centres initiaux sur le résultat
Normalisation des attributs
Petit rappel de l’épisode précédent ...
Quelles règles d’association construit-on sur cet
exemple (support minimum = 3) ?
TEMPS
HUMIDITE
VENT
TENNIS
Ex1
Soleil
Haute
Oui
Oui
Ex2
Soleil
Basse
Non
Non
Ex3
nuageux
Basse
Oui
Oui
Ex4
pluvieux
Haute
Oui
Non
Ex5
pluvieux
Basse
Oui
Non
Ex6
Soleil
Basse
Oui
Oui
Ex7
pluvieux
Basse
Non
Non
Evaluation des méthodes
Apprentissage supervisé : évaluation sur une base
d’exemples test
Méthodes de séparation entre les bases d’apprentissage
et de test.
on dispose de deux bases séparées
on coupe la base en deux
validation croisée. Leave One Out.
Critères d’évaluation
Taux de bon apprentissage
Parmi tous les exemples, quelle proportion est bien classée ?
Précision de la classe k
Parmi les exemples classés dans la classe k, quelle proportion est
effectivement de la classe k ?
Rappel de la classe k
Parmi les exemples de la classe k, quelle proportion se retrouvent
classés dans la classe k ?
Précision contre Rappel
Matrice de confusion :
table de contingence
Matrice de coûts
Prédit
OBSERVE
Retardé
Payé
Impayé
TOTAL
80
15
5
100
Retardé
1
17
2
20
Impayé
5
2
23
30
TOTAL
86
34
30
150
Payé
• Validité du modèle (taux d’apprentissage) : nombre de cas exacts (=somme
de la diagonale) divisé par le nombre total : 120/150 = 0.8
• Rappel de la classe Payé : nombre de cas prédits et observés « payé » divisé par le
nombre total de cas observés « payés » : 80/86 = 0.93
• Précision de la classe Payé : nombre de cas observés et prédits « payé » divisé par
le nombre total de cas prédits « payés » : 80/100 = 0.8
Algorithmes génétiques
Simuler l’évolution en imitant la sélection naturelle
(Darwin)
Codage du problème sous forme binaire
(chromosome)
Croisements
Mutations (la probabilité doit être faible)
Sélection
Fonctionnement général
Sélection
POPULATION
Remplacement
DESCENDANTS
PARENTS
Recombinaison
(Croisement)
Mutation
Exemple : découvrir la bonne
combinaison ...
boîte à n interrupteurs
ON
ON
ON
ON ON
voltmètre
OFF OFF OFF OFF OFF
but : trouver la position optimale
parcours impossible :
5
5 interrupteurs 2 =32 combinaisons
32 interrupteurs 232= 4 294 296 combinaisons
possibles ! (584 942 siècles avec 1 test/ms)
Utilisation des AG
Déroulement de l’AG
population initiale de 5 individus (hasard)
<10010><11000><00010><01101><10001>
test des sorties : 5832, 13824, 8, 2197, 4913
on tue 20% de moins adapté : <00010>
on croise (hasard sur les individus et l’endroit)
<10010> avec <11000> ; <01101> avec <10001>
on se retrouve avec parents + enfants :
<10010><11000><01101><10001>
<10000><11010><01001><10101>
Déroulement ... suite
Mutation :
<10101> <10111>
Sélection : nouvelle population
<11010><11000><10111><10010><10000>
17576 13824 12167 5832 4096
Optimisation : recherche de l’extremum de la
fonction f(x)=x3 pour un nombre compris entre 0 et
31 (codage sur 5 bits)
Comment s’arrêter ?
nombre d’itérations
stagnation
Traitement des données manquantes
Attention à la sémantique :
La donnée peut-elle exister ?
Plusieurs méthodes :
les oublier
les remplacer :
valeurs majoritaire
valeur moyenne
...
Références. Bibliographie
Livres :
Introduction au Data Mining. M.Jambu. Eyrolles. 1998.
Data Mining: Concepts and Techniques. J. Han and M. Kamber,
The Morgan Kaufmann Series in Data Management Systems, 2000.
Sites internet :
KD Nuggets
Logiciels :
Intelligent Miner (www.ibm.com), Entreprise Miner (SAS
Institute), MineSet (Silicon Graphics Inc.), Clementine
(Integral Solutions Ltd, racheté par SPSS), DBMiner
(www.dbminer.com), weka