Le Data Mining: Méthodologie Définition et introduction Principales applications Méthodologie du DM
Download
Report
Transcript Le Data Mining: Méthodologie Définition et introduction Principales applications Méthodologie du DM
Le Data Mining: Méthodologie
Définition et introduction
Principales applications
Méthodologie du DM
Exemples de fonctionnement
1
1. Emergence du domaine
Termes synonymes (ou presque)
Fouille de données (FD)
Exploration de données (ED)
Extraction de connaissances (ECD, KDD)
Workshops puis conf. internationales
Depuis 1991 puis 1994
August 24th-27th 2008 KDD '08: The 14th ACM SIGKDD
International Conference on Knowledge Discovery and Data
Mining, Las Vegas , NV USA
Data Mining and Knowledge Discovery Journal (1997)
Special Interest Group Knowledge Discovery in Databases
(1999) de l’Association for Computing Machinery (ACM)
2
Métaphore
Par analogie à la recherche des pépites d ’or
dans un gisement, la fouille de données vise :
à extraire des informations cachées par analyse
globale
à découvrir des modèles (“patterns”) difficiles à
percevoir car:
le volume de données est très grand
le nombre de variables à considérer est important
ces “patterns” sont imprévisibles (même à titre
d ’hypothèse à vérifier)
3
Définition
Data mining
ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la signification
profonde) sous forme de modèles présentés à
l ’utilisateur averti pour examen
Données
entrepôt
Data
mining
Connaissances
Découverte de
modèles
Compréhension
Prédiction
4
Découverte de modèles
x1
c Confiance
Entrées x2
x3
y
Sortie
MODELE
x1
x2
x3
y
1
10
100
alpha
2
20
200
beta
5
Découverte et Exploitation
Training Data
DM
Engine
Mining Model
Mining Model
Mining Model Data to Predict
DM
Engine
Predicted Data
6
Objectif « connaissances »
Knowledge Discovery in Databases (KDD)
Processus complet d’Extraction de Connaissance des
Données (ECD)
Abouti à la génération de règles et d’aides à la décision
Exemples
analyses (distribution du trafic en fonction de l ’heure)
scores (fidélité d ’un client), classes (mauvais payeurs)
règles (si facture > 10000 et mécontent > 0.5 alors
départ à 70%)
7
Mécanismes de base
Déduction : base des systèmes experts
schéma logique permettant de déduire un théorème à
partir d'axiomes
le résultat est sûr, mais la méthode nécessite la
connaissance de règles
Induction : base du data mining
méthode permettant de tirer des conclusions à partir
d'une série de faits
généralisation un peu abusive
indicateurs de confiance permettant la pondération
8
Le processus de KDD
9
Etapes du processus
1. Compréhension du domaine d’application
2. Création du fichier cible (target data set)
3. Traitement des données brutes (data cleaning and preprocessing)
4. Réduction des données (data reduction and projection)
5. Définition des tâches de fouille de données
6. Choix des algorithmes appropriés de fouille de données
7. Fouille de données (data mining)
8. Interprétation des formes extraites (mined patterns)
9. Validation des connaissances extraites
(source : Fayyat et al., 1996, p. 1-34)
10
Etapes d’après SPSS
11
2. Domaines d'application
De plus en plus de domaines
explosion des données historisées
puissance des machines support
nombreux datawarehouses
OLAP limité
nécessité de mieux comprendre
rapports sophistiqués, prédictions
aide efficace aux managers
12
Quelques domaines réputés
Analyse de risque (Assurance)
Marketing
Grande distribution
Médecine, Pharmacie
Analyse financière
Gestion de stocks
Maintenance
Contrôle de qualité
13
Exemples
Targeted ads
“What banner should I display to this visitor?”
Cross sells
“What other products is this customer likely to buy?
Fraud detection
“Is this insurance claim a fraud?”
Churn analysis
“Who are those customers likely to churn?”
Risk Management
“Should I approve the loan to this customer?”
14
Churn Analysis
Application de télécom
Bases de données des clients et des appels
Fichiers des réclamations
Qui sont les clients le plus susceptibles de
partir ?
Application de techniques de DM
Fichiers de 1000 clients les plus risqués
600 ont quittés dans les 3 mois
15
Trading Advisor
Application boursière
conseil en achat / vente d'actions
Données de base
historique des cours
portefeuille client
Analyse du risque
Analyse technique du signal
Conseils d'achat – vente
Mise à disposition sur portail Web
16
3. Méthodologie -1
1. Identifier le
problème
cerner les objectifs
trouver les sources
définir les cibles
vérifier les besoins
2. Préparer les données
préciser les sources
collecter les données
nettoyer les données
transformer les données
intégrer les données
17
Méthodologie - 2
3. Explorer des modèles
choisir une technique
échantillonner sur un groupe
valider sur le reste (5% à
1/3)
calculer le d ’erreurs
5. Suivre le modèle
bâtir des estimateurs
corriger et affiner le
modèle
4. Utiliser le modèle
observer la réalité
recommander des actions
18
Explorer des modèles :
SEMMA
Sampling = Échantillonner
tirer un échantillon significatif pour extraire les modèles
Exploration = Explorer
devenir familier avec les données (patterns)
Manipulation = Manipuler
ajouter des informations, coder, grouper des attributs
Modelling = Modéliser
construire des modèles (statistiques, réseaux de neuronnes, arbres de
décisions, règles associatives, …)
Assessment = Valider
comprendre, valider, expliquer, répondre aux questions
19
Validation d’un modèle
Matrice de confusion: confronter le vrai au prédit !
comparaison des cas observés par rapport aux prédictions
exemple : prédiction de factures impayées
Observé
Prédit
Payé
Payé
Impayé
Total
80
15
5
100
Retardé
1
17
2
20
Impayé
5
2
23
30
Total
Retardé
86
34
30
150
Validité du modèle
nombre exacte (diagonale) / nombre totale = 120/150 = 0.80
20
Mesures en Recherche
d’information (IR)
21
Définition de Mesures
précision
Rapport du nombre de documents pertinents trouvés au nombre total
de documents sélectionnés. En anglais precision.
rappel
Rapport du nombre de documents pertinents trouvés au nombre total
de documents pertinents. En anglais recall.
Soient
S l'ensemble des objets qu'un processus considère comme ayant une
propriété recherchée,
V l'ensemble des objets qui possèdent effectivement cette propriété,
P et R respectivement la précision et le rappel du système :
P=|S∩V|/|S|
R=|S∩V|/|V|
22
Mesures
Précision (Precision)
= NbTrouvésCorrects/(1+NbTotal)
Bruit (Noise)
= NbTrouvésIncorrects/(1+NbTotal)
= 1- Précision
Rappel (Recall)
= NbTrouvésCorrects/(1+NbValide)
F-mesure
= 2*(précision*rappel)/(précision+rappel)
23
Autre mesure: Le Lift
Population de clients pour le marketing
Division en décil
Mesure du ratio Réponse/Moyenne
24
Représentation du lift
25
Principales Techniques
Dérivées
des statistiques (e.g., réseaux bayésiens)
de l'analyse de données (e.g., analyse en composantes)
de l'intelligence artificielle (e.g., arbres de décision,
réseaux de neurones)
des bases de données (e.g., règles associatives)
Appliquées aux grandes bases de données
Difficultés :
passage à l'échelle et performance
fonctionnement avec échantillon > qq milliers
présentation et validation des résultats
26
Origines des techniques
D’après Labo. Eric, Lyon
27
4. Quelques produits
Intelligent Miner d'IBM
modélisation prédictive
(stat.), groupage,
segmentation, analyse
d'associations, détection de
déviation, analyse de texte
libre
SAS de SAS
Statistiques, groupage,
arbres de décision, réseaux
de neurones, associations, ...
SPSS de SPSS
statistiques, classification,
réseaux de neurones
Oracle ODM
Règles associatives,
classification supervisée et
non supervisée, text mining
SQL Server DM
Règles associatives,
classification supervisée et
non supervisée, séries
temporelles, réseaux de
neurones, …
Autres : SPSS, Statistica
Open source: SIPINA,
WEKA
28
SAS
29
INPUT
Choix des variables
30
SAMPLING
Choix du type d'échantillon
31
INSIGHT
Analyse des données en 4D
32
TRANSFORM
Transformation pour préparer
33
PARTITION
Création de partition d'exploration parallèle
34
REGRESSION
Sélection de la méthode de régression
35
DECISION TREE
Construction d'un arbre par 2
36
NEURONES
Spécification d'un réseau de neurones
37
ASSESSMENT
Validation des résultats
38
5. Méthodes statistiques
Quelques techniques de base
A la limite du DM
Calculs d'information sophistiqués
39
Méthodes d'analyse
1 ...
J
...
p
1
.
.
Table
Table = i
.
.
n
1 ...
J
...
p
1
.
.
Table = i
.
.
n
Points dans Rp
1 ...
J
...
p
1
.
.
Table = i
.
.
n
Points dans Rn
40
Familles de méthodes
Nuage de points
Visualisation dans
Le meilleur espace réduit
METHODES STATISTIQUES
ET FACTORIELLES
Regroupement
dans tout l'espace
METHODES DE CLASSIFICATION,
SUPERVISEE OU NON …
41
Fonctions Statistiques
Espérance
permet de calculer la moyenne pondérée d'une
colonne pi = 1/N par défaut
Variance
traduit la dispersion de la distribution de la v.a.
autour de sa valeur moyenne.
Variable centrée réduite
Permet d'éliminer le facteur dimension
42
Diagrammes en bâtons
Catégorie d'employé
400
Comptage de fréquence
COUNT
Extension aux calculs
d'agrégats
200
100
Fréquence
300
0
Secrétariat
AVG, MIN, MAX, …
Possibilité d'étendre au
3D
Apporte une vision
synthétique
Cadre
Responsable
Catégorie d'employé
100
80
60
40
20
0
North
West
East
East
West
North
1st 2nd 3rd 4th
Qtr Qtr Qtr Qtr
43
Tableaux croisés
(Vision 2D du Datacube)
Tableau croisé Catégorie d'employé * Sexe de l'employé * Classe minoritaire ?
Class e minoritaire ?: Non
Catégorie
d'employé
Total
Secrétariat
Sexe de l'employé
Cadre
Total
Sexe de l'employé
Res ponsable
Total
Sexe de l'employé
Total
Sexe de l'employé
Total
Mas culin
Féminin
Mas culin
Féminin
Mas culin
Féminin
Mas culin
Féminin
Effectif
110
166
276
14
0
14
70
10
80
194
176
370
Effectif théorique
144,7
131,3
276,0
7,3
6,7
14,0
41,9
38,1
80,0
194,0
176,0
370,0
Effectif théorique = calculé par une loi de distribution
(uniforme)
44
Corrélation
Covariance
La covariance peut être vue comme le moment centré
conjoint d'ordre 1 de deux v.a.
Si les deux v.a. sont indépendantes, alors leur covariance
est nulle (mais la réciproque n'est pas vraie en général).
Coefficient de corrélation
Elimine le facteur dimension
mesure la qualité de la relation linéaire entre deux
variables aléatoires
45
Droite de régression
$160,000
Salaire actuel = 1928,21 + 1,91 * saldeb
R-Deux = 0,77
Régression linéaire
199
Y=aX+b
Salaire actuel
$120,000
120
70
$80,000
$40,000
$20,000
$40,000
$60,000
$80,000
Salaire d'embauche
46
Test du 2
Détermine l'existence d'une dépendance entre
deux variables
Exemple : salaire d'embauche, niveau d'étude
Compare la distribution des variables par
rapport à une courbe théorique supposant
l'indépendance
47
De nombreuses autres fonctions
Test t sur moyenne
ANOVA
Analyses de variance sophistiquées
Corrélation partielle
Régresion logistique
Séries chronologiques
Lissage exponentiel, Moyenne mobile, …
Comparaison
…
48
Calculs en SQL
Introduction de fonctions d'agrégats
AVG = moyenne
MAVG = moyenne mobile
STDDEV = écart type
VARIANCE = variance
COVARIANCE = covariance
…
Exemple
SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB)
FROM EMPLOYEE
WHERE GRADE = "ingénieur"
GROUP BY SEXE
49
Statistiques: Conclusion
Calculs statistiques sur variables
Mono ou bi-variées
Résumé des données
Observation de dépendances
Peu de modèles prédictifs ...
La plupart sont faisables avec SQL OLAP
Extensions cube et rollup
Extensions avec fonctions d'agrégats
50
6. Conclusion
Le data mining vise à
découvrir des modèles à
partir de grandes bases de
faits connus
(datawarehouse)
Le processus de
construction de modèles est
complexe
Questions ?
Quoi de nouveau par
rapport à l'IA et aux
statistiques ?
préparer les données
modéliser 1/3 de la base
valider sur 2/3
expérimenter plusieurs
modèles
51