Le Data Mining: Méthodologie Définition et introduction Principales applications Méthodologie du DM

Download Report

Transcript Le Data Mining: Méthodologie Définition et introduction Principales applications Méthodologie du DM

Le Data Mining: Méthodologie
Définition et introduction
Principales applications
Méthodologie du DM
Exemples de fonctionnement
1
1. Emergence du domaine
 Termes synonymes (ou presque)



Fouille de données (FD)
Exploration de données (ED)
Extraction de connaissances (ECD, KDD)
 Workshops puis conf. internationales


Depuis 1991 puis 1994
August 24th-27th 2008 KDD '08: The 14th ACM SIGKDD
International Conference on Knowledge Discovery and Data
Mining, Las Vegas , NV USA
 Data Mining and Knowledge Discovery Journal (1997)
 Special Interest Group Knowledge Discovery in Databases
(1999) de l’Association for Computing Machinery (ACM)
2
Métaphore
 Par analogie à la recherche des pépites d ’or
dans un gisement, la fouille de données vise :


à extraire des informations cachées par analyse
globale
à découvrir des modèles (“patterns”) difficiles à
percevoir car:
le volume de données est très grand
 le nombre de variables à considérer est important
 ces “patterns” sont imprévisibles (même à titre
d ’hypothèse à vérifier)

3
Définition
 Data mining

ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la signification
profonde) sous forme de modèles présentés à
l ’utilisateur averti pour examen
Données
entrepôt
Data
mining
Connaissances
Découverte de
modèles
Compréhension
Prédiction
4
Découverte de modèles
x1
c Confiance
Entrées x2
x3
y
Sortie
MODELE
x1
x2
x3
y
1
10
100
alpha
2
20
200
beta
5
Découverte et Exploitation
Training Data
DM
Engine
Mining Model
Mining Model
Mining Model Data to Predict
DM
Engine
Predicted Data
6
Objectif « connaissances »
 Knowledge Discovery in Databases (KDD)


Processus complet d’Extraction de Connaissance des
Données (ECD)
Abouti à la génération de règles et d’aides à la décision
 Exemples



analyses (distribution du trafic en fonction de l ’heure)
scores (fidélité d ’un client), classes (mauvais payeurs)
règles (si facture > 10000 et mécontent > 0.5 alors
départ à 70%)
7
Mécanismes de base
 Déduction : base des systèmes experts


schéma logique permettant de déduire un théorème à
partir d'axiomes
le résultat est sûr, mais la méthode nécessite la
connaissance de règles
 Induction : base du data mining



méthode permettant de tirer des conclusions à partir
d'une série de faits
généralisation un peu abusive
indicateurs de confiance permettant la pondération
8
Le processus de KDD
9
Etapes du processus









1. Compréhension du domaine d’application
2. Création du fichier cible (target data set)
3. Traitement des données brutes (data cleaning and preprocessing)
4. Réduction des données (data reduction and projection)
5. Définition des tâches de fouille de données
6. Choix des algorithmes appropriés de fouille de données
7. Fouille de données (data mining)
8. Interprétation des formes extraites (mined patterns)
9. Validation des connaissances extraites
 (source : Fayyat et al., 1996, p. 1-34)
10
Etapes d’après SPSS
11
2. Domaines d'application
 De plus en plus de domaines







explosion des données historisées
puissance des machines support
nombreux datawarehouses
OLAP limité
nécessité de mieux comprendre
rapports sophistiqués, prédictions
aide efficace aux managers
12
Quelques domaines réputés
 Analyse de risque (Assurance)
 Marketing
 Grande distribution
 Médecine, Pharmacie
 Analyse financière
 Gestion de stocks
 Maintenance
 Contrôle de qualité
13
Exemples
 Targeted ads

“What banner should I display to this visitor?”
 Cross sells

“What other products is this customer likely to buy?
 Fraud detection

“Is this insurance claim a fraud?”
 Churn analysis

“Who are those customers likely to churn?”
 Risk Management

“Should I approve the loan to this customer?”
14
Churn Analysis
 Application de télécom
 Bases de données des clients et des appels
 Fichiers des réclamations
 Qui sont les clients le plus susceptibles de
partir ?
 Application de techniques de DM
 Fichiers de 1000 clients les plus risqués
 600 ont quittés dans les 3 mois
15
Trading Advisor
 Application boursière

conseil en achat / vente d'actions
 Données de base






historique des cours
portefeuille client
Analyse du risque
Analyse technique du signal
Conseils d'achat – vente
Mise à disposition sur portail Web
16
3. Méthodologie -1
 1. Identifier le
problème




cerner les objectifs
trouver les sources
définir les cibles
vérifier les besoins
 2. Préparer les données





préciser les sources
collecter les données
nettoyer les données
transformer les données
intégrer les données
17
Méthodologie - 2
 3. Explorer des modèles




choisir une technique
échantillonner sur un groupe
valider sur le reste (5% à
1/3)
calculer le  d ’erreurs
 5. Suivre le modèle


bâtir des estimateurs
corriger et affiner le
modèle
 4. Utiliser le modèle


observer la réalité
recommander des actions
18
Explorer des modèles :
SEMMA
 Sampling = Échantillonner

tirer un échantillon significatif pour extraire les modèles
 Exploration = Explorer

devenir familier avec les données (patterns)
 Manipulation = Manipuler

ajouter des informations, coder, grouper des attributs
 Modelling = Modéliser

construire des modèles (statistiques, réseaux de neuronnes, arbres de
décisions, règles associatives, …)
 Assessment = Valider

comprendre, valider, expliquer, répondre aux questions
19
Validation d’un modèle
 Matrice de confusion: confronter le vrai au prédit !

comparaison des cas observés par rapport aux prédictions

exemple : prédiction de factures impayées
Observé
Prédit
Payé
Payé
Impayé
Total
80
15
5
100
Retardé
1
17
2
20
Impayé
5
2
23
30
Total

Retardé
86
34
30
150
Validité du modèle

nombre exacte (diagonale) / nombre totale = 120/150 = 0.80
20
Mesures en Recherche
d’information (IR)
21
Définition de Mesures
 précision

Rapport du nombre de documents pertinents trouvés au nombre total
de documents sélectionnés. En anglais precision.
 rappel

Rapport du nombre de documents pertinents trouvés au nombre total
de documents pertinents. En anglais recall.
 Soient



S l'ensemble des objets qu'un processus considère comme ayant une
propriété recherchée,
V l'ensemble des objets qui possèdent effectivement cette propriété,
P et R respectivement la précision et le rappel du système :


P=|S∩V|/|S|
R=|S∩V|/|V|
22
Mesures
 Précision (Precision)

= NbTrouvésCorrects/(1+NbTotal)
 Bruit (Noise)


= NbTrouvésIncorrects/(1+NbTotal)
= 1- Précision
 Rappel (Recall)

= NbTrouvésCorrects/(1+NbValide)
 F-mesure

= 2*(précision*rappel)/(précision+rappel)
23
Autre mesure: Le Lift
 Population de clients pour le marketing
 Division en décil
 Mesure du ratio Réponse/Moyenne
24
Représentation du lift
25
Principales Techniques
 Dérivées




des statistiques (e.g., réseaux bayésiens)
de l'analyse de données (e.g., analyse en composantes)
de l'intelligence artificielle (e.g., arbres de décision,
réseaux de neurones)
des bases de données (e.g., règles associatives)
 Appliquées aux grandes bases de données
 Difficultés :



passage à l'échelle et performance
fonctionnement avec échantillon > qq milliers
présentation et validation des résultats
26
Origines des techniques
D’après Labo. Eric, Lyon
27
4. Quelques produits
 Intelligent Miner d'IBM

modélisation prédictive
(stat.), groupage,
segmentation, analyse
d'associations, détection de
déviation, analyse de texte
libre
 SAS de SAS

Statistiques, groupage,
arbres de décision, réseaux
de neurones, associations, ...
 SPSS de SPSS

statistiques, classification,
réseaux de neurones
 Oracle ODM

Règles associatives,
classification supervisée et
non supervisée, text mining
 SQL Server DM

Règles associatives,
classification supervisée et
non supervisée, séries
temporelles, réseaux de
neurones, …
 Autres : SPSS, Statistica
Open source: SIPINA,
WEKA
28
SAS
29
INPUT
 Choix des variables
30
SAMPLING
 Choix du type d'échantillon
31
INSIGHT
 Analyse des données en 4D
32
TRANSFORM
 Transformation pour préparer
33
PARTITION
 Création de partition d'exploration parallèle
34
REGRESSION
 Sélection de la méthode de régression
35
DECISION TREE
 Construction d'un arbre par 2
36
NEURONES
 Spécification d'un réseau de neurones
37
ASSESSMENT
 Validation des résultats
38
5. Méthodes statistiques
 Quelques techniques de base
 A la limite du DM
 Calculs d'information sophistiqués
39
Méthodes d'analyse
1 ...
J
...
p
1
.
.
Table
Table = i
.
.
n
1 ...
J
...
p
1
.
.
Table = i
.
.
n
Points dans Rp
1 ...
J
...
p
1
.
.
Table = i
.
.
n
Points dans Rn
40
Familles de méthodes
Nuage de points
Visualisation dans
Le meilleur espace réduit
METHODES STATISTIQUES
ET FACTORIELLES
Regroupement
dans tout l'espace
METHODES DE CLASSIFICATION,
SUPERVISEE OU NON …
41
Fonctions Statistiques
 Espérance

permet de calculer la moyenne pondérée d'une
colonne pi = 1/N par défaut
 Variance

traduit la dispersion de la distribution de la v.a.
autour de sa valeur moyenne.
 Variable centrée réduite

Permet d'éliminer le facteur dimension
42
Diagrammes en bâtons
Catégorie d'employé
400
 Comptage de fréquence
COUNT
 Extension aux calculs
d'agrégats

200
100
Fréquence

300
0
Secrétariat
AVG, MIN, MAX, …
 Possibilité d'étendre au
3D
 Apporte une vision
synthétique
Cadre
Responsable
Catégorie d'employé
100
80
60
40
20
0
North
West
East
East
West
North
1st 2nd 3rd 4th
Qtr Qtr Qtr Qtr
43
Tableaux croisés
(Vision 2D du Datacube)
Tableau croisé Catégorie d'employé * Sexe de l'employé * Classe minoritaire ?
Class e minoritaire ?: Non
Catégorie
d'employé
Total
Secrétariat
Sexe de l'employé
Cadre
Total
Sexe de l'employé
Res ponsable
Total
Sexe de l'employé
Total
Sexe de l'employé
Total
Mas culin
Féminin
Mas culin
Féminin
Mas culin
Féminin
Mas culin
Féminin
Effectif
110
166
276
14
0
14
70
10
80
194
176
370
Effectif théorique
144,7
131,3
276,0
7,3
6,7
14,0
41,9
38,1
80,0
194,0
176,0
370,0
Effectif théorique = calculé par une loi de distribution
(uniforme)
44
Corrélation
 Covariance


La covariance peut être vue comme le moment centré
conjoint d'ordre 1 de deux v.a.
Si les deux v.a. sont indépendantes, alors leur covariance
est nulle (mais la réciproque n'est pas vraie en général).
 Coefficient de corrélation


Elimine le facteur dimension
mesure la qualité de la relation linéaire entre deux
variables aléatoires
45
Droite de régression
$160,000
Salaire actuel = 1928,21 + 1,91 * saldeb
R-Deux = 0,77
Régression linéaire
199

Y=aX+b
Salaire actuel
$120,000
120

70



$80,000
$40,000





  


 
 
  

 
  
    
 




 

  
 

  












  






























 






































 
















 





$20,000





$40,000


$60,000
$80,000
Salaire d'embauche
46
Test du 2
 Détermine l'existence d'une dépendance entre
deux variables

Exemple : salaire d'embauche, niveau d'étude
 Compare la distribution des variables par
rapport à une courbe théorique supposant
l'indépendance
47
De nombreuses autres fonctions






Test t sur moyenne
ANOVA
Analyses de variance sophistiquées
Corrélation partielle
Régresion logistique
Séries chronologiques


Lissage exponentiel, Moyenne mobile, …
Comparaison
…
48
Calculs en SQL
 Introduction de fonctions d'agrégats






AVG = moyenne
MAVG = moyenne mobile
STDDEV = écart type
VARIANCE = variance
COVARIANCE = covariance
…
 Exemple




SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB)
FROM EMPLOYEE
WHERE GRADE = "ingénieur"
GROUP BY SEXE
49
Statistiques: Conclusion
 Calculs statistiques sur variables




Mono ou bi-variées
Résumé des données
Observation de dépendances
Peu de modèles prédictifs ...
 La plupart sont faisables avec SQL OLAP


Extensions cube et rollup
Extensions avec fonctions d'agrégats
50
6. Conclusion
 Le data mining vise à
découvrir des modèles à
partir de grandes bases de
faits connus
(datawarehouse)
 Le processus de
construction de modèles est
complexe




 Questions ?

Quoi de nouveau par
rapport à l'IA et aux
statistiques ?
préparer les données
modéliser 1/3 de la base
valider sur 2/3
expérimenter plusieurs
modèles
51