Le Data Mining: Méthodologie Définition et introduction Principales applications Méthodologie du DM
Download ReportTranscript Le Data Mining: Méthodologie Définition et introduction Principales applications Méthodologie du DM
Le Data Mining: Méthodologie Définition et introduction Principales applications Méthodologie du DM Exemples de fonctionnement 1 1. Emergence du domaine Termes synonymes (ou presque) Fouille de données (FD) Exploration de données (ED) Extraction de connaissances (ECD, KDD) Workshops puis conf. internationales Depuis 1991 puis 1994 August 24th-27th 2008 KDD '08: The 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Las Vegas , NV USA Data Mining and Knowledge Discovery Journal (1997) Special Interest Group Knowledge Discovery in Databases (1999) de l’Association for Computing Machinery (ACM) 2 Métaphore Par analogie à la recherche des pépites d ’or dans un gisement, la fouille de données vise : à extraire des informations cachées par analyse globale à découvrir des modèles (“patterns”) difficiles à percevoir car: le volume de données est très grand le nombre de variables à considérer est important ces “patterns” sont imprévisibles (même à titre d ’hypothèse à vérifier) 3 Définition Data mining ensemble de techniques d'exploration de données afin d'en tirer des connaissances (la signification profonde) sous forme de modèles présentés à l ’utilisateur averti pour examen Données entrepôt Data mining Connaissances Découverte de modèles Compréhension Prédiction 4 Découverte de modèles x1 c Confiance Entrées x2 x3 y Sortie MODELE x1 x2 x3 y 1 10 100 alpha 2 20 200 beta 5 Découverte et Exploitation Training Data DM Engine Mining Model Mining Model Mining Model Data to Predict DM Engine Predicted Data 6 Objectif « connaissances » Knowledge Discovery in Databases (KDD) Processus complet d’Extraction de Connaissance des Données (ECD) Abouti à la génération de règles et d’aides à la décision Exemples analyses (distribution du trafic en fonction de l ’heure) scores (fidélité d ’un client), classes (mauvais payeurs) règles (si facture > 10000 et mécontent > 0.5 alors départ à 70%) 7 Mécanismes de base Déduction : base des systèmes experts schéma logique permettant de déduire un théorème à partir d'axiomes le résultat est sûr, mais la méthode nécessite la connaissance de règles Induction : base du data mining méthode permettant de tirer des conclusions à partir d'une série de faits généralisation un peu abusive indicateurs de confiance permettant la pondération 8 Le processus de KDD 9 Etapes du processus 1. Compréhension du domaine d’application 2. Création du fichier cible (target data set) 3. Traitement des données brutes (data cleaning and preprocessing) 4. Réduction des données (data reduction and projection) 5. Définition des tâches de fouille de données 6. Choix des algorithmes appropriés de fouille de données 7. Fouille de données (data mining) 8. Interprétation des formes extraites (mined patterns) 9. Validation des connaissances extraites (source : Fayyat et al., 1996, p. 1-34) 10 Etapes d’après SPSS 11 2. Domaines d'application De plus en plus de domaines explosion des données historisées puissance des machines support nombreux datawarehouses OLAP limité nécessité de mieux comprendre rapports sophistiqués, prédictions aide efficace aux managers 12 Quelques domaines réputés Analyse de risque (Assurance) Marketing Grande distribution Médecine, Pharmacie Analyse financière Gestion de stocks Maintenance Contrôle de qualité 13 Exemples Targeted ads “What banner should I display to this visitor?” Cross sells “What other products is this customer likely to buy? Fraud detection “Is this insurance claim a fraud?” Churn analysis “Who are those customers likely to churn?” Risk Management “Should I approve the loan to this customer?” 14 Churn Analysis Application de télécom Bases de données des clients et des appels Fichiers des réclamations Qui sont les clients le plus susceptibles de partir ? Application de techniques de DM Fichiers de 1000 clients les plus risqués 600 ont quittés dans les 3 mois 15 Trading Advisor Application boursière conseil en achat / vente d'actions Données de base historique des cours portefeuille client Analyse du risque Analyse technique du signal Conseils d'achat – vente Mise à disposition sur portail Web 16 3. Méthodologie -1 1. Identifier le problème cerner les objectifs trouver les sources définir les cibles vérifier les besoins 2. Préparer les données préciser les sources collecter les données nettoyer les données transformer les données intégrer les données 17 Méthodologie - 2 3. Explorer des modèles choisir une technique échantillonner sur un groupe valider sur le reste (5% à 1/3) calculer le d ’erreurs 5. Suivre le modèle bâtir des estimateurs corriger et affiner le modèle 4. Utiliser le modèle observer la réalité recommander des actions 18 Explorer des modèles : SEMMA Sampling = Échantillonner tirer un échantillon significatif pour extraire les modèles Exploration = Explorer devenir familier avec les données (patterns) Manipulation = Manipuler ajouter des informations, coder, grouper des attributs Modelling = Modéliser construire des modèles (statistiques, réseaux de neuronnes, arbres de décisions, règles associatives, …) Assessment = Valider comprendre, valider, expliquer, répondre aux questions 19 Validation d’un modèle Matrice de confusion: confronter le vrai au prédit ! comparaison des cas observés par rapport aux prédictions exemple : prédiction de factures impayées Observé Prédit Payé Payé Impayé Total 80 15 5 100 Retardé 1 17 2 20 Impayé 5 2 23 30 Total Retardé 86 34 30 150 Validité du modèle nombre exacte (diagonale) / nombre totale = 120/150 = 0.80 20 Mesures en Recherche d’information (IR) 21 Définition de Mesures précision Rapport du nombre de documents pertinents trouvés au nombre total de documents sélectionnés. En anglais precision. rappel Rapport du nombre de documents pertinents trouvés au nombre total de documents pertinents. En anglais recall. Soient S l'ensemble des objets qu'un processus considère comme ayant une propriété recherchée, V l'ensemble des objets qui possèdent effectivement cette propriété, P et R respectivement la précision et le rappel du système : P=|S∩V|/|S| R=|S∩V|/|V| 22 Mesures Précision (Precision) = NbTrouvésCorrects/(1+NbTotal) Bruit (Noise) = NbTrouvésIncorrects/(1+NbTotal) = 1- Précision Rappel (Recall) = NbTrouvésCorrects/(1+NbValide) F-mesure = 2*(précision*rappel)/(précision+rappel) 23 Autre mesure: Le Lift Population de clients pour le marketing Division en décil Mesure du ratio Réponse/Moyenne 24 Représentation du lift 25 Principales Techniques Dérivées des statistiques (e.g., réseaux bayésiens) de l'analyse de données (e.g., analyse en composantes) de l'intelligence artificielle (e.g., arbres de décision, réseaux de neurones) des bases de données (e.g., règles associatives) Appliquées aux grandes bases de données Difficultés : passage à l'échelle et performance fonctionnement avec échantillon > qq milliers présentation et validation des résultats 26 Origines des techniques D’après Labo. Eric, Lyon 27 4. Quelques produits Intelligent Miner d'IBM modélisation prédictive (stat.), groupage, segmentation, analyse d'associations, détection de déviation, analyse de texte libre SAS de SAS Statistiques, groupage, arbres de décision, réseaux de neurones, associations, ... SPSS de SPSS statistiques, classification, réseaux de neurones Oracle ODM Règles associatives, classification supervisée et non supervisée, text mining SQL Server DM Règles associatives, classification supervisée et non supervisée, séries temporelles, réseaux de neurones, … Autres : SPSS, Statistica Open source: SIPINA, WEKA 28 SAS 29 INPUT Choix des variables 30 SAMPLING Choix du type d'échantillon 31 INSIGHT Analyse des données en 4D 32 TRANSFORM Transformation pour préparer 33 PARTITION Création de partition d'exploration parallèle 34 REGRESSION Sélection de la méthode de régression 35 DECISION TREE Construction d'un arbre par 2 36 NEURONES Spécification d'un réseau de neurones 37 ASSESSMENT Validation des résultats 38 5. Méthodes statistiques Quelques techniques de base A la limite du DM Calculs d'information sophistiqués 39 Méthodes d'analyse 1 ... J ... p 1 . . Table Table = i . . n 1 ... J ... p 1 . . Table = i . . n Points dans Rp 1 ... J ... p 1 . . Table = i . . n Points dans Rn 40 Familles de méthodes Nuage de points Visualisation dans Le meilleur espace réduit METHODES STATISTIQUES ET FACTORIELLES Regroupement dans tout l'espace METHODES DE CLASSIFICATION, SUPERVISEE OU NON … 41 Fonctions Statistiques Espérance permet de calculer la moyenne pondérée d'une colonne pi = 1/N par défaut Variance traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. Variable centrée réduite Permet d'éliminer le facteur dimension 42 Diagrammes en bâtons Catégorie d'employé 400 Comptage de fréquence COUNT Extension aux calculs d'agrégats 200 100 Fréquence 300 0 Secrétariat AVG, MIN, MAX, … Possibilité d'étendre au 3D Apporte une vision synthétique Cadre Responsable Catégorie d'employé 100 80 60 40 20 0 North West East East West North 1st 2nd 3rd 4th Qtr Qtr Qtr Qtr 43 Tableaux croisés (Vision 2D du Datacube) Tableau croisé Catégorie d'employé * Sexe de l'employé * Classe minoritaire ? Class e minoritaire ?: Non Catégorie d'employé Total Secrétariat Sexe de l'employé Cadre Total Sexe de l'employé Res ponsable Total Sexe de l'employé Total Sexe de l'employé Total Mas culin Féminin Mas culin Féminin Mas culin Féminin Mas culin Féminin Effectif 110 166 276 14 0 14 70 10 80 194 176 370 Effectif théorique 144,7 131,3 276,0 7,3 6,7 14,0 41,9 38,1 80,0 194,0 176,0 370,0 Effectif théorique = calculé par une loi de distribution (uniforme) 44 Corrélation Covariance La covariance peut être vue comme le moment centré conjoint d'ordre 1 de deux v.a. Si les deux v.a. sont indépendantes, alors leur covariance est nulle (mais la réciproque n'est pas vraie en général). Coefficient de corrélation Elimine le facteur dimension mesure la qualité de la relation linéaire entre deux variables aléatoires 45 Droite de régression $160,000 Salaire actuel = 1928,21 + 1,91 * saldeb R-Deux = 0,77 Régression linéaire 199 Y=aX+b Salaire actuel $120,000 120 70 $80,000 $40,000 $20,000 $40,000 $60,000 $80,000 Salaire d'embauche 46 Test du 2 Détermine l'existence d'une dépendance entre deux variables Exemple : salaire d'embauche, niveau d'étude Compare la distribution des variables par rapport à une courbe théorique supposant l'indépendance 47 De nombreuses autres fonctions Test t sur moyenne ANOVA Analyses de variance sophistiquées Corrélation partielle Régresion logistique Séries chronologiques Lissage exponentiel, Moyenne mobile, … Comparaison … 48 Calculs en SQL Introduction de fonctions d'agrégats AVG = moyenne MAVG = moyenne mobile STDDEV = écart type VARIANCE = variance COVARIANCE = covariance … Exemple SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB) FROM EMPLOYEE WHERE GRADE = "ingénieur" GROUP BY SEXE 49 Statistiques: Conclusion Calculs statistiques sur variables Mono ou bi-variées Résumé des données Observation de dépendances Peu de modèles prédictifs ... La plupart sont faisables avec SQL OLAP Extensions cube et rollup Extensions avec fonctions d'agrégats 50 6. Conclusion Le data mining vise à découvrir des modèles à partir de grandes bases de faits connus (datawarehouse) Le processus de construction de modèles est complexe Questions ? Quoi de nouveau par rapport à l'IA et aux statistiques ? préparer les données modéliser 1/3 de la base valider sur 2/3 expérimenter plusieurs modèles 51