Construire un score avec KXEN et écrire un rapport
Download
Report
Transcript Construire un score avec KXEN et écrire un rapport
Data Mining
Projets
Françoise Soulié Fogelman
[email protected]
Master MI2 Pro EID - Université Paris 13
Data mining et Business Intelligence
FDON
Liste des projets
Groupe
1.
2.
3.
4.
5.
6.
7.
Projet Cross-Validation
Projet Binning/Banding
Projet Bootstrap & bagging
Produits bancaires
Projet TIS : série temporelle
Projet Feature Selection Challenge
Projet Evaluating Predictive Uncertainty Challenge
8
6
10
4
3
1
7
classification
8. Projet Evaluating Predictive Uncertainty Challenge
2
régression
9. Projet Performance Prediction Challenge
10.Projet ré-équilibrage de classe
KXEN-Confidential
9
5
2
Projets
1. Projet Cross-Validation
■ Fichier CocoaBank.txt
1. Construire un score avec KXEN et écrire un rapport
Sélectionner les 7 à 10 variables les plus significatives
2. Cross-validation
Réaliser un script KXEN pour mettre en œuvre la cross-validation
Utiliser une k-fold cross-validation pour produire 5 modèles Md, utilisant des
polynômes de degré d = 1 à 5.
Choisir le meilleur modèle
– En utilisant la technique de cross-validation.
– En utilisant le KI / KR
Écrire un rapport décrivant la méthode, les résultats obtenus et comparer
ces résultats à ceux du modèle standard KXEN obtenu en 1/
■ Référence
Utiliser l’article scientifique décrivant la cross-validation :
http://www.autonlab.org/tutorials/overfit10.pdf
■ Groupe 8
KXEN-Confidential
3
Projets
2. Projet Binning/Banding
■ Fichier CocoaBank.txt
1. Construire un score avec KXEN et écrire un rapport
2. Binning et banding
Rechercher des stratégies de binning et banding
Réaliser un script KXEN pour mettre en œuvre binning et banding
Écrire un rapport décrivant la méthode, les résultats obtenus et comparer
ces résultats à ceux du modèle standard KXEN obtenu en 1/
■ Groupe 6
KXEN-Confidential
4
Projets
3. Projet Bootstrap & bagging
■ Fichiers
ftp://ftp.ics.uci.edu/pub/machine-learning-databases/
heart-disease, breast-cancer-wisconsin, ionosphere, diabetes
1. Construire un score avec KXEN et écrire un rapport
Pour chacun des 4 ensembles de données
2. Bagging
Réaliser un script KXEN pour mettre en œuvre le bagging
Pour chaque ensemble de données, appliquer le bagging sur un ensemble
de k échantillons de boot-strap
– Mettre de côté un échantillon de test
– Tirer les échantillons de boot-strap sur les donénes restantes
Écrire un rapport décrivant la méthode, les résultats obtenus et comparer
ces résultats à ceux du modèle standard KXEN obtenu en 1/
■ Référence
Utiliser l’article scientifique décrivant le bagging
http://citeseer.csail.mit.edu/breiman96bagging.html
■ Groupe 10
KXEN-Confidential
5
Projets
4. Produits bancaires
■ Fichier Banking Products.csv
1. Construire un score d'appétence pour la détention de au moins
1, au moins 2 et au moins 3 produits et écrire un rapport
2. Construire un score d'appétence produit et écrire un rapport
1 modèle par produit,
Prévoir pour chaque individu le ou les produits qui doivent être proposés
(calcul des probabilités d'appétence)
Fournir un fichier Excel contenant toutes les données et 2 colonnes
supplémentaires
Le produit à proposer (en dehors de celui qu'il possède) et sa probabilité.
3. Utiliser les résultats de 1. pour affiner les propositions
obtenues en 2.
4. Faire une segmentation selon la valeur Client (par exemple en
utilisant la variable : tot_amt_balance). Même question que 2.
5. Comparer les résultats obtenus par les différentes méthodes
■ Groupe 4
KXEN-Confidential
6
Projets
5. Projet TIS : série temporelle
■ Fichier bicup2006english.xls
http://www.tis.cl/2006//futurosTalleres/2006/Taller_1/BICUP2006ENGLISH/?Taller_12006
1. Construire un modèle de prévisions temporelles avec KTS et
écrire un rapport
2. Comment enrichir ce modèle en utilisant des variables
supplémentaires : Jour de la semaine, numéro de jour … ?
3. Que se passe-t-il si on demande des prévisions à 1, 2 ou 3
jours (court terme) versus moyen terme (10, 11, 12 jours?) ou
long terme (> 15 jours)
4. Que se passe-t-il si au lieu de travailler au 1/4 d'heure, nous
travaillons à la 1/2 heure ou à l'heure?
5. Comparer les résultats obtenus par les différentes méthodes
■ Groupe 3
KXEN-Confidential
7
Projets
6. Projet Feature Selection Challenge
■ Site du challenge
http://www.nipsfsc.ecs.soton.ac.uk/datasets/
1. Choisir un des problèmes proposés
2. Construire un score avec KXEN et écrire un rapport
3. Comparer les résultats obtenus à ceux des concurrents du
challenge
■ Groupe 1
KXEN-Confidential
8
Projets
7. Projet Evaluating Predictive Uncertainty Challenge
■ Site du challenge
http://predict.kyb.tuebingen.mpg.de/pages/home.php
1. Choisir un des problèmes proposés (classification)
2. Construire un score avec KXEN et écrire un rapport
3. Comparer les résultats obtenus à ceux des concurrents du
challenge
■ Groupe 7
KXEN-Confidential
9
Projets
8. Projet Evaluating Predictive Uncertainty Challenge
■ Site du challenge
http://predict.kyb.tuebingen.mpg.de/pages/home.php
1. Choisir un des problèmes proposés (régression)
2. Construire un score avec KXEN et écrire un rapport
3. Comparer les résultats obtenus à ceux des concurrents du
challenge
■ Groupe 2
KXEN-Confidential
10
Projets
9. Projet Performance Prediction Challenge
■ Site du challenge
http://www.modelselect.inf.ethz.ch/
1. Choisir un des problèmes proposés
2. Construire un score avec KXEN et écrire un rapport
3. Comparer les résultats obtenus à ceux des concurrents du
challenge
■ Groupe 9
KXEN-Confidential
11
Projets
10.Projet ré-équilibrage de classe
■ Fichier CocoaBank.txt
1. Construire un score avec KXEN et écrire un rapport
Déterminer le nombre de cas positifs (1) et négatifs (0)
2. Ré-équilibrage
Construire un échantillon comprenant P cas positifs et N cas négatifs de la
façon suivante
– On prend tous les cas positifs (p) et on pondère chaque cas par un poids w
» Ceci est équivalent à prendre P = pw
– Tirer N = P cas négatifs parmi les cas négatifs disponibles
Réaliser un script KXEN pour mettre en œuvre cet échantillonnage (pour w
= 1 à 30)
Produire 30 modèles Mw, pour chaque w.
Écrire un rapport décrivant la méthode, les résultats obtenus et comparer
ces résultats à ceux du modèle standard KXEN obtenu en 1/
■ Groupe 5
KXEN-Confidential
12