Analyse discriminante sur données fonctionnelles

Download Report

Transcript Analyse discriminante sur données fonctionnelles

Analyse discriminante sur
données fonctionnelles
Gilbert Saporta
Chaire de Statistique Appliquée & CEDRIC
Conservatoire National des Arts et Métiers
292 rue Saint Martin
F 75141 Paris Cedex 03
[email protected]
http://cedric.cnam.fr/~saporta
Plan
1. Introduction
2. Régression MCO sur données fonctionnelles
3. Régression PLS fonctionnelle
4. Méthodes linéaires de discrimination
5. Régression typologique
6. Prédiction anticipée
7. Conclusion et perspectives
Travaux réalisés en collaboration avec C.Preda(Univ. Lille2) et D.Costanzo (Univ.Calabria)
Grenoble, 17 janvier 2008
2
1. Introduction
 Données fonctionnelles: courbes ou
trajectoires d’un processus stochastique
Xt
 Réponse Y
 Y numérique: régression
 Y catégorielle: classification supervisée,
discrimination
 Intervalle de temps commun [0;T], variables centrées
Grenoble, 17 janvier 2008
3
 Régression sur données fonctionnelles
 Exemple 1: Y= récolte
Xt = température
p= 
R.A.Fisher (1924)
Grenoble, 17 janvier 2008
4
 Données de très grande dimension:
infinité non dénombrable (en principe..)
de prédicteurs
 Combinaison linéaire
 « Integral regression »
T
ˆ
Y    (t ) X t dt
0
 Au lieu d’une somme finie
p
Yˆ    j X j
j 1
Grenoble, 17 janvier 2008
5
R.A.Fisher « The Influence of Rainfall on the Yield of Wheat at Rothamsted »
Philosophical Transactions of the Royal Society, B, 213, 89-142 (1924)
Grenoble, 17 janvier 2008
6
•Discrimination sur données fonctionnelles
 Exemple 2: courbes de pétrissage pour
biscuits (Danone Vitapole)
Grenoble, 17 janvier 2008
7
 Après lissage par B-splines cubiques (Lévéder & al,
2004)
Comment prédire la qualité des biscuits?
Grenoble, 17 janvier 2008
8
 Discrimination sur données fonctionnelles
 Cas particulier de la régression sur données
fonctionnelles pour deux classes
 Anticipation
 déterminer t*<T tel que l’analyse sur [0;t*]
donne des prédictions semblables à l’analyse
sur [0;T]
Grenoble, 17 janvier 2008
9
2. Régression sur données
fonctionnelles
Y ; Xt (E(Y)=E(Xt) =0 )
 2.1 Les mco
 Equations normales ou de Wiener-Hopf:
T
ˆ
Y    (t ) X t dt
0
T
cov( X t , Y )   C (t , s)  (s)ds
0
 C(t,s)= cov(Xt, Xs)=E(XtXs)
Grenoble, 17 janvier 2008
10
2.2 décomposition de Karhunen-Loeve

X t   fi (t )i
i 1
 facteurs:

T
0
C (t , s) fi (s)ds  i fi (t )
 Composantes principales:
T
i   fi (t ) X t dt
0
 Covariance avec une composante principale:
T
T
0
0
ci  cov(Y , i )  cov(Y ,  fi (t ) X t dt )   E ( X tY ) fi (t )dt
Grenoble, 17 janvier 2008
11
 Theorème de Picard:  unique si et
seulement si:

ci2

i 1
2
i

 Géneralement faux ... Surtout quand n est
fini car p >n. Ajustement parfait en
minimisant:
n

1
yi    (t ) xi (t )dt

0
n i 1
T
Grenoble, 17 janvier 2008

2
12
 Même quand  est unique, « L’équation
de Wiener-Hopf n’est pas une équation
intégrale ordinaire mais un accouplement
entre fonction et distribution dont la
solution est plus souvent une distribution
qu’une fonction » Paul Kree, 1972
 Nécessité de contraintes. (cf Green &
Silverman 1994, Ramsay & Silverman 1997).
Grenoble, 17 janvier 2008
13
2.3 Régression sur composantes principales

Yˆ  
i 1
cov(Y , i )

ci
i   i
i 1 i
i


i 1
i 1
i
q
cov(Y ; i )
R 2 (Y , Yˆ )   R 2 (Y , i )  
ci2
 Approximation de rang q:
q
Yˆ ( q )  
i 1
cov(Y ; i )
i
i
ˆ ( q ) (t ) 
Grenoble, 17 janvier 2008

i 1
i
fi (t )
14
Résolution numérique:
 Equations intégrales non explicites dans le
cas général: C(t,s) connu point par point
 Fonctions en escalier: nombre fini de
variables et d’individus: opérateurs
matriciels mais de grande taille
 Approximations par discrétisation du
temps
Grenoble, 17 janvier 2008
15
 Quelles composantes?
 Les q premières?
 Les q plus corrélées?
 Les composantes principales sont calculées
sans tenir compte de la réponse Y
Grenoble, 17 janvier 2008
16
3. Régression PLS fonctionnelle
 Utiliser les composantes PLS au lieu des
composantes principales
 Première composante PLS :
T
max w cov (Y ,  w(t ) X t dt )
2
w 1
2
0
w(t ) 
cov( X t , Y )

T
0
T
cov 2 ( X t , Y )dt
t1   w(t ) X t dt
0
 Puis itération sur les résidus
Grenoble, 17 janvier 2008
17
 Approximation de Y par Xt d’ordre q:
YˆPLS ( q )  c1t1  ...  cqtq   ˆPLS ( q ) (t ) X t dt
T
0
 Convergence :
2
limq E ( YˆPLS ( q )  Yˆ )  0
 Mais q doit être fini pour avoir une formule!
 q déterminé par validation croisée
(Preda & Saporta, 2005)
Grenoble, 17 janvier 2008
18
 Première composante PLS facilement
interprétable: coefficients du même signe que
r(y;xt)
 Pas d’équation intégrale
 Meilleur ajustement par PLS que par ACP:
2
ˆ
R (Y ; YPLS ( q ) )  R (Y ; YˆPCR ( q ) )
2
(De Jong 1993)
Grenoble, 17 janvier 2008
19
4. Discrimination linéaire
4.1 ADL fonctionnelle
T
 ADL : combinaison linéaire   (t ) X t dt
0
maximisant le rapport
variance inter/variance intra
 Pour 2 groupes la FLD de Fisher s’obtient
en régressant Y codé sur Xt
eg pp and  pp
1
0
0
1
(Preda & Saporta, 2005a)
Grenoble, 17 janvier 2008
20
 La régression PLS avec q composantes
donne une approximation de β(t) et du
score:
T
dT   PLS ( X )   ˆPLS (t )X t dt
0
 Pour plus de 2 groupes: régression PLS2
entre k-1 indicatrices de Y et Xt
Grenoble, 17 janvier 2008
21
Régression PLS2
 Y multiple: (Y1, Y2, …,Yp)
 Citère de Tucker:
p

max cov 2 (  w(t ) X t dt;  ciYi )
0
i 1
 Composantes PLS :

t   w(t ) X t dt
0
p
s   ciYi
i 1
Grenoble, 17 janvier 2008
22
Première composante PLS: premier
vecteur propre du produit des
opérateurs d’Escoufier WxWY
Preda & Saporta, 2002 & 2005a ; Barker & Rayens , 2003
Grenoble, 17 janvier 2008
23
 Généralisation du critère de Tucker au cas
fonctionnel:


0
0
max cov ( w(t ) X t dt;  c(s)Ys ds)
2
 Prévision:
X t t [0; T ]
Yt  X t t  [T ;T  a]
Xˆ t  s  t1c1 (T  s)  ...  thch (T  s)
Grenoble, 17 janvier 2008
24
4.2 Régression logistique fonctionnelle
T
 i 
ln 
    0 xi (t )  (t )dt; i  1,
 1 i 
,n
 i  P(Y  1 | X  xi (t ); t  T )
Hypothèse: β(t) et les trajectoires sont dans
le même espace de dimension fini (Ramsay
et al., 1997)
p
 (t )   bq q (t )  b
q 1
p
xi (t )   ciq q (t )  ci
Grenoble, 17 janvier 2008
q 1
25
D’où une régression logistique classique:
 
ln 
 1 
avec
C  (ciq )

   1  Cb

  (kq   k (t ) q (t )dt )
T
Leng and Müller (2006) , Escabias et al. (2004),
Aguilera et al. (2006) utilisent les composantes
principales de Xt comme base
Grenoble, 17 janvier 2008
26
4.3 Mesures de qualité
 Pour k=2 : courbe ROC et AUC
 Pour un seuil s , x est classé en 1 si dT(x)>s
 Sensibilité ou taux de vrais positifs:
P(dT(x)>s/Y=1)=1-β
 1- Spécificité ou 1-taux de vrais négatifs:
P(dT(x)>s/Y=0)=
Grenoble, 17 janvier 2008
27
Courbe ROC
• En cas de discrimination parfaite :
courbe confondue avec les côtés du carré
• Si distribution conditionnelles identiques, courbe
confondue avec la diagonale
Grenoble, 17 janvier 2008
28
 Courbe ROC invariante pour toute transformation
monotone croissante
 Surface sous la courbe: mesure de performance
permettant de comparer (partiellement) des
modèles
s 

AUC 
(1   (s))d (s)  P( X  X )

1
s 
2
On tire une obs de G1 et une de G2
 AUC estimée par la proportion de paires concordantes
c  nc n1n2
 nc statistique de Wilcoxon-Mann-Whitney
U+W= n1n2+0.5n1(n1+1)
AUC=U/n1n2
Grenoble, 17 janvier 2008
29
5. Régression typologique
Un mélange de régression et de
classification
Grenoble, 17 janvier 2008
30
5.1 Modèle
 G , variable à K catégories (sousb-populations)
E (Y  X  x G  i )   i   i x
V (Y  X  x G  i )   i2
Grenoble, 17 janvier 2008
31
 5.2 MCO et régression
typologique
Yˆ estimation globale versus Yˆ L estimation typologique "locale"
 Variances résiduelle de la régression globale=
varaince résiduelle intra cluster + variance due
à la différence entre la régression locale et la
régression globale (MCO)
Grenoble, 17 janvier 2008
32
 5.3 Estimation
(Charles, 1977)
 k fixé
 Moindres carrés alternés
 Partition connue: régressions linéaires dans chaque
cluster
 Affecter chaque observation à la droite ou surface de
régression la plus proche
i
i
ˆ
ˆ
G( j )  arg min ( y j  (ˆ   x j ))2 
i{1… K }
 Equivalent au MV pour des régresseurs fixes
(Hennig, 2000)
 5.4 Choix de k
 AIC, BIC,validation croisée
Grenoble, 17 janvier 2008
33
5.5 Régression typologique
fonctionnelle PLS
 Régression MCO fonctionnelle inadéquate pour
des estimations par groupe
 Modèles locaux estimés par PLS fonctionnel
 L’algorithme est-il consistent?

Proof in Preda & Saporta, 2005b
Grenoble, 17 janvier 2008
34
 Prédiction:
 Affectation à un groupe (plus proche voisin
ou autre)
 Aplication du modèle local
 Se généralise si Y est un vecteur
aléatoire:
Y   X t tT ,T  a
Grenoble, 17 janvier 2008
35
5.6 Application à des données
boursières
 Taux de croissance pendant 1 heure (de 10h à
11h) de 84 actions à la Bourse de Paris
Grenoble, 17 janvier 2008
36
 Prédire le comportement de i85 entre
10h55 et 11h en utilisant les données
relevées entre 10h et 10h55?
Grenoble, 17 janvier 2008
37
 Calcul exact: 1366 variables
(nombre
d’intervalles où les courbes restent constantes)
Discrétisation en 60 intervalles.
 Comparaison between RCP et PLS:
Grenoble, 17 janvier 2008
38
 Crash de i85 non détecté!
Grenoble, 17 janvier 2008
39
 PLS typologique
 Quatre clusters (17;32;10;25)
 Nombre de comosantes PLS component par
cluster: 1; 3; 2 ; 2 (cross-validation)
Grenoble, 17 janvier 2008
40
 i85 classée dans le cluster 1
Grenoble, 17 janvier 2008
41
4. Prédiction anticipée
 Chercher t*<T tel que l’analyse sur
[0;t*]donne des prédictions semblables à
l’analyse sur [0;T]
 Solution:
 En augmentant s depuis 0 , chercher la
première valeur telle que AUC(s) ne diffère
pas significativement de AUC(T)
Grenoble, 17 janvier 2008
42
 Test d’égalité via une procédure bootstrap
 Rééchantillonnage des données, stratifié pour
conserver les proportions des classes
 A chaque réplication b on calcule AUCb(s) et
AUCb(T)
 Test basé sur les différences (Student ou
Wilcoxon pour données appariées)
b=AUCb(s)- AUCb(T)
Grenoble, 17 janvier 2008
43
5.Applications
 5.1 Données simulées
 Deux classes équiprobables
 W(t) brownien standard
Grenoble, 17 janvier 2008
44
Grenoble, 17 janvier 2008
45
 Avec B=50
Grenoble, 17 janvier 2008
46
 5.2 Courbes de pétrissage
 Après un temps T= 480 de pétrissage on
fabrique des biscuits de qualité Y
 115 observations dont 50 « bonnes », 40
«mauvaises » et 25 « ajustables »
 241 points de mesure équidistants
 Lissage avec B-splines cubiques , 16 nœuds
Grenoble, 17 janvier 2008
47
 Performances pour Y={bon,mauvais}
 100 séparations apprentissage test (60, 30)
 Taux d’erreur moyen
 0.142 avec composantes principales
 0.112 avec composantes PLS
 AUC moyen 0.746
Fonction β(t)
Grenoble, 17 janvier 2008
48
 Prédiction anticipée
 Avec B=50
 t*=186
 Il est donc possible de réduire de plus de
moitié la durée d’étude.
Grenoble, 17 janvier 2008
49
6.Conclusions et perspectives
 La régression PLS permet d’effectuer une
prédiction linéaire de manière simple et
efficace
 Nécessité de prétraitements pour données
bruitées
 Prédiction anticipée via une procédure
simple
Grenoble, 17 janvier 2008
50
 En cours:
 Recherche de prédiction « on-line »: adapter
t* pour chaque nouvelle courbe
 Comparaison avec régression logistique PLS
fonctionnelle et autres approches
Grenoble, 17 janvier 2008
51
Références










Aguilera A.M., Escabias, M. ,Valderrama M.J. (2006) Using principal
components for estimating logistic regression with high-dimensional
multicollinear data, Computational Statistics & Data Analysis, 50, 1905-1924
Barker M., Rayens W. (2003) Partial least squares for discrimination. J. of
Chemometrics 17:166–173
Charles, C., (1977) Régression typologique et reconnaissance des formes.
Ph.D., Université Paris IX.
D. Costanzo, C. Preda , G. Saporta (2006) Anticipated prediction in
discriminant analysis on functional data for binary response . In
COMPSTAT2006, p. 821-828, Physica-Verlag
Hennig, C., (2000) Identifiability of models for clusterwise linear regression.
J. Classification 17, 273–296.
Lévéder C., Abraham C., Cornillon P. A., Matzner-Lober E., Molinari N. (2004)
Discrimination de courbes de pétrissage. Chimiometrie 2004, 37–43.
Preda C. , Saporta G. (2005a) PLS regression on a stochastic process,
Computational Statistics and Data Analysis, 48, 149-158.
Preda C. , Saporta G. (2005b) Clusterwise PLS regression on a stochastic
process, Computational Statistics and Data Analysis, 49, 99-108.
Preda C., Saporta G., Lévéder C., (2007) PLS classification of functional data,
Computational Statistics, 22(2), 223-235
Ramsay J.O. , Silverman (1997) Functional data analysis, Springer
Grenoble, 17 janvier 2008
52