MAP 553 Apprentissage statistique - CMAP

Download Report

Transcript MAP 553 Apprentissage statistique - CMAP

MAP 553
Apprentissage statistique
Christophe Giraud
Universit´
e Paris Sud et Ecole Polytechnique
http://www.cmap.polytechnique.fr/~giraud/MAP553/MAP553.html
PC1
1/39
Christophe Giraud
MAP 553 Apprentissage statistique
Apprentissage?
2/39
Christophe Giraud
MAP 553 Apprentissage statistique
Apprentissage?
L’apprentissage au ”quotidien”
1
filtres SPAM
2
Reconnaissance de chiffre:
lecture automatique de codes
postaux
3
Diagnostique m´
edical: de
cancers, alzheimer, diab`ete,
etc
4
In silico chemometrics:
recherche ”virtuelle” de
m´edicaments
5
Business analytics, Google
ranking, web-data, etc
http://c-command.com/
spamsieve/
3/39
Christophe Giraud
MAP 553 Apprentissage statistique
Apprentissage?
L’apprentissage au ”quotidien”
1
filtres SPAM
2
Reconnaissance de chiffre:
lecture automatique de codes
postaux
3
Diagnostique m´
edical: de
cancers, alzheimer, diab`ete,
etc
4
In silico chemometrics:
recherche ”virtuelle” de
m´edicaments
5
Business analytics, Google
ranking, web-data, etc
3/39
Christophe Giraud
MAP 553 Apprentissage statistique
Apprentissage?
L’apprentissage au ”quotidien”
1
filtres SPAM
2
Reconnaissance de chiffre:
lecture automatique de codes
postaux
3
Diagnostique m´
edical: de
cancers, alzheimer, diab`ete,
etc
4
In silico chemometrics:
recherche ”virtuelle” de
m´edicaments
5
Business analytics, Google
ranking, web-data, etc
3/39
Christophe Giraud
MAP 553 Apprentissage statistique
Apprentissage?
L’apprentissage au ”quotidien”
1
filtres SPAM
2
Reconnaissance de chiffre:
lecture automatique de codes
postaux
3
Diagnostique m´
edical: de
cancers, alzheimer, diab`ete,
etc
4
In silico chemometrics:
recherche ”virtuelle” de
m´edicaments
5
Business analytics, Google
ranking, web-data, etc
3/39
Christophe Giraud
MAP 553 Apprentissage statistique
Apprentissage?
L’apprentissage au ”quotidien”
1
filtres SPAM
2
Reconnaissance de chiffre:
lecture automatique de codes
postaux
3
Diagnostique m´
edical: de
cancers, alzheimer, diab`ete,
etc
4
In silico chemometrics:
recherche ”virtuelle” de
m´edicaments
5
Business analytics, Google
ranking, web-data, etc
3/39
Christophe Giraud
MAP 553 Apprentissage statistique
Apprentissage?
L’apprentissage au ”quotidien”
1
filtres SPAM
2
Reconnaissance de chiffre:
lecture automatique de codes
postaux
3
Diagnostique m´
edical: de
cancers, alzheimer, diab`ete,
etc
4
In silico chemometrics:
recherche ”virtuelle” de
m´edicaments
5
Business analytics, Google
ranking, web-data, etc
3/39
Christophe Giraud
MAP 553 Apprentissage statistique
Apprentissage?
Les deux aspects de l’apprentissage:
−→ aspect statistique
−→ aspect algorithmique
4/39
Christophe Giraud
MAP 553 Apprentissage statistique
Le fl´
eau de la dimension
5/39
Christophe Giraud
MAP 553 Apprentissage statistique
Renversement de point de vue
Cadre statistique classique:
petit nombre p de param`etres
grand nombre n d’exp´eriences
on ´etudie le comportement asymptotique des estimateurs
lorsque n → ∞ (r´esultats type th´eor`eme central limite)
6/39
Christophe Giraud
MAP 553 Apprentissage statistique
Renversement de point de vue
Cadre statistique classique:
petit nombre p de param`etres
grand nombre n d’exp´eriences
on ´etudie le comportement asymptotique des estimateurs
lorsque n → ∞ (r´esultats type th´eor`eme central limite)
Donn´
ees actuelles:
inflation du nombre p de param`etres
taille d’´echantillon reste r´eduite: n ≈ p ou n p
=⇒ penser diff´eremment les statistiques!
(penser n → ∞ ne convient plus)
6/39
Christophe Giraud
MAP 553 Apprentissage statistique
Le fl´eau de la dimension: exemple 1
On observe X1 , . . . , Xn ∈ [0, 1]p i.i.d. selon une densit´e
f : [0, 1]p → R
inconnue.
On cherche `a estimer f . Une id´ee naturelle est de faire un
histogramme avec disons des ”cases” de 0.1 de cˆ
ot´e.
7/39
Christophe Giraud
MAP 553 Apprentissage statistique
Le fl´eau de la dimension: exemple 1
En dimension p = 1:
Density
0.0
0.5
1.0
1.5
2.0
Histogram of x
0.0
0.2
0.4
0.6
0.8
1.0
x
Histogramme d’un ´echantillon de n = 100 tirages d’une loi beta.
8/39
Christophe Giraud
MAP 553 Apprentissage statistique
Le fl´eau de la dimension: exemple 1
On observe X1 , . . . , Xn ∈ [0, 1]p i.i.d. selon une densit´e
f : [0, 1]p → R
inconnue.
On cherche `a estimer f . Une id´ee naturelle est de faire un
histogramme avec disons des ”cases” de 0.1 de cˆ
ot´e.
Questions :
1
Pour avoir en moyenne 10 observations par cases, quelle taille
doit avoir n (en fonction de p)?
2
Conclusion? Comment faire avec des ´echantillons plus petits?
9/39
Christophe Giraud
MAP 553 Apprentissage statistique
Le fl´eau de la dimension: exemple 2
Echec des m´
ethodes locales en r´
egression.
On observe Y1 , . . . , Yn ∈ R et X1 , . . . , Xn ∈ Rp avec
Yi = f (Xi ) + εi ,
i = 1, . . . , n,
o`
u f est inconnue et les E[εi ] = 0.
fˆ(x) = Moyenne{Yi : Xi ∈ B(x, r )} avec un r petit.
i.i.d.
on supposera les Xi ∼ U(B(0, 1))
1
Pour r < 1 montrer P(∃ Xi ∈ B(0, r )) = 1 − (1 − r p )n .
2
Pour quelle valeur de r est-ce sup´erieur `a 1/2?
3
Pour estimer f (0) avec au moins un point, quel est l’ordre de
grandeur du diam`etre r minimal? Conclusion?
10/39
Christophe Giraud
MAP 553 Apprentissage statistique
0.2
0.4
r
0.6
0.8
1.0
Le fl´eau de la dimension: exemple 2
5
10
50
100
500
5000
log(p)
valeurs de r pour lesquelles (1 − r p )n = 1/2, cas n = 100.
11/39
Christophe Giraud
MAP 553 Apprentissage statistique
Le fl´eau de la dimension: exemple 3
Puces ADN:
Mod`
ele: log-intensit´e du spot (apr`es
normalisation) Xi = θi + i avec
i.i.d.
εi ∼ N (0, 1)
D´
a 5%: on a
eviation gaussienne
`
2
P (N (0, 1)) > 3.84 ≈ 5%
12/39
Christophe Giraud
MAP 553 Apprentissage statistique
Le fl´eau de la dimension: exemple 3
Puces ADN:
Mod`
ele: log-intensit´e du spot (apr`es
normalisation) Xi = θi + i avec
i.i.d.
εi ∼ N (0, 1)
D´
a 5%: on a
eviation gaussienne
`
P (N (0, 1))2 > 3.84 ≈ 5%
Les valeurs Xi2 sup´erieures `a 3.84 sont-elles significatives?
12/39
Christophe Giraud
MAP 553 Apprentissage statistique
0
5
x
10
15
Le fl´eau de la dimension: exemple 3
0
200
400
600
800
1000
z
Avec p = 1000 et θi = 0 ∀i (donc Xi2 = ε2i ).
Niveaux repr´esent´es: 3.84 et 2 log p.
13/39
Christophe Giraud
MAP 553 Apprentissage statistique
Le fl´eau de la dimension: exemple 3
Combien de faux positifs ?
Supposons que p = 5000 et 4% des g`enes sont positifs. Quel est le
nombre moyen de faux positifs si on conserve tous les Xi2 > 3.84?
Pourquoi un seuil `
a 2 log(p) ?
tp ∼α log p
0 si α ≥ 2
2
P max εi > tp
−→
1 si α < 2
i=1,...,p
Quel est le probl`
eme si p grand ?
14/39
Christophe Giraud
MAP 553 Apprentissage statistique
Le fl´eau de la dimension: pour aller plus loin
Introduction to High-Dimensional Statistics. To appear.
http://www.cmap.polytechnique.fr/~giraud/MSV/
LectureNotes.pdf
Jiashun Jin. Impossibility of successful classification when
useful features are rare and weak. Proceedings of the National
Academy of Sciences of the USA. 106 (22); 2009. pp.8859-64.
http://www.pnas.org/content/106/22/8859.full
15/39
Christophe Giraud
MAP 553 Apprentissage statistique
R´
eduction de dimension :
ACP
16/39
Christophe Giraud
MAP 553 Apprentissage statistique
R´eduire la dimension
1.0
X[,2]
0.0
X[,3]
0.5
1.0
Objectif: trouver un espace V de petite dimension tel que
(simultan´ement) les observations Xi ∈ Rp soient proches de leur
projection sur cet espace
-0.5
0.5
0.0
-1.0
-0.5
-1.0
-1.0
-0.5
0.0
0.5
1.0
X[,1]
Ex: dimension p = 3 : meilleur plan approximant.
17/39
Christophe Giraud
MAP 553 Apprentissage statistique
Un exemple visuel : MNIST
Base MNIST : 1100 chiffres scann´es
Figure : chaque image 16 × 16 correspond `a un vecteur dans R256
18/39
Christophe Giraud
MAP 553 Apprentissage statistique
Un exemple visuel : MNIST
image originale
image originale
image originale
image originale
image projetée
image projetée
image projetée
image projetée
Figure : Projection des images sur un espace affine de dimension 10
donn´e par l’ACP
19/39
Christophe Giraud
MAP 553 Apprentissage statistique
Un exemple visuel : MNIST
image 1
image MNIST moyenne
image 1 recentrée
image 1 projetée sur 10 axes
Figure : R´eduction de dimension d’un facteur 25 par ACP
20/39
Christophe Giraud
MAP 553 Apprentissage statistique
R´eduire la dimension: exemple 2
Epreuve d’heptathlon, jeux olympiques de Seoul, 1988.
Joyner-Kersee (USA)
John (GDR)
Behmer (GDR)
Sablovskaite (URS)
Choubenkova (URS)
Schulz (GDR)
Fleming (AUS)
Greiner (USA)
Lajbnerova (CZE)
Bouraga (URS)
Wijnsma (HOL)
Dimitrova (BUL)
Scheider (SWI)
Braun (FRG)
Ruotsalainen (FIN)
Yuping (CHN)
Hagger (GB)
Brown (USA)
Mulliner (GB)
Hautenauve (BEL)
Kytola (FIN)
Geremias (BRA)
Hui-Ing (TAI)
Jeong-Mi (KOR)
Launa (PNG)
hurdles
12.69
12.85
13.20
13.61
13.51
13.75
13.38
13.55
13.63
13.25
13.75
13.24
13.85
13.71
13.79
13.93
13.47
14.07
14.39
14.04
14.31
14.23
14.85
14.53
16.42
highjump
1.86
1.80
1.83
1.80
1.74
1.83
1.80
1.80
1.83
1.77
1.86
1.80
1.86
1.83
1.80
1.86
1.80
1.83
1.71
1.77
1.77
1.71
1.68
1.71
1.50
shot
15.80
16.23
14.20
15.23
14.76
13.50
12.88
14.13
14.28
12.62
13.01
12.88
11.58
13.16
12.32
14.21
12.75
12.69
12.68
11.81
11.66
12.95
10.00
10.83
11.78
run200m
22.56
23.65
23.10
23.92
23.93
24.65
23.59
24.48
24.86
23.59
25.03
23.59
24.87
24.78
24.61
25.00
25.47
24.83
24.92
25.61
25.69
25.50
25.23
26.61
26.16
longjump
7.27
6.71
6.68
6.25
6.32
6.33
6.37
6.47
6.11
6.28
6.34
6.37
6.05
6.12
6.08
6.40
6.34
6.13
6.10
5.99
5.75
5.50
5.47
5.50
4.88
javelin
45.66
42.56
44.54
42.78
47.46
42.82
40.28
38.00
42.20
39.06
37.86
40.28
47.50
44.58
45.44
38.60
35.76
44.34
37.76
35.68
39.48
39.64
39.14
39.26
46.38
run800m
128.51
126.12
124.20
132.24
127.90
125.79
132.54
133.65
136.05
134.74
131.49
132.54
134.93
142.82
137.06
146.67
138.48
146.43
138.02
133.90
133.35
144.02
137.30
139.17
163.43
21/39
Christophe Giraud
MAP 553 Apprentissage statistique
ACP en action
R´esultat d’une ACP sur les donn´ees d’heptathlon.
0.0
0.5
1.0
-2
1
0.0
17 20
run200m
highjump 11
24
21
8
23
19
10 16
7
longjump 12
22
6
9
23
4
14
15 18
hurdles
13
run800m
shot
5
-4
25
-0.5
0
PC2
2
0.5
4
1.0
6
-0.5
javelin
-4
-2
0
2
4
6
PC1
Christophe Giraud
MAP 553 Apprentissage statistique
22/39
ACP : notations
Epreuve d’heptathlon, jeux olympiques de Seoul, 1988.

T
X
1
h
i


= X (1) , . . . , X (p) =  ... 
XnT

h
i
(v )
tableau n×p : X = Xi
i = 1...n
v = 1...p
p = 7 variables:
1 hurdles: results 100m hurdles.
2 highjump: results high jump.
3 shot: results shot.
4 run200m: results 200m race.
5 longjump: results long jump.
6 javelin: results javelin.
7 run800m: results 800m race.
n = 25 athl`
etes.
23/39
Christophe Giraud
MAP 553 Apprentissage statistique
R´eduire la dimension
But: repr´esenter les obervations Xi ∈ Rp dans un espace de plus
petite dimension avec le moins de perte d’information possible.
Ex: avec p = 2 variables: axes de projections (1er en rouge, 2nd en vert).
24/39
Christophe Giraud
MAP 553 Apprentissage statistique
R´eduire la dimension
1.0
X[,2]
0.0
X[,3]
0.5
1.0
But: repr´esenter les obervations Xi ∈ Rp dans un espace de plus
petite dimension avec le moins de perte d’information possible.
-0.5
0.5
0.0
-1.0
-0.5
-1.0
-1.0
-0.5
0.0
0.5
1.0
X[,1]
Ex: avec p = 3 variables: meilleur plan approximant.
25/39
Christophe Giraud
MAP 553 Apprentissage statistique
Etape pr´eliminaire
Normalisation: ´etape pr´eliminaire de normalisation des donn´ees:
centrer: X (v ) ← X (v ) − X¯ (v )
q
r´eduire: X (v ) ← X (v ) / var X (v )
(sauf si comparables)
Dor´enavant on supposera les donn´ees centr´
ees.
26/39
Christophe Giraud
MAP 553 Apprentissage statistique
ACP
Objectif : Obtenir un espace vectoriel V de petite dimension tel
que ProjV (Xi ) ≈ Xi pour i = 1, . . . , n.
b = 1 XT X
Questions : on notera Σ
n
1
Montrer que
Vd
:=
=
argmin
n
X
dim(V )=d i=1
n
X
argmax
kXi − ProjV (Xi )k2
kProjV (Xi )k2
dim(V )=d i=1
2
3
Par quels vecteurs Vd est-il engendr´e ? (commencer par d = 1)
P
Que vaut ni=1 kProjVd (Xi )k2 ?
27/39
Christophe Giraud
MAP 553 Apprentissage statistique
ACP : d´efinitions
Axes principaux: a(1) ⊥ . . . ⊥ a(d) ∈ Rp vecteurs propres
b = 1 XT X, ordonn´es selon les valeurs propres
orthonorm´es de Σ
n
d´ecroissantes
Composantes principales: ck = Xa(k) ∈ Rn pour k = 1, . . . , d
Remarques:
b a(k) = nλk δjk
c1 ⊥ . . . ⊥ cd ∈ Rn : car hcj , ck i = n(a(j) )T Σ
ka(k) k = 1 et kck k2 = nλk
c1 , . . . , cd ∈ Rn vecteurs propres de XXT
28/39
Christophe Giraud
MAP 553 Apprentissage statistique
ACP : projections
Projection des individus: hXi , a(k) i = (ck )i donc
ProjVd (Xi ) =
d
X
(ck )i a(k)
k=1
Projection des variables: hX (v ) , ck i/kck k2 = (a(k) )v donc
Proj<c1 ,...,cd > (X (v ) ) =
d
X
(a(k) )v ck
k=1
29/39
Christophe Giraud
MAP 553 Apprentissage statistique
ACP: biplot
0.0
0.5
1.0
-2
1
0.0
17 20
run200m
highjump 11
24
21
8
23
19
16
10
7
longjump 12
22
6
9
23
4
14
15 18
hurdles
13
run800m
shot
5
-4
25
-0.5
0
PC2
2
0.5
4
1.0
6
-0.5
javelin
-4
-2
0
2
4
6
PC1
30/39
Christophe Giraud
MAP 553 Apprentissage statistique
ACP : variance expliqu´ee
valeurs propres pour les donn´ees d’heptathlon.
2
1
0
Variances
3
4
acp
31/39
Christophe Giraud
MAP 553 Apprentissage statistique
Cercle des corr´elations
Cercle des corr´
elations: pour chaque variable v on d´efinit le
(v
)
vecteur ρ ∈ Rd par
(v )
ρk = cor (X (v ) , ck ) =
hX (v ) , ck i
,
kX (v ) k kck k
k = 1, . . . , d.
On a
kρ(v ) k2 =
kProj<c1 ,...,cd > (X (v ) )k2
kX (v ) k2
≤ 1.
La norme de kρ(v ) k repr´esente la qualit´
e de la repr´esentation de la
variable v par les d premiers axes.
32/39
Christophe Giraud
MAP 553 Apprentissage statistique
0.5
1.0
Cercle des corr´elations : d = 2
run200m
longjump
0.0
PC 2
highjump
hurdles
run800m
-0.5
shot
-1.0
javelin
-1.0
-0.5
0.0
0.5
1.0
PC 1
Les variables sont bien expliqu´ees par les deux premi`eres composantes
(proche du cercle)
Christophe Giraud
MAP 553 Apprentissage statistique
33/39
ACP: exemple 3
Exemple: budget de l’´etat fran¸cais sur 24 ann´ees.
Les variables: part du budget allou´e `a diff´erents postes (en
pourcentage du budget)
PVP:
CMI:
LOG:
ACS:
DEF:
DIV:
Pouvoirs publics
Commerce et industrie
Logement
Action sociale
D´efense
Divers
AGR:
TRA:
EDU:
ANC:
DET:
Agriculture
Travail
´
Education
Ancien combattants
Remboursement dette
donc p = 11
Observations: on a 24 observations pour chaque variable (n = 24)
34/39
Christophe Giraud
MAP 553 Apprentissage statistique
ACP: exemple 3
3
2
1
0
valeurs propres
4
5
valeurs propres
2
4
6
8
10
35/39
Christophe Giraud
MAP 553 Apprentissage statistique
ACP: exemple 3
Projection sur les 2 premiers axes
36/39
Christophe Giraud
MAP 553 Apprentissage statistique
ACP: exemple 3
Projection sur les 3 premiers axes
37/39
Christophe Giraud
MAP 553 Apprentissage statistique
ACP: exemple 3
Cercle des corr´
elations
Variables proches du cercle:
bien expliqu´ees par les deux
premiers axes.
38/39
Christophe Giraud
MAP 553 Apprentissage statistique
ACP : r´ecapitulatif
Axes principaux: a(1) ⊥ . . . ⊥ a(d) ∈ Rp vecteurs propres
b = 1 XT X,
orthonorm´es de Σ
n
Composantes principales: c1 ⊥ . . . ⊥ cd ∈ Rn , avec ck = Xa(k)
Projection des individus: ProjVd (Xi ) =
Pd
k=1 (ck )i
Projection des variables: Proj<c1 ,...,cd> (X (v ) ) =
a(k)
Pd
k=1 (a
(k) )
v
ck
Ratio de variance expliqu´
ee: par les d premi`eres composantes
λ1 + . . . + λd
.
λ1 + . . . + λp
39/39
Christophe Giraud
MAP 553 Apprentissage statistique