Kapitel 3: Regression

Download Report

Transcript Kapitel 3: Regression

Kapitel 3: Regression
SS 2009
Maschinelles Lernen
und Neural Computation
59
Lineare Regression
• 1-dim Fall: Entspricht Korrelation
t  axin  b  
allgemein:
Rauschen
t  W xin  w0  
Abhängige
Variablen („target“)
unbhängige
Variablen
Wenn w0,b=0: Korrelation
SS 2009
Maschinelles Lernen
und Neural Computation
60
Perceptron als lineare Regression
• Einfaches Perceptron (lineare Transferfunktion) ist
identisch mit linearer Regression
• Bestimmen der Gewichte nach least squares:
Pseudoinverse
1. Ableitung 0 setzen 
pinv
WX
T
Matrix aller Targetvektoren
Gewichtsmatrix
Matrix aller Inputvektoren
• Kein „Lernen“ notwendig
(nur bei nichtlinearer Transferfunktion,
sigmoid = „logistische Regression“)
Pseudoinverse:
X
pinv


1
 X X XT
T
Siehe Bishop(1995), p.92
SS 2009
Maschinelles Lernen
und Neural Computation
61
Nichtlineare Regression
• Ähnlich wie bei Diskriminanzfunktion:
– Parametrisch: z.B. Polynom:
in 2
t  ax  bx
in
in3
 cx
  
– Entspricht wieder einer Vorverarbeitung
(auch andere denkbar,
wird wieder lineare Regression)
• Allgemein:
 
t  f xin  
Erwartungswert, kann durch NN angenähert werden
SS 2009
Maschinelles Lernen
und Neural Computation
62
Diskreter Fall
• Nimm für jeden
Inputwert Mittelwert
der Targets als
Erwartungswert
• kontinuierlicher Fall:
Teile Input in Intervalle
• Wenn Intervalle
beliebig klein
 nicht-parametrische
Schätzung der
Regression
SS 2009
Maschinelles Lernen
und Neural Computation
63
Kontinuierlicher Fall (Semiparametrisch)
• Modellierung des
Datengenerators:
Dichteschätzung der
gesamten Verteilung
px,t   pt | x px
• Likelihood:
n

 
L   p t i | xi p xi
i 1
Verteilung mit Erwartungswert f(xi)
SS 2009
Maschinelles Lernen
und Neural Computation
64
MLP als Universaler Funktionsapproximator
• Bsp: 1 Input, 1
Output, 5 Hidden
• MLP kann beliebige
Funktionen annähern
(Hornik et al. 1990)
• durch Überlagerung
von (gewichteten)
Sigmoiden
• Komplexität durch
das Zusammenspiel
vieler einfacher
Elemente
out
k
x
 
 gk x
in
 m hid in

out
  w f   wij xi  wihid
0   wj0
j 1
 i 1

n
Dehnen, spiegeln
SS 2009
Maschinelles Lernen
und Neural Computation
out
jk
verschieben
(bias)
65
Normalverteiltes Rauschen
• Likelihood:
n


n
LW    p t i | xi  
i 1
i 1

  
 f xi ; W  t i
1
exp 
2

2

2 

2


• Maximieren = -logL minimieren
(konstante Terme werden weggelassen, inkl. p(x))
n

 
E   f x ;W t
i
i 2
i 1
• Entspricht dem summierten quadratischen Fehler
(siehe Backpropagation)
SS 2009
Maschinelles Lernen
und Neural Computation
66
Training als Maximum Likelihood
• Minimierung des quadratischen Fehlers ist
Maximum Likelihood mit den Annahmen:
– Fehler ist in jedem Punkt normalverteilt, ~N(0,)
– Varianz dieser Verteilung ist konstant
• Varianz des Fehlers (des Rauschens):

 
n
1
 2   f xi ; Wopt  t i
n i 1
2
1
 Emin
n
(verbleibender normalisierter Fehler)
• Aber: das muss nicht gelten!
Erweiterungen möglich (Rauschmodell)
SS 2009
Maschinelles Lernen
und Neural Computation
67
Klassifikation als Regression
• MLP soll Posterior annähern
• Verteilung der Targets ist
keine Normalverteilung
• Bernoulli Verteilung:
n
xout=P(c|xin)
  1  x 
L x
ti
i
out
1t i
i
out
i 1
• Neg. log-Likelihood:
n


 
i
i
E   t i log xout
 1  t i log 1  xout

i 1
• „Cross-Entropy Fehler“
(für 2 Klassen; verallgemeinerbar auf n Klassen)
SS 2009
Maschinelles Lernen
und Neural Computation
68
Optimale Paarungen:
Transferfunktion (am Output) +Fehlerfunktion
• Regression:
– Linear + summierter quadratischer Fehler
• Klassifikation (Diskriminationsfunktion):
– Linear + summierter quadratischer Fehler
• Klassifikation (Posterior nach Bayes):
– Softmax+cross-entropy Fehler
– 2 Klassen, 1 Ouput: Sigmoid+cross-entropy
SS 2009
Maschinelles Lernen
und Neural Computation
69
Zusammenfassung
• NN sind allgemeine (semiparametrische) Methoden zur
nichtlinearen Regression
• NN schätzt Erwartungswert, um den die Targets streuen
• Lernen entspricht Maximum Likelihood
(Schätzen der Input/Target Dichte)
• Quadratischer Fehler entspricht konstantem
normalverteiltem Rauschen (bedingte Verteilung der
Targets)
• Erweiterungen auf nicht-Gauss’sches Rauschen denkbar
(Beispiel: Klassifikation)
SS 2009
Maschinelles Lernen
und Neural Computation
70