Kapitel 3: Regression
Download
Report
Transcript Kapitel 3: Regression
Kapitel 3: Regression
SS 2009
Maschinelles Lernen
und Neural Computation
59
Lineare Regression
• 1-dim Fall: Entspricht Korrelation
t axin b
allgemein:
Rauschen
t W xin w0
Abhängige
Variablen („target“)
unbhängige
Variablen
Wenn w0,b=0: Korrelation
SS 2009
Maschinelles Lernen
und Neural Computation
60
Perceptron als lineare Regression
• Einfaches Perceptron (lineare Transferfunktion) ist
identisch mit linearer Regression
• Bestimmen der Gewichte nach least squares:
Pseudoinverse
1. Ableitung 0 setzen
pinv
WX
T
Matrix aller Targetvektoren
Gewichtsmatrix
Matrix aller Inputvektoren
• Kein „Lernen“ notwendig
(nur bei nichtlinearer Transferfunktion,
sigmoid = „logistische Regression“)
Pseudoinverse:
X
pinv
1
X X XT
T
Siehe Bishop(1995), p.92
SS 2009
Maschinelles Lernen
und Neural Computation
61
Nichtlineare Regression
• Ähnlich wie bei Diskriminanzfunktion:
– Parametrisch: z.B. Polynom:
in 2
t ax bx
in
in3
cx
– Entspricht wieder einer Vorverarbeitung
(auch andere denkbar,
wird wieder lineare Regression)
• Allgemein:
t f xin
Erwartungswert, kann durch NN angenähert werden
SS 2009
Maschinelles Lernen
und Neural Computation
62
Diskreter Fall
• Nimm für jeden
Inputwert Mittelwert
der Targets als
Erwartungswert
• kontinuierlicher Fall:
Teile Input in Intervalle
• Wenn Intervalle
beliebig klein
nicht-parametrische
Schätzung der
Regression
SS 2009
Maschinelles Lernen
und Neural Computation
63
Kontinuierlicher Fall (Semiparametrisch)
• Modellierung des
Datengenerators:
Dichteschätzung der
gesamten Verteilung
px,t pt | x px
• Likelihood:
n
L p t i | xi p xi
i 1
Verteilung mit Erwartungswert f(xi)
SS 2009
Maschinelles Lernen
und Neural Computation
64
MLP als Universaler Funktionsapproximator
• Bsp: 1 Input, 1
Output, 5 Hidden
• MLP kann beliebige
Funktionen annähern
(Hornik et al. 1990)
• durch Überlagerung
von (gewichteten)
Sigmoiden
• Komplexität durch
das Zusammenspiel
vieler einfacher
Elemente
out
k
x
gk x
in
m hid in
out
w f wij xi wihid
0 wj0
j 1
i 1
n
Dehnen, spiegeln
SS 2009
Maschinelles Lernen
und Neural Computation
out
jk
verschieben
(bias)
65
Normalverteiltes Rauschen
• Likelihood:
n
n
LW p t i | xi
i 1
i 1
f xi ; W t i
1
exp
2
2
2
2
• Maximieren = -logL minimieren
(konstante Terme werden weggelassen, inkl. p(x))
n
E f x ;W t
i
i 2
i 1
• Entspricht dem summierten quadratischen Fehler
(siehe Backpropagation)
SS 2009
Maschinelles Lernen
und Neural Computation
66
Training als Maximum Likelihood
• Minimierung des quadratischen Fehlers ist
Maximum Likelihood mit den Annahmen:
– Fehler ist in jedem Punkt normalverteilt, ~N(0,)
– Varianz dieser Verteilung ist konstant
• Varianz des Fehlers (des Rauschens):
n
1
2 f xi ; Wopt t i
n i 1
2
1
Emin
n
(verbleibender normalisierter Fehler)
• Aber: das muss nicht gelten!
Erweiterungen möglich (Rauschmodell)
SS 2009
Maschinelles Lernen
und Neural Computation
67
Klassifikation als Regression
• MLP soll Posterior annähern
• Verteilung der Targets ist
keine Normalverteilung
• Bernoulli Verteilung:
n
xout=P(c|xin)
1 x
L x
ti
i
out
1t i
i
out
i 1
• Neg. log-Likelihood:
n
i
i
E t i log xout
1 t i log 1 xout
i 1
• „Cross-Entropy Fehler“
(für 2 Klassen; verallgemeinerbar auf n Klassen)
SS 2009
Maschinelles Lernen
und Neural Computation
68
Optimale Paarungen:
Transferfunktion (am Output) +Fehlerfunktion
• Regression:
– Linear + summierter quadratischer Fehler
• Klassifikation (Diskriminationsfunktion):
– Linear + summierter quadratischer Fehler
• Klassifikation (Posterior nach Bayes):
– Softmax+cross-entropy Fehler
– 2 Klassen, 1 Ouput: Sigmoid+cross-entropy
SS 2009
Maschinelles Lernen
und Neural Computation
69
Zusammenfassung
• NN sind allgemeine (semiparametrische) Methoden zur
nichtlinearen Regression
• NN schätzt Erwartungswert, um den die Targets streuen
• Lernen entspricht Maximum Likelihood
(Schätzen der Input/Target Dichte)
• Quadratischer Fehler entspricht konstantem
normalverteiltem Rauschen (bedingte Verteilung der
Targets)
• Erweiterungen auf nicht-Gauss’sches Rauschen denkbar
(Beispiel: Klassifikation)
SS 2009
Maschinelles Lernen
und Neural Computation
70