Maschinelles Lernen mit multiplen Kernen Marius Kloft Technische Universität Berlin Kolloquium zum GI Disserationspreis, Dagstuhl, 14.

Download Report

Transcript Maschinelles Lernen mit multiplen Kernen Marius Kloft Technische Universität Berlin Kolloquium zum GI Disserationspreis, Dagstuhl, 14.

Maschinelles Lernen
mit multiplen Kernen
Marius Kloft
Technische Universität Berlin
Kolloquium zum GI Disserationspreis, Dagstuhl, 14. Mai 2012
Marius Kloft (TU Berlin)
1/12
Maschinelles Lernen
• Zielstellung
▫ Erlernen des Zusammenhanges
zweier
Zufallsgrößen und
 auf Grundlage von Beobachtungen
• Kernbasiertes Lernen:
• Beispiel
▫ Erkennung von Objekten in Bildern
Marius Kloft (TU Berlin)
Multiple Sichtweisen / Kerne
Raum
Form
2/12
(Lanckriet, 2004)
Sichtweisen wie
kombinieren?
Gewichtungen.
Farbe
Marius Kloft (TU Berlin)
3/12
Bestimmung der Gewichte?
• Stand der Forschung
(Bach, 2008)
▫ „Spärliche“ Gewichtungen
 Kerne / Sichtweisen werden
komplett ausgeschaltet
▫ Aber warum Information
verwerfen?
Marius Kloft (TU Berlin)
4/12
Von der Vision zur Wirklichkeit?
• Bisher: Spärliches Verfahren
▫ Empirisch ineffektiv in Anwendungen
(Gehler et al., Noble et al., ShaweTaylor et al., NIPS 2008)
• Dissertation: Neue Methodologie
▫ hat sich als Standard etabliert
Effektiv in
Anwendungen
In der Praxis wirksamer und effektiver
Durch bei Lernschranken: O(M/n)
Marius Kloft (TU Berlin)
Nicht-spärliche, Multiple, Kernbasierte Lernverfahren
Marius Kloft (TU Berlin)
Neue Methodologie
• Bestimmung der Gewichte?
▫ Model
 Kern
▫ Mathematisches Programm
5/12
(Kloft et al., ECML
2010, JMLR 2011)
• Generelle Formulierung
▫ Erstmalig beliebiger Verlust
▫ Erstmalig beliebige Normen
 z. B. lp-Normen:
 1-Norm führt zu Spärlichkeit:
Optimierung über Gewichte
Konvexes Problem.
Marius Kloft (TU Berlin)
6/12
Theoretische Fundamente
• Theoretische Klärung
▫ Aktives Thema
 NIPS Workshop 2010
• Folgerungen
▫ Lernschranke mit Rate
 bisher beste Rate:
(Cortes et al., ICML 2010)
▫ Wir beweisen :
 Theorem (Kloft & Blanchard).
Die lokale Rademacher-Komplexität von MKL ist beschränkt durch:
 Üblicherweise
 Zwei Größenordnungen besser für
(Kloft & Blanchard, NIPS 2011, JMLR 2012)
Marius Kloft (TU Berlin)
Beweisschritte
1.
Abschätzung der Originalklasse durch die zentrierten Klasse
2.
Abschätzung der Komplexität der zentrierten Klasse
3.
Ungleichungen von Khintchine-Kahane (1964) und Rosenthal (1970)
4.
Abschätzung der Komplexität der Originalklasse
5.
Umformulierung als Trunkierung der Spektren der Kerne
7/12
Marius Kloft (TU Berlin)
8/12
Optimierung
• Algorithmen
(Kloft et al., JMLR 2011)
1.
Newton-Methode
2.
Sequentielle, quadratischbedingte Programmierung mit
Höhenlinien-Projektionen
3.
• Implementierung
▫ In C++ (“SHOGUN Toolbox”)
 Matlab/Octave/Python/R support
▫ Laufzeit:
Blockkoordinaten-Algorithmus
 Alterniere
(Skizze)
 Löse (P) bezüglich w
 Löse (P) bezüglich :
%
 Bis Konvergenz
analytisch
(bewiesen)
~ 1-2 Größenordnungen effizienter
Marius Kloft (TU Berlin)
9/12
Anwendungsgebiet: Maschinelles Sehen
• Visuelle Objekterkennung
▫ Zielstellung: Annotation
visueller Medien (z. B. Bilder):
Flugzeug
▫ Motivation:
▫ inhaltsbasierter Bildzugriff
Fahrrad
Vogel
Marius Kloft (TU Berlin)
9/12
Anwendungsgebiet: Maschinelles Sehen
• Visuelle Objekterkennung
▫ Zielstellung: Annotation
visueller Medien (z. B. Bilder):
▫ Motivation:
▫ inhaltsbasierter Bildzugriff
• Empirische
Multiple Kerne
Analyse
▫ Datensatz:
PASCAL VOC’08
basierend auf
▫ Genauigkeitsgewinn
 Pixelfarben
gegenüber
uniformer Kerngewichtung:
 Formen
(Gradienten)
 lokale Merkmale
(SIFT-Wörter)
 räumliche Merkmale
Gewinner: ImageCLEF 2011
Photo Annotation challenge!
Marius Kloft (TU Berlin)
10/12
Zusammenfassung
Visuelle Objekterkennung
Als Standard etabliert:
Gewinner des ImageCLEF Wettbewerbs
Bioinformatik
Applikationen
Training mit > 100 000 DatenPunkten und > 1 000 Kernen
Scharfe Lernschranken
Genauerer TSS-Erkenner als Gewinner
internat. Vergleichs
11/12
Referenzen
▫
Abeel, Van de Peer, Saeys (2009). Toward a gold standard for promoter prediction evaluation.
Bioinformatics.
▫
Bach (2008). Consistency of the Group Lasso and Multiple Kernel Learning. Journal of Machine
Learning Research (JMLR).
▫
Kloft, Brefeld, Laskov, Sonnenburg (2008). Non-sparse Multiple Kernel Learning. NIPS Workshop
on Kernel Learning.
▫
Kloft, Brefeld, Sonnenburg, Laskov, Müller, Zien (2009). Efficient and Accurate Lp-norm Multiple
Kernel Learning. Advances in Neural Information Processing Systems (NIPS).
▫
Kloft, Rückert, Bartlett (2010). A Unifying View of Multiple Kernel Learning. ECML.
▫
Kloft, Blanchard (2011). The Local Rademacher Complexity of Lp-Norm Multiple Kernel Learning.
Advances in Neural Information Processing Systems (NIPS).
▫
Kloft, Brefeld, Sonnenburg, Zien (2011). Lp-Norm Multiple Kernel Learning. Journal of Machine
Learning Research (JMLR).
▫
Kloft, Blanchard (2012). On the Convergence Rate of Lp-norm Multiple Kernel Learning. Journal of
Machine Learning Research (JMLR), to appear.
▫
Lanckriet, Cristianini, Bartlett, El Ghaoui, Jordan (2004). Learning the Kernel Matrix with
Semidefinite Programming. Journal of Machine Learning Research (JMLR).
12/12
Vielen Dank für Ihre Aufmerksamkeit.
Für weitere Fragen stehen ich Ihnen gerne zur Verfügung.
Marius Kloft (TU Berlin)
Anwendungsgebiet: Bioinformatik
(Kloft et al., NIPS 2009, JMLR 2011)
•• Theoretische
Detektion vonAnalyse
▫▫ Einfluss
von lp-Norm auf Schranke:
Transkriptionsstartpunkten:
• Empirische Analyse
▫ Detektionsgenauigkeit (AUC):
Abb. aus Alberts et al. (2002)
• mittels Kernen basierend auf:
▫ Sequenzalignment
▫▫ Bestätigung
des Experimentes:
Nukleotidverteilung
  Stärkere
theoretische
Garantie für
downstream,
upstream
vorgeschlagenen Ansatz (p>1)
▫ Faltungseigenschaften
 Empirie nähert sich Theorie an für
 Stichprobengröße
Bindungsenergien, Winkel
▫ Höhere Genauigkeiten als
spärliches MKL sowie ARTS
 ARTS Gewinner eines Vergleichs
von 19 Modellen (Abeel et al., 2009)