Machine Learning & Spiele: Probleme und Ideen von Samuel bis heute Giuliana Sabbatini 15.01.01

Download Report

Transcript Machine Learning & Spiele: Probleme und Ideen von Samuel bis heute Giuliana Sabbatini 15.01.01

Machine Learning & Spiele:
Probleme und Ideen
von Samuel bis heute
Giuliana Sabbatini
15.01.01
Überblick
1. Warum Spiele für ML&KI
2. Samuels Dame-Spieler
• Grundidee & Techniken
3. ML & Spiele nach Samuel
• Problemstellungen
• Methoden und deren Anwendung
4. Offene Punkte
1947-1967: Samuels Dame-Spieler
• Samuels Projekt: “write a program to play
checkers […], challenge the world champion and
beat him”
• Spiele als optimales Domain, um die Möglichkeiten
von ML&KI zu beweisen und zu entwickeln
• “Vorfahren” von ML Techniken, die nur Jahre bis
Jahrzehnte später formalisiert wurden (zB
Strategie zur Suche im Spielbaum)
Warum Spiele?
• Das Problem soll “einfach genug” und gleichzeitig
“komplex genug” sein…
• Keine deterministische Lösungstrategie
• Endziel muß vorhanden und klar definiert sein
• Zwischenziele sollten vorhanden und definierbar
sein…
• Regeln der Umgebung sollen genau und
algorithmisch formulierbar sein
Samuels Dame-Spieler/1
Zur Auswahl eines Zuges:
• Bewertungsfunktion (Polynom) + Suchstrategie
(Alpha-Beta)
• “Quiescence”-Suche: instabile Stellungen
erkennen und Tiefe der Suche adaptieren
• Feature Subset Selection: automatische
Auswahl aus einem vordefinierten Pool von
Bewertungskriterien
• Unterschiedliche Bewertungsfunktionen für
unterschiedliche Spielphasen
Samuels Dame-Spieler/2
Optimierung der Bewertung:
• Rote Learning: oft auftretende Spielstellungen
speichern, damit mehr Zeit zur Verfügung für
tiefere Suche
• Reinforcement Learning: Bewertung der
aktuellen Spielstellung nach einer QuiescenceSuche mit Bewertung derselben Stellung nach
einer Suche über mehrere Züge vergleichen
• Self-Play: Dynamische vs stabile Version
• Comparison Training auf Basis von
Meisterschaft-Spielen
Nach Samuel: Schwerpunkte
• Verbesserte Methoden für Book
Learning
• Learning von Strategien zur Kontrolle
der Suchprozedur (bzw deren
Parameter)
• Methoden zur Optimierung der
Bewertungsfunktion Auswahl einer
Training Strategie
Nach Samuel: Techniken und
Methoden/1
• Book Learning:
– Vorgespeicherte Züge für Anfangs- und Endphase des
Spiels (Opening Book) + automatische Erweiterung der
vorhandenen Sammlung
– Effiziente Speicherung von Spielstellungen, schnelle
Suche der Einträge, Forgetting-Strategie, automatisch
Generalisierung von Konzepten
• Kontrolle der Suchprozedur:
– Automatische Optimierung der Suchparameter für
bessere bzw schnellere Suche (zB Quiescence-Kriterien,
Reihenfolge der Bewertung)
Nach Samuel: Techniken und
Methoden/2
• Optimierung der Bewertungsfunktion:
– Supervised Learning: Absolute Bewertungen von
Spielstellungen sind vorhanden
Problem: Auswahl und Bewertung solcher
Spielstellungen + Overfitting!
– Comparison Training: Relative Bewertungen für Paare
von Zügen sind vorhanden
Problem: Effizienz und Konsistenz!
– Reinforcement Learning: Feedback über die Qualität
jedes Zuges bzw jedes Matchs
Problem: verspätetes oder ungenaues Feedback!
– Temporal-Difference Learning und genetische
Algorithmen (Spezialfälle von Reinforcement):
Feedback wird “verteilt” auf alle entsprechende Züge
Problem: Auswahl einer Verteilungsstrategie!
Nach Samuel: Techniken und
Methoden/3
• Training-Strategie:
– Self-Play (besser geeignet für nichtdeterministische
Spiele)
Nachteile: Lokale Minima – Größe des Spielraums
– Dynamische vs stabile Version
Vorteile: Lokale Minima sind einfach zu vermeiden –
Vorhandene Kenntnisse werden genauer geprueft
– Computer vs Human
– PCs Tourniere
– Web Server
Vorteile: Viele unterschiedlichen Gegner – Gegner
derselben Kategorie - Fortschritt
Offene Punkte
• Automatische Generierung von “interpretierbaren”
Bewertungskriterien (…neuronale Netze und genetische
Algorithmen…)
• Zwischen- vs Endziele (zB “Schichte”)
• Verbesserte Analyse der Spielstellung (zB Erkennung
von Muster und von relevanten Teilen des Spielbretts)
• Opponent-Modellierung (Schwäche ausnutzen,
Bewertung modifizieren)
• Lineare vs. nichtlineare Bewertungsfunktionen:
Effizienz, Konvergenz, lokales Overfitting, Komplexität
der Konzepte
• Stabilität, Konvergenz und Konsistenz der Performance
• Problem der Wissensrepräsentation
• Learning von Spielstrategien (nicht nur Spielstellungen
klassifizieren)
Literaturhinweise
• A.Samuel (1959) “Some Studies in Machine Learning Using
the Game of Checkers”, IBM Journal (1963 in Feigenbaum &
Feldman “Computers and Thought”)
• A.Samuel (1967) “Some Studies in Machine Learning Using
the Game of Checkers. II-Recent Progress”, IBM Journal
• A.Samuel (1960) “Programming Computers to Play Games”,
Advances in Computers
• J.Fürnkranz (2000) “Machine Learning in Games: A Survey”,
OEFAI TR
• J.Fürnkranz (1995-2000) “Bibliography on Machine Learning
in Strategic Game Playing” (www.ai.univie.ac.at/˜juffi/)
• J.Schaeffer (1999) “The Role of Games in Understanding
Computational Intelligence”, IEEE Intelligent Systems
• J.Pearl “Heuristics”