Machine Learning & Spiele: Probleme und Ideen von Samuel bis heute Giuliana Sabbatini 15.01.01
Download ReportTranscript Machine Learning & Spiele: Probleme und Ideen von Samuel bis heute Giuliana Sabbatini 15.01.01
Machine Learning & Spiele: Probleme und Ideen von Samuel bis heute Giuliana Sabbatini 15.01.01 Überblick 1. Warum Spiele für ML&KI 2. Samuels Dame-Spieler • Grundidee & Techniken 3. ML & Spiele nach Samuel • Problemstellungen • Methoden und deren Anwendung 4. Offene Punkte 1947-1967: Samuels Dame-Spieler • Samuels Projekt: “write a program to play checkers […], challenge the world champion and beat him” • Spiele als optimales Domain, um die Möglichkeiten von ML&KI zu beweisen und zu entwickeln • “Vorfahren” von ML Techniken, die nur Jahre bis Jahrzehnte später formalisiert wurden (zB Strategie zur Suche im Spielbaum) Warum Spiele? • Das Problem soll “einfach genug” und gleichzeitig “komplex genug” sein… • Keine deterministische Lösungstrategie • Endziel muß vorhanden und klar definiert sein • Zwischenziele sollten vorhanden und definierbar sein… • Regeln der Umgebung sollen genau und algorithmisch formulierbar sein Samuels Dame-Spieler/1 Zur Auswahl eines Zuges: • Bewertungsfunktion (Polynom) + Suchstrategie (Alpha-Beta) • “Quiescence”-Suche: instabile Stellungen erkennen und Tiefe der Suche adaptieren • Feature Subset Selection: automatische Auswahl aus einem vordefinierten Pool von Bewertungskriterien • Unterschiedliche Bewertungsfunktionen für unterschiedliche Spielphasen Samuels Dame-Spieler/2 Optimierung der Bewertung: • Rote Learning: oft auftretende Spielstellungen speichern, damit mehr Zeit zur Verfügung für tiefere Suche • Reinforcement Learning: Bewertung der aktuellen Spielstellung nach einer QuiescenceSuche mit Bewertung derselben Stellung nach einer Suche über mehrere Züge vergleichen • Self-Play: Dynamische vs stabile Version • Comparison Training auf Basis von Meisterschaft-Spielen Nach Samuel: Schwerpunkte • Verbesserte Methoden für Book Learning • Learning von Strategien zur Kontrolle der Suchprozedur (bzw deren Parameter) • Methoden zur Optimierung der Bewertungsfunktion Auswahl einer Training Strategie Nach Samuel: Techniken und Methoden/1 • Book Learning: – Vorgespeicherte Züge für Anfangs- und Endphase des Spiels (Opening Book) + automatische Erweiterung der vorhandenen Sammlung – Effiziente Speicherung von Spielstellungen, schnelle Suche der Einträge, Forgetting-Strategie, automatisch Generalisierung von Konzepten • Kontrolle der Suchprozedur: – Automatische Optimierung der Suchparameter für bessere bzw schnellere Suche (zB Quiescence-Kriterien, Reihenfolge der Bewertung) Nach Samuel: Techniken und Methoden/2 • Optimierung der Bewertungsfunktion: – Supervised Learning: Absolute Bewertungen von Spielstellungen sind vorhanden Problem: Auswahl und Bewertung solcher Spielstellungen + Overfitting! – Comparison Training: Relative Bewertungen für Paare von Zügen sind vorhanden Problem: Effizienz und Konsistenz! – Reinforcement Learning: Feedback über die Qualität jedes Zuges bzw jedes Matchs Problem: verspätetes oder ungenaues Feedback! – Temporal-Difference Learning und genetische Algorithmen (Spezialfälle von Reinforcement): Feedback wird “verteilt” auf alle entsprechende Züge Problem: Auswahl einer Verteilungsstrategie! Nach Samuel: Techniken und Methoden/3 • Training-Strategie: – Self-Play (besser geeignet für nichtdeterministische Spiele) Nachteile: Lokale Minima – Größe des Spielraums – Dynamische vs stabile Version Vorteile: Lokale Minima sind einfach zu vermeiden – Vorhandene Kenntnisse werden genauer geprueft – Computer vs Human – PCs Tourniere – Web Server Vorteile: Viele unterschiedlichen Gegner – Gegner derselben Kategorie - Fortschritt Offene Punkte • Automatische Generierung von “interpretierbaren” Bewertungskriterien (…neuronale Netze und genetische Algorithmen…) • Zwischen- vs Endziele (zB “Schichte”) • Verbesserte Analyse der Spielstellung (zB Erkennung von Muster und von relevanten Teilen des Spielbretts) • Opponent-Modellierung (Schwäche ausnutzen, Bewertung modifizieren) • Lineare vs. nichtlineare Bewertungsfunktionen: Effizienz, Konvergenz, lokales Overfitting, Komplexität der Konzepte • Stabilität, Konvergenz und Konsistenz der Performance • Problem der Wissensrepräsentation • Learning von Spielstrategien (nicht nur Spielstellungen klassifizieren) Literaturhinweise • A.Samuel (1959) “Some Studies in Machine Learning Using the Game of Checkers”, IBM Journal (1963 in Feigenbaum & Feldman “Computers and Thought”) • A.Samuel (1967) “Some Studies in Machine Learning Using the Game of Checkers. II-Recent Progress”, IBM Journal • A.Samuel (1960) “Programming Computers to Play Games”, Advances in Computers • J.Fürnkranz (2000) “Machine Learning in Games: A Survey”, OEFAI TR • J.Fürnkranz (1995-2000) “Bibliography on Machine Learning in Strategic Game Playing” (www.ai.univie.ac.at/˜juffi/) • J.Schaeffer (1999) “The Role of Games in Understanding Computational Intelligence”, IEEE Intelligent Systems • J.Pearl “Heuristics”