Reinforcement Learning, Teil 2: Q-Learning-Algorithmus im Spiel Frozen Lake

Auf dünnem Eis

Gerhard Völkl

Momentan gilt das Q-Learning als populärster Algorithmus im Reinforcement Learning. Ein Beispielprogramm zeigt das Lernen der Q-Funktion mithilfe einer Tabelle und ein zweites Beispiel löst dieselbe Aufgabe unter Einsatz eines neuronalen Netzes.

In diesem zweiten Teil des Tutorials geht es um den Q-Learning-Algorithmus, der sich gut dazu eignet, Videospiele selbstständig zu erlernen und sogar überdurchschnittlich gut zu spielen. Die Idee ist, dass eine Anwendung die Q-Funktion lernt, die beschreibt, wie hoch die langfristige Belohnung für eine bestimmte Aktion in einer konkreten Spielsituation ist. Damit kann ein Programm die Aktion auswählen, die die höchste Belohnung verspricht. Will man damit rechnen, benötigt der Computer eine Formel der Art

Q(s,a)=?

Ein Agent befindet sich an einer bestimmten Position beispielsweise in einem Labyrinth. Er ist in der Situation s und geht einen Schritt nach vorn, was der Aktion a entspricht. Dadurch löst er einen Schalter aus und ein Goldklumpen fällt von der Decke, die direkte Belohnung r. Was die Aktion a unmittelbar zur Folge hat, ist damit bekannt. Was fehlt, ist die Belohnung, die die nächsten Schritte bringen werden: