Я смотрю на эту реализацию SARSA-Lambda (Ie: SARSA со следами приемлемости), и там есть детали, которые я до сих пор не получаю.
(Изображение из http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)
Итак, я понимаю, что все Q (s, a) обновляются, а не только тот, который агент выбрал для данного временного шага. Я также понимаю, что E-матрица не является reset в начале каждого эпизода.
Предположим на минуту, что панель 3 на рис. 7.12 была конечным состоянием эпизода 1.
В начале эпизода 2 агент перемещается на север, а не на восток, и пусть это дает ему вознаграждение в размере -500. Не повлияет ли это на все государства, которые были посещены в предыдущем эпизоде?
Если идея состоит в том, чтобы вознаградить те состояния, которые были посещены в текущем эпизоде, то почему в матрице, содержащей все e (s, a) значения reset в начале каждого эпизода? Кажется, что с этой реализацией заявлений, которые были посещены в предыдущем эпизоде, "наказаны" или "вознаграждены" за действия, совершенные агентом в этом новом эпизоде.