Повторная инициализация отслеживания соответствия между эпизодами в реализации SARSA-Lambda

Я смотрю на эту реализацию SARSA-Lambda (Ie: SARSA со следами приемлемости), и там есть детали, которые я до сих пор не получаю.

(Изображение из http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)

Итак, я понимаю, что все Q (s, a) обновляются, а не только тот, который агент выбрал для данного временного шага. Я также понимаю, что E-матрица не является reset в начале каждого эпизода.

Предположим на минуту, что панель 3 на рис. 7.12 была конечным состоянием эпизода 1.

В начале эпизода 2 агент перемещается на север, а не на восток, и пусть это дает ему вознаграждение в размере -500. Не повлияет ли это на все государства, которые были посещены в предыдущем эпизоде?

Если идея состоит в том, чтобы вознаградить те состояния, которые были посещены в текущем эпизоде, то почему в матрице, содержащей все e (s, a) значения reset в начале каждого эпизода? Кажется, что с этой реализацией заявлений, которые были посещены в предыдущем эпизоде, "наказаны" или "вознаграждены" за действия, совершенные агентом в этом новом эпизоде.

Ответ 1

Я согласен с вами на 100%. В случае неудачи до reset электронная матрица в начале каждого эпизода имеет именно те проблемы, которые вы описываете. Насколько я могу судить, это ошибка в псевдокоде. Ссылка, которую вы цитируете, очень популярна, поэтому ошибка распространилась на многие другие ссылки. Тем не менее, этот хорошо цитируемый документ очень четко указывает, что e-matrix следует повторно инициализировать между эпизодами:

Трассировочные трассы инициализируются до нуля, а в эпизодических задачах они повторно инициализируются до нуля после каждого эпизода.

В качестве еще одного доказательства, методы этой статьи:

След, e, устанавливается в 0 в начале каждого эпизода.

и сноска № 3 от этой статьи:

... следы соответствия были reset равными нулю в начале каждого испытания.

предполагают, что это обычная практика, так как оба относятся к повторной инициализации между эпизодами. Я ожидаю, что таких примеров гораздо больше.

На практике многие применения этого алгоритма не связаны с несколькими эпизодами или имеют такие длинные эпизоды относительно их скоростей распада, что это не является проблемой. Я ожидаю, что именно поэтому он еще не уточняется в других местах в Интернете.