Что такое политика в обучении с подкреплением?

Я видел такие слова как:

Политика определяет способ поведения обучающегося в данный момент. Грубо говоря, политика представляет собой сопоставление воспринимаемых состояний окружающей среды с действиями, которые должны быть предприняты в этих государствах.

Но все еще не до конца понял. Что именно представляет собой политика в обучении с подкреплением?

Ответ 1

Определение правильное, хотя и не сразу очевидное, если вы видите его впервые. Позвольте мне сказать так: политика - это стратегия агента.

Например, представьте себе мир, в котором робот перемещается по комнате, и задача состоит в том, чтобы добраться до целевой точки (x, y), где она получает награду. Здесь:

  • Комната - это среда.
  • Текущее положение робота - это состояние
  • Политика - это то, что делает агент для выполнения этой задачи:

    • немые роботы просто блуждают случайно, пока они случайно не окажутся в правильном месте (политика № 1)
    • другие могут по какой-то причине научиться идти по стенам большей части маршрута (политика № 2).
    • умные роботы планируют маршрут в своей "голове" и идут прямо к цели (политика № 3).

Очевидно, что некоторые политики лучше других, и есть несколько способов их оценки, а именно функция значения состояния и функция значения действия. Целью RL является изучение лучшей политики. Теперь определение должно иметь больше смысла (обратите внимание, что в контексте время лучше понимается как состояние):

Политика определяет способ обучения агента в определенный момент времени.

Формально

Более формально мы должны сначала определить процесс принятия решения Маркова (MDP) как кортеж (S, A, P, R, y), где:

  • S - конечный набор состояний
  • A - конечный набор действий
  • P - матрица вероятности перехода состояния (вероятность завершения в состоянии для каждого текущего состояния и каждого действия)
  • R - это функция вознаграждения с учетом состояния и действия
  • y - коэффициент дисконтирования от 0 до 1

Затем политика π является распределением вероятности по действиям, данным состояниям. Это вероятность каждого действия, когда агент находится в определенном состоянии (конечно, я пропускаю здесь много деталей). Это определение соответствует второй части вашего определения.

Я очень рекомендую курс David Silver RL на YouTube. В первых двух лекциях основное внимание уделяется МДП и политике.

Ответ 2

Простыми словами, в простейшем случае политика π - это функция, которая принимает в качестве входного состояния состояние s и возвращает действие a. То есть: π(s) → a

Таким образом, политика обычно используется агентом для принятия решения о том, какое действие a должно выполняться, когда оно находится в заданном состоянии s.

Иногда политика может быть стохастической, а не детерминированной. В таком случае вместо возвращения уникального действия a политика возвращает распределение вероятности по набору действий.

В общем, целью любого алгоритма RL является изучение оптимальной политики, которая достигает определенной цели.

Ответ 3

Вот краткий ответ: политика - это "мышление" агента. Это отображение, когда вы находитесь в каком-то состоянии s, какое действие a должно принять агент? Политики можно рассматривать как таблицу поиска:

state----action----probability/'goodness' of taking the action
  1         1                     0.6
  1         2                     0.4
  2         1                     0.3
  2         2                     0.7

Если вы находитесь в состоянии 1, вы бы (если принять жадную стратегию) выберите действие 1. Если вы находитесь в состоянии 2, вы должны выбрать действие 2.