Я пытаюсь получить агента для изучения движений мыши, необходимых для наилучшего выполнения какой-либо задачи в настройке обучения подкрепления (т.е. сигнал вознаграждения является единственной обратной связью для обучения).
Я надеюсь использовать метод Q-обучения, но пока я нашел способ распространения этого метода на непрерывные пространства состояний, я не могу похоже, выясняют, как решить проблему с непрерывным пространством действий.
Я мог бы просто заставить все движения мыши иметь определенную величину и только в определенном количестве разных направлений, но любой разумный способ сделать действия дискретными приведет к огромному пространству действий. Поскольку стандартное Q-обучение требует от агента оценки всех возможных действий, такое приближение не решает проблему в каком-либо практическом смысле.