Я использую TensorFlow для создания модели глубокого обучения. И новый для TensorFlow.
По какой-то причине моя модель имеет ограниченный размер партии, тогда этот ограниченный размер партии сделает модель высокой дисперсией.
Итак, я хочу использовать некоторый трюк, чтобы увеличить размер партии. Моя идея состоит в том, чтобы хранить градиенты каждой мини-партии, например, 64 мини-пакета, а затем суммировать градиенты вместе, использовать средние градиенты этих 64 мини-партий обучающих данных для обновления параметров модели.
Это означает, что для первых 63 мини-пакетов не обновляйте параметры, а после 64-разрядной партии обновите параметры модели только один раз.
Но поскольку TensorFlow основан на графике, кто-нибудь знает, как реализовать эту функцию?
Большое спасибо.