Я читал Dred Distributed Tensorflow Doc, и он упоминает, что при асинхронном обучении
каждая реплика графика имеет независимый цикл обучения, который выполняется без согласования.
Из того, что я понимаю, если мы используем параметр-сервер с архитектурой данных parallelism, это означает, что каждый рабочий вычисляет градиенты и обновляет свои собственные веса, не заботясь о других обновлениях работников для распределенной тренировки Neural Network. Поскольку все веса распределяются на сервере параметров (ps), я думаю, что ps все равно должен каким-то образом скоординировать (или суммировать) весовые обновления со всех рабочих. Интересно, как работает агрегация в асинхронном обучении. Или более общие слова, как работает асинхронное обучение в распределенном Tensorflow?