У меня есть 100 servers в моем кластере.
В момент времени 17:35:00 все 100 servers снабжены данными (размером 1[MB]). Каждый сервер обрабатывает данные и производит вывод около 40[MB]. Время обработки для каждого сервера 5[sec].
В момент времени 17:35:05 (5[sec] later) необходимо, чтобы центральная машина считывала весь вывод из всех 100 servers (помните, что общий размер данных: 100 [машины] x 40 [МБ] ~ 4 [GB]), объединить его и произвести выход.
, что весь процесс gathering the 4[GB] data из всех 100 servers занимает как можно меньше времени. Как мне решить эту проблему?
Существуют ли какие-либо существующие инструменты (в идеале, в python, но будут рассмотрены другие решения), которые могут помочь?