У меня есть 100 servers
в моем кластере.
В момент времени 17:35:00
все 100 servers
снабжены данными (размером 1[MB]
). Каждый сервер обрабатывает данные и производит вывод около 40[MB]
. Время обработки для каждого сервера 5[sec]
.
В момент времени 17:35:05
(5[sec] later
) необходимо, чтобы центральная машина считывала весь вывод из всех 100 servers
(помните, что общий размер данных: 100 [машины] x 40 [МБ] ~ 4 [GB]), объединить его и произвести выход.
, что весь процесс gathering the 4[GB] data
из всех 100 servers
занимает как можно меньше времени. Как мне решить эту проблему?
Существуют ли какие-либо существующие инструменты (в идеале, в python
, но будут рассмотрены другие решения), которые могут помочь?