Я пытаюсь дать полезную информацию, но я далек от того, чтобы быть инженером данных.
В настоящее время я использую pandas pythas для выполнения длинной серии преобразований для моих данных, которые содержат много входов (в настоящее время CSV и файлы excel). Выходы - это несколько файлов excel. Я хотел бы иметь возможность выполнять запланированные контролируемые пакетные задания с параллельным вычислением (я имею в виду не так последовательно, как то, что я делаю с пандами), один раз в месяц.
Я действительно не знаю, Beam или Airflow, я быстро прочитал документы, и кажется, что оба могут достичь этого. Какой из них я должен использовать?