У меня есть несколько тысяч заданий для работы в кластере slurm с 16 узлами. Эти задания должны выполняться только на подмножестве доступных узлов размера 7. Некоторые из задач распараллеливаются, поэтому используют всю мощность процессора одного node, в то время как другие однопоточные. Поэтому несколько заданий должны выполняться одновременно на одном node. Ни одна из задач не должна появляться на нескольких узлах.
В настоящее время я отправляю каждое из заданий с помощью:
sbatch --nodelist=myCluster[10-16] myScript.sh
Однако этот параметр заставляет slurm ждать, пока отправленное задание не завершится, и, следовательно, оставит 3 узла полностью неиспользованными и, в зависимости от задачи (многоточечной или однопоточной), также текущий активный node может находиться под низкой нагрузкой с точки зрения возможностей ЦП.
Каковы наилучшие параметры sbatch
, которые заставляют slurm одновременно запускать несколько заданий на указанных узлах?