Я выполняю некоторые операции в PySpark и недавно увеличил количество узлов в моей конфигурации (которая находится на Amazon EMR). Однако, хотя я увеличил число узлов (с 4 до 12) в три раза, производительность, похоже, не изменилась. Таким образом, я хотел бы видеть, видны ли новые узлы Spark.
Я вызываю следующую функцию:
sc.defaultParallelism
>>>> 2
Но я думаю, что это говорит мне общее количество задач, распределенных для каждого node, а не общее количество кодов, которые может видеть Spark.
Как мне узнать количество узлов, которые PySpark использует в моем кластере?