Я запустил кластер следующим образом:
/usr/lib/spark/bin/spark-submit --class MyClass --master yarn-cluster--num-executors 3 --driver-memory 10g --executor-memory 10g --executor-cores 4 /path/to/jar.jar
Первое, что я делаю, - это прочитать большой текстовый файл и посчитать его:
val file = sc.textFile("/path/to/file.txt.gz")
println(file.count())
При этом я вижу, что только один из моих узлов фактически просматривает файл и выполняет подсчет (потому что я вижу только одну задачу). Это ожидалось? Должен ли я переделать свой RDD впоследствии или когда я использую функции уменьшения карты, будет ли Spark делать это для меня?