Мне сказали, что на "remote-host-num1: 7077" работает искровой кластер с несколькими узлами на "remote-host-num2: 7077" "remote-host-num3: 7077".
Если я пишу программу, которая выполняет следующие действия:
SparkConf conf = new SparkConf().setAppName("org.sparkexample.TestCount").setMaster("spark://remote-host-num1:7077");
JavaSparkContext sc = new JavaSparkContext(conf);
и создайте JavaRDD "myrdd" из sc.textFile и выполните операцию, например, получите свои подсчеты с помощью "myrdd.count()". Используется ли эта операция для всех машин в удаленном кластере?
Я хочу убедиться, что я не хочу использовать spark-submit "myjarfile", если я могу его избежать. Если я должен, что мне делать? Если мне нужно использовать spark-submit, чтобы воспользоваться распределенной природой искры на нескольких машинах, есть ли способ сделать это программно в Java?