Я подключен к кластеру с помощью ssh
, и я отправляю программу в кластер, используя
spark-submit --master yarn myProgram.py
Я хочу сохранить результат в текстовом файле, и я попытался использовать следующие строки:
counts.write.json("hdfs://home/myDir/text_file.txt")
counts.write.csv("hdfs://home/myDir/text_file.csv")
Однако ни одна из них не работает. Программа заканчивается, и я не могу найти текстовый файл в myDir
. Вы знаете, как я могу это сделать?
Кроме того, есть ли способ записи непосредственно на локальную машину?
EDIT: я узнал, что каталог home
не существует, поэтому теперь я сохраняю результат как:
counts.write.json("hdfs:///user/username/text_file.txt")
Но это создает каталог с именем text_file.txt
, и внутри у меня есть много файлов с частичными результатами внутри. Но я хочу получить один файл с конечным результатом внутри. Любые идеи, как я могу это сделать?