Я только начинаю использовать Apache Spark (в Scala, но язык не имеет значения). Я использую автономный режим, и я хочу обработать текстовый файл из локальной файловой системы (поэтому ничего не распространяется, как HDFS).
Согласно документации метода textFile
из SparkContext
, он будет
Прочитайте текстовый файл из HDFS, локальной файловой системы (доступной на всех узлы) или любой поддерживаемый Hadoop файловой системой URI, и вернуть его как RDD строк.
Для меня непонятно, может ли весь текстовый файл быть скопирован во все узлы или если входные данные уже должны быть разделены, например, если использовать 4 узла и файл csv с 1000 строк, по 250 строк на каждом node.
Я подозреваю, что каждый node должен иметь весь файл, но я не уверен.