Я хочу перебрать все текстовые файлы в каталоге Hadoop и подсчитать все вхождения слова "ошибка". Есть ли способ сделать hadoop fs -ls /users/ubuntu/
для перечисления всех файлов в каталоге с API Apache Spark Scala?
Из приведенного первого примера контекст искры, по-видимому, имеет доступ только к отдельным файлам через нечто вроде:
val file = spark.textFile("hdfs://target_load_file.txt")
В моей проблеме я не знаю, сколько и имена файлов в папке HDFS заблаговременно. Посмотрел искровые контекстные документы, но не смог найти такую функциональность.