У меня есть требование для загрузки данных из таблицы Hive с использованием spark-SQL HiveContext
и загрузки в HDFS. По умолчанию вывод DataFrame
из SQL имеет 2 раздела. Чтобы получить больше parallelism, мне нужно больше разделов из SQL. В HiveContext нет перегруженного метода, чтобы принять число параметров разделов.
Перераспределение RDD вызывает перетасовку и приводит к большему времени обработки.
val result = sqlContext.sql("select * from bt_st_ent")
Вывод журнала:
Starting task 0.0 in stage 131.0 (TID 297, aster1.com, partition 0,NODE_LOCAL, 2203 bytes)
Starting task 1.0 in stage 131.0 (TID 298, aster1.com, partition 1,NODE_LOCAL, 2204 bytes)
Я хотел бы знать, есть ли способ увеличить размер разделов вывода sql.