Я пытаюсь использовать разветвление свечей. Я пытался сделать что-то вроде
data.write.partitionBy("key").parquet("/location")
Здесь каждый раздел создает огромное количество паркетных файлов, что приводит к медленному чтению, если я пытаюсь читать из корневого каталога.
Чтобы этого не случилось, я попробовал
data.coalese(numPart).write.partitionBy("key").parquet("/location")
Это, однако, создает numPart количество паркетных файлов в каждом разделе. Теперь размер раздела отличается. Я бы в идеале хотел иметь отдельное объединение на раздел. Это, однако, не похоже на легкую вещь. Мне нужно посетить весь раздел, связанный с определенным номером, и сохранить его в отдельном месте.
Как использовать секционирование, чтобы избежать много файлов после записи?