У меня есть куча небольших файлов в каталоге HDFS. Хотя объем файлов относительно невелик, объем обработки в файле огромен. То есть, файл 64mb, который является разделенным по умолчанию размером для TextInputFormat, занимает несколько часов для обработки.
Что мне нужно сделать, это уменьшить размер разделения, чтобы я мог использовать еще больше узлов для задания.
Итак, вопрос в том, как можно разбить файлы, скажем, 10kb? Нужно ли мне реализовать мои собственные InputFormat и RecordReader для этого, или есть ли какой-либо параметр для установки? Благодарю.