В соответствии с Hadoop - The Definitive Guide
Логические записи, определяемые FileInputFormats, обычно не подходят аккуратно к блокам HDFS. Например, логические записи TextInputFormats - это строки, которые чаще пересекают границы HDFS. Это не влияет на функционирование ваших программных линий, например, не пропущено или не сломано, но его стоит знать, так как это означает, что локальные карты данных (то есть карты, которые работают на том же хосте, что и их входные данные) будут выполнять некоторые удаленные чтения. Небольшие накладные расходы это не является обычно значимым.
Предположим, что линия записи разбита на два блока (b1 и b2). Обработчик, обрабатывающий первый блок (b1), заметит, что последняя строка не имеет разделителя EOL и выбирает оставшуюся строку из следующего блока данных (b2).
Как обработчик, обрабатывающий второй блок (b2), определяет, что первая запись неполна и должна обрабатываться, начиная со второй записи в блоке (b2)?