Как читать файл паркета, в автономном java-коде?

паркетные документы из cloudera показывают примеры интеграции со свиньей/ульем/импалой. но во многих случаях я хочу прочитать сам файл паркета для целей отладки.

есть ли простой читатель java для чтения файла паркета?

Спасибо Ян

Ответ 1

Вы можете использовать AvroParquetReader из библиотеки паркета-avro для чтения файла паркета в виде набора объектов AVRO GenericRecord.

Ответ 2

Старый метод: (не рекомендуется)

AvroParquetReader<GenericRecord> reader = new AvroParquetReader<GenericRecord>(file);
GenericRecord nextRecord = reader.read();

Новый метод:

ParquetReader<GenericRecord> reader = AvroParquetReader.<GenericRecord>builder(file).build();
GenericRecord nextRecord = reader.read();

Я получил это отсюда и успешно использовал это в своих тестах.