Мы слишком поздно поняли, что архивирование наших файлов в формате GZip для обработки Hadoop - не такая уж отличная идея. GZip не расщепляется, и для справки вот проблемы, которые я не буду повторять:
- Очень простой вопрос о Hadoop и сжатых входных файлах
- сжатые файлы Hadoop gzip
- Входной файл Hadoop gzip с использованием только одного устройства отображения
- Почему unoop не может распаковать большой текстовый файл, а затем сжать разделители с помощью gzip?
Мой вопрос: является ли BZip2 лучшим архивным сжатием, которое позволит обрабатывать один файл архива параллельно Hadoop? Gzip определенно нет, и из моего чтения у LZO есть некоторые проблемы.