Apache Pig v0.7 может читать gzipped файлы без каких-либо дополнительных усилий с моей стороны, например:
MyData = LOAD '/tmp/data.csv.gz' USING PigStorage(',') AS (timestamp, user, url);
Я могу обрабатывать эти данные и выводить их на диск в порядке:
PerUser = GROUP MyData BY user;
UserCount = FOREACH PerUser GENERATE group AS user, COUNT(MyData) AS count;
STORE UserCount INTO '/tmp/usercount' USING PigStorage(',');
Но выходной файл не сжимается:
/tmp/usercount/part-r-00000
Есть ли способ сообщить команде STORE
выводить содержимое в формате gzip? Обратите внимание, что в идеале я бы хотел получить ответ, применимый для Pig 0.6, поскольку я хочу использовать Amazon Elastic MapReduce; но если есть решение для любой версии Pig, я бы хотел ее услышать.