Я хочу сгруппировать по заданному полю и получить результат с сгруппированными полями. Ниже приведен пример того, чего я пытаюсь достичь: -
Представьте таблицу с именем "sample_table" с двумя столбцами, как показано ниже: -
F1 F2
001 111
001 222
001 123
002 222
002 333
003 555
Я хочу написать Hive Query, который даст следующий результат: -
001 [111, 222, 123]
002 [222, 333]
003 [555]
В Pig это может быть очень легко достигнуто примерно следующим образом: -
grouped_relation = GROUP sample_table BY F1;
Может кто-нибудь предложить, если есть простой способ сделать это в Улье? Я могу думать о том, чтобы написать функцию, определяемую пользователем (UDF), но это может быть очень трудоемким вариантом.