Я имею дело с столбцом чисел в большом искровом DataFrame, и я хотел бы создать новый столбец, который хранит объединенный список уникальных чисел, которые появляются в этом столбце.
В основном именно то, что выполняет функция .collect_set. Тем не менее, мне нужно всего до 1000 элементов в агрегированном списке. Можно ли каким-либо образом передать этот параметр функции functions.collect_set() или любым другим способом получить только до 1000 элементов в агрегированном списке без использования UDAF?
Поскольку столбец настолько велик, я хотел бы избежать сбора всех элементов и последующего обрезки списка.
Спасибо!