В соответствии с docs функции collect_set
и collect_list
должны быть доступны в Spark SQL. Однако я не могу заставить его работать. Я запускаю Spark 1.6.0 с помощью Docker image.
Я пытаюсь сделать это в Scala:
import org.apache.spark.sql.functions._
df.groupBy("column1")
.agg(collect_set("column2"))
.show()
И получите следующую ошибку во время выполнения:
Exception in thread "main" org.apache.spark.sql.AnalysisException: undefined function collect_set;
Также попробовал это с помощью pyspark
, но он также терпит неудачу. Документы утверждают, что эти функции являются псевдонимами UDAF, но я не могу понять, как включить эти функции.
Как это исправить? Thanx!