У меня есть этот код python, который выполняется локально в фрейме pandas:
df_result = pd.DataFrame(df
.groupby('A')
.apply(lambda x: myFunction(zip(x.B, x.C), x.name))
Я хотел бы запустить это в PySpark, но у меня проблемы с объектом pyspark.sql.group.GroupedData.
Я пробовал следующее:
sparkDF
.groupby('A')
.agg(myFunction(zip('B', 'C'), 'A'))
который возвращает
KeyError: 'A'
Я предполагаю, что "A" больше не является столбцом, и я не могу найти эквивалент для x.name.
И затем
sparkDF
.groupby('A')
.map(lambda row: Row(myFunction(zip('B', 'C'), 'A')))
.toDF()
но получите следующую ошибку:
AttributeError: 'GroupedData' object has no attribute 'map'
Любые предложения будут действительно оценены!