Там находится DataFrame в pyspark с данными, как показано ниже:
user_id object_id score
user_1 object_1 3
user_1 object_1 1
user_1 object_2 2
user_2 object_1 5
user_2 object_2 2
user_2 object_2 6
Я ожидаю, что возвратит 2 записи в каждой группе с тем же user_id, который должен иметь самый высокий балл. Следовательно, результат должен выглядеть следующим образом:
user_id object_id score
user_1 object_1 3
user_1 object_2 2
user_2 object_2 6
user_2 object_1 5
Я действительно новичок в pyspark, может ли кто-нибудь дать мне фрагмент кода или портал для соответствующей документации по этой проблеме? Большое спасибо!