У меня есть следующая таблица как RDD:
Key Value
1 y
1 y
1 y
1 n
1 n
2 y
2 n
2 n
Я хочу удалить все дубликаты из Value
.
Выход должен выглядеть следующим образом:
Key Value
1 y
1 n
2 y
2 n
При работе в pyspark вывод должен появиться как список пар ключ-значение, например:
[(u'1',u'n'),(u'2',u'n')]
Я не знаю, как применять цикл for
здесь. В обычной программе Python это было бы очень легко.
Интересно, есть ли какая-то функция в pyspark
для того же самого.