Итак, я пытаюсь изучить Spark с помощью Python (Pyspark). Я хочу знать, как работает функция mapPartitions
. Это то, что вводит он и какой результат он дает. Я не мог найти подходящего примера из Интернета. Допустим, у меня есть объект RDD, содержащий списки, например ниже.
[ [1, 2, 3], [3, 2, 4], [5, 2, 7] ]
И я хочу удалить элемент 2 из всех списков, как бы достичь этого, используя mapPartitions
.