Я новичок в Spark. У меня есть большой набор данных из элементов [RDD], и я хочу разделить его на два точно равных размера разделов, поддерживающих порядок элементов. Я пробовал использовать RangePartitioner
как
var data = partitionedFile.partitionBy(new RangePartitioner(2, partitionedFile))
Это не дает удовлетворительного результата, потому что он делит грубый, но не точно равный размер, поддерживающий порядок элементов.
Например, если имеется 64 элемента, мы используем
RangePartitioner
, то он делит на 31 элемент и 33 элемента.
Мне нужен разделитель, так что я получаю ровно первые 32 элемента в одной половине, а другая половина содержит второй набор из 32 элементов. Не могли бы вы помочь мне, предложив использовать настраиваемый разделитель таким образом, чтобы я получал одинаковые по размеру две половины, поддерживая порядок элементов?