Какой лучший способ найти размер каждого раздела для данного RDD. Я пытаюсь отладить проблему с перекосом раздела, я пробовал это:
l = builder.rdd.glom().map(len).collect() # get length of each partition
print('Min Parition Size: ',min(l),'. Max Parition Size: ', max(l),'. Avg Parition Size: ', sum(l)/len(l),'. Total Partitions: ', len(l))
Он отлично работает для небольших RDD, но для больших RDD он дает ошибку OOM. Моя идея состоит в том, что glom()
вызывает это. Но так или иначе, просто хотел узнать, есть ли лучший способ сделать это?