Скажем, у меня есть PairRDD как таковой (очевидно, что гораздо больше данных в реальной жизни, предполагайте миллионы записей):
val scores = sc.parallelize(Array(
("a", 1),
("a", 2),
("a", 3),
("b", 3),
("b", 1),
("a", 4),
("b", 4),
("b", 2)
))
Каков наиболее эффективный способ создания RDD с верхним 2 баллы за ключ?
val top2ByKey = ...
res3: Array[(String, Int)] = Array((a,4), (a,3), (b,4), (b,3))