Каков синтаксис, чтобы отменить порядок для метода takeOrdered() для RDD в Spark?
Для бонусных очков, что такое синтаксис для пользовательского заказа для RDD в Spark?
Ответ 1
Обратный порядок
val seq = Seq(3,9,2,3,5,4)
val rdd = sc.parallelize(seq,2)
rdd.takeOrdered(2)(Ordering[Int].reverse)
Результатом будет Array (9,5)
Пользовательский заказ
Мы будем сортировать людей по возрасту.
case class Person(name:String, age:Int)
val people = Array(Person("bob", 30), Person("ann", 32), Person("carl", 19))
val rdd = sc.parallelize(people,2)
rdd.takeOrdered(1)(Ordering[Int].reverse.on(x=>x.age))
Результатом будет Array (Person (ann, 32))
Ответ 2
val rdd1 = sc.parallelize(List(("Hadoop PIG Hive"), ("Hive PIG PIG Hadoop"), ("Hadoop Hadoop Hadoop")))
val rdd2 = rdd1.flatMap(x => x.split(" ")).map(x => (x,1))
val rdd3 = rdd2.reduceByKey((x,y) => (x+y))