Спасибо
Как вычислить точную медианную с Apache Spark?
Ответ 1
Вам нужно отсортировать RDD и взять элемент в среднем или среднем из двух элементов. Вот пример с RDD [Int]:
import org.apache.spark.SparkContext._
val rdd: RDD[Int] = ???
val sorted = rdd.sortBy(identity).zipWithIndex().map {
case (v, idx) => (idx, v)
}
val count = sorted.count()
val median: Double = if (count % 2 == 0) {
val l = count / 2 - 1
val r = l + 1
(sorted.lookup(l).head + sorted.lookup(r).head).toDouble / 2
} else sorted.lookup(count / 2).head.toDouble
Ответ 2
Используя Spark 2. 0+ и API DataFrame, вы можете использовать метод approxQuantile
:
def approxQuantile(col: String, probabilities: Array[Double], relativeError: Double)
Он также будет работать с несколькими столбцами одновременно с Spark версии 2.2. Установив probabilites
в Array(0.5)
и relativeError
в 0, он вычислит точную медиану. Из документации:
Относительная целевая точность для достижения (больше или равно 0). Если установлено в ноль, точные квантили вычисляются, что может быть очень дорого.
Несмотря на это, кажется, есть некоторые проблемы с точностью при установке relativeError
ошибки 0, смотрите вопрос здесь. Низкая ошибка, близкая к 0, в некоторых случаях будет работать лучше (зависит от версии Spark).
Небольшой рабочий пример, который вычисляет медиану чисел от 1 до 99 (включительно) и использует низкую relativeError
:
val df = (0 to 99).toDF("num")
val median = df.stat.approxQuantile("num", Array(0.5), 0.001)(0)
println(median)
Медиана вернулась 50,0.