Я использую Spark 1.4 для своих исследований и борюсь с настройками памяти. Моя машина имеет 16 ГБ памяти, поэтому проблем нет, так как размер моего файла составляет всего 300 МБ. Хотя, когда я пытаюсь преобразовать Spark RDD в panda с помощью функции toPandas()
, я получаю следующую ошибку:
serialized results of 9 tasks (1096.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)
Я попытался исправить это, изменив файл spark-config и по-прежнему получая ту же ошибку. Я слышал, что это проблема с искрой 1.4 и интересно, знаете ли вы, как это решить. Любая помощь очень ценится.