Почему Apache-Spark - Python настолько медленный локально по сравнению с пандами?

Новичок Искры здесь. Недавно я начал играть со Spark на моей локальной машине на двух ядрах с помощью команды:

pyspark --master local[2]

У меня есть текстовый файл 393Mb, который имеет почти миллион строк. Я хотел выполнить некоторые операции с данными. Я использую встроенные функции фрейма данных PySpark для выполнения простых операций, таких как groupBy, sum, max, stddev.

Тем не менее, когда я выполняю те же самые операции в пандах с точно таким же набором данных, панды, кажется, побеждают pyspark с огромным запасом с точки зрения задержки.

Мне было интересно, что может быть причиной этого. У меня есть пара мыслей.

Делают ли встроенные функции процесс сериализации/десериализации неэффективным? Если да, каковы альтернативы им?
Является ли набор данных слишком маленьким, чтобы он не мог превысить накладные расходы базовой JVM, на которой работает искра?

Спасибо за поиск. Очень признателен.

Ответ 1

Так как:

Apache Spark - это сложная структура, предназначенная для распределения обработки по сотням узлов, обеспечивая при этом правильность и отказоустойчивость. Каждое из этих свойств имеет значительную стоимость.
Потому что чисто внутренняя обработка (Pandas) в памяти на порядок быстрее, чем дисковый и сетевой (даже локальный) I/O (Spark).
Поскольку параллелизм (и распределенная обработка) значительно увеличивает накладные расходы, и даже с оптимальной (смущающей параллельной нагрузкой) не гарантирует каких-либо улучшений производительности.
Потому что локальный режим не предназначен для повышения производительности. Он используется для тестирования.
И последнее, но не менее важное: 2 ядра, работающие на 393 МБ, недостаточно, чтобы увидеть какие-либо улучшения производительности, а один узел не предоставляет возможности для распространения
Также Spark: несогласованный номер производительности при масштабировании числа ядер. Почему pyspark настолько медленнее обнаруживает максимальное количество столбцов? Почему моя Spark работает медленнее, чем чистый Python? Сравнение производительности

Вы можете так долго продолжать...