Итак, у меня есть только 1 файл паркета, который я читаю с помощью Spark (используя материал SQL), и я бы хотел, чтобы он обрабатывался со 100 разделами. Я попытался установить spark.default.parallelism
на 100, мы также попытались изменить сжатие паркета на none (из gzip). Независимо от того, что мы делаем, на первом этапе искровой работы есть только один раздел (после того, как происходит тасование, он перераспределяется на 100, а затем очевидно, что вещи намного быстрее).
Теперь, согласно нескольким источникам (например, ниже), паркет должен быть расщепляемым (даже при использовании gzip!), поэтому я очень смущен и хотел бы получить некоторые советы.
Я использую искру 1.0.0, и, по-видимому, значение по умолчанию для spark.sql.shuffle.partitions
равно 200, поэтому этого не может быть. На самом деле все значения по умолчанию для parallelism намного больше 1, поэтому я не понимаю, что происходит.