После некоторых поисков мне не удалось найти тщательного сравнения fastparquet
и pyarrow
.
Я нашел этот пост в блоге (базовое сравнение скоростей).
и обсуждение github, в котором утверждается, что файлы, созданные с помощью fastparquet
, не поддерживают AWS-athena (кстати, это все еще так?)
когда/почему я использовал бы один поверх другого? Каковы основные преимущества и недостатки?
Мой конкретный пример использования - обработка данных с помощью dask
запись их в s3, а затем чтение/анализ их с помощью AWS-athena.