Как прочитать набор данных Parquet с небольшим размером в DataFrame в памяти Pandas без настройки инфраструктуры кластерных вычислений, такой как Hadoop или Spark? Это всего лишь умеренный объем данных, которые я хотел бы прочитать в памяти с помощью простого Python script на ноутбуке. Данные не находятся на HDFS. Это либо в локальной файловой системе, либо, возможно, на S3. Я не хочу раскручивать и настраивать другие сервисы, такие как Hadoop, Hive или Spark.
Я думал, что Blaze/Odo сделал бы это возможным: документация Odo упоминает Parquet, но примеры, похоже, все проходят через внешнюю среду Hive.