Недавно я начал изучать запросы больших наборов данных CSV, лежащих на HDFS, используя Hive и Impala. Как я и ожидал, я получил лучшее время отклика с Impala по сравнению с Hive для запросов, которые я использовал до сих пор.
Мне интересно, есть ли какие-то типы запросов/вариантов использования, которым по-прежнему нужен Hive, и где Impala не подходит.
Как Impala обеспечивает более быструю реакцию запроса по сравнению с Hive для тех же данных на HDFS?