Я присоединяюсь к двум большим таблицам в Hive (один - более 1 миллиарда строк, один - около 100 миллионов строк):
create table joinedTable as select t1.id, ... from t1 join t2 ON (t1.id = t2.id);
Я разделил две таблицы таким же образом, кластеризацию по id на 100 кодеров для каждого, но запрос все еще занимает много времени.
Любые предложения о том, как ускорить это?