Мой пример использования:
Вставьте RDD в файл с помощью saveAsTable (поэтому в файлы ORC). Каждое сохранение создает новый файл (поэтому 1000 000 записи дают мне 1000 000 файлы ORC). Я знаю, что естественно, что для каждого RDD создаются новые файлы (ов) ORC. Тем не менее, я не знаю, почему это так медленно, когда дело доходит до запроса от ThriftServer.
Мой вопрос: как понять такое странное поведение? 
Например, SELECT COUNT(*) на 1000 000 строк (так же файлы) занимает около 1 minute (!). 
Однако, когда я сохраняю 1000 000 строки в один файл, тот же запрос работает в 50ms.
Я хотел бы понять эту разницу. В конце концов, 1000 000 файлов мало.
