Мой пример использования:
Вставьте RDD
в файл с помощью saveAsTable
(поэтому в файлы ORC). Каждое сохранение создает новый файл (поэтому 1000 000
записи дают мне 1000 000
файлы ORC). Я знаю, что естественно, что для каждого RDD создаются новые файлы (ов) ORC. Тем не менее, я не знаю, почему это так медленно, когда дело доходит до запроса от ThriftServer.
Мой вопрос: как понять такое странное поведение?
Например, SELECT COUNT(*)
на 1000 000 строк (так же файлы) занимает около 1 minute
(!).
Однако, когда я сохраняю 1000 000
строки в один файл, тот же запрос работает в 50ms
.
Я хотел бы понять эту разницу. В конце концов, 1000 000
файлов мало.