У меня есть файлы журналов, хранящиеся в виде текста в HDFS. Когда я загружаю файлы журнала в таблицу Hive, все файлы копируются.
Могу ли я дважды хранить все мои текстовые данные?
EDIT: я загружаю его с помощью следующей команды
LOAD DATA INPATH '/user/logs/mylogfile' INTO TABLE `sandbox.test` PARTITION (day='20130221')
Затем я могу найти тот же самый файл в:
/user/hive/warehouse/sandbox.db/test/day=20130220
Я предположил, что он был скопирован.