Я выполняю работу Hadoop более 1,5 ТБ данных с большим количеством совпадений. У меня есть несколько машин с 16 ГБ оперативной памяти каждый, и я всегда получаю OutOfMemoryException
на этом задании с этими данными (я использую Hive).
Я хотел бы знать, как оптимально установить опцию HADOOP_HEAPSIZE
в файле hadoop-env.sh
, поэтому моя работа не подведет. Возможно ли установить этот параметр, чтобы мои задания не сработали?
Когда я установил HADOOP_HEAPSIZE
в 1,5 ГБ и удалил половину совпадения шаблонов из запроса, работа выполняется успешно. Итак, что это за вариант, если это не помогает избежать сбоев работы?
Мне нужно больше экспериментировать с оптимальной настройкой, но поскольку эти задания занимают > 10 часов для запуска, я прошу совета.