GlusterFS в качестве основы для Hadoop

Я видел, что redhat придумал одно возможное решение с GlusterFS, работающим в качестве бэкэнда для hadoop. В этом случае вы можете получить доступ к архитектуре namenode/datanode и заменить его на glusterfs, между тем у вас все еще есть совместимость Apo-совместимости Hadoop.

Просто интересно, как производительность сравнивается с native-HDFS? Действительно ли это готово к производству? Поддерживает ли она всю экосистему адуопа? например Solr Cloud, Spark, Impala и т.д. И т.д.

Ответ 1

отказ от ответственности: я работаю для поставщика хранилища. Что ж. Я не знаю много о GlusterFS в частности, но я могу говорить о Lustre, так как это POSIX в конце дня. Это параллельная файловая система, но те тесты, которые я недавно рассмотрел, показали, что она превосходит HDFS. но это определенно готовая к производству альтернатива, которая предлагает единое пространство имен для ваших данных (без использования HDFS)

Что сегодня работает с экосистемой Hadoop? то, что я видел сегодня в производстве, это Spark, Hive, Hbase. Imapala смотрит на меня, это требует определенных частей HDFS, поэтому он не работает с POSIX FS, и это не HCFS. Я сделал быстрый тест, и мне удалось создать базу данных и все такое, но я не смог получить ни одной строки.

Позвольте мне, если вам нужна дополнительная помощь.