Я работаю над большим проектом классификации текста, и у нас есть наши текстовые данные (простые сообщения), хранящиеся в HBase.
У нас есть две проблемы: сначала мы хотели бы использовать HBase в качестве источника классификаторов Mahout, а именно Bayers и Random Forests.
Во-вторых, мы хотели бы иметь возможность хранить модель, сгенерированную в HBase, вместо использования подхода in-памяти (InMemoryBayesDatastore), однако по мере роста наших наборов мы сталкиваемся с проблемами использования памяти и хотели бы протестировать HBase как жизнеспособной альтернативой.
Похоже, что с использованием HBase с Mahout мало материала, и если можно использовать его в качестве потенциального источника данных. Я использую API-интерфейс Mahout 0.6 на Java, который имеет хранилище данных InMemory.
Выполняя немного копания, я верю, что там был компонент HBase Bayers Datastore - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore
См. более старый JavaDoc здесь: http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html
Однако, глядя на последнюю документацию, похоже, что эта функция исчезла..? https://builds.apache.org/job/Mahout-Quality/javadoc/
Я хотел знать, можно ли использовать HBase в качестве источника данных для Bayers и RandomForests и есть ли в нем предыдущие случаи использования?
Спасибо!