Я пытаюсь создать классификатор NaiveBayes с Spark MLLib, который принимает в качестве входных данных набор документов.
Я хотел бы поместить некоторые функции в качестве функций (то есть авторов, явных тегов, неявных ключевых слов, категории), но глядя на документацию кажется, что a LabeledPoint
содержит только удвоения, т.е. выглядит как LabeledPoint[Double, List[Pair[Double,Double]]
.
Вместо того, что у меня есть как вывод из остальной части моего кода, будет что-то вроде LabeledPoint[Double, List[Pair[String,Double]]
.
Я мог бы составить свое собственное преобразование, но это кажется странным. Как я должен обращаться с этим методом MLLib?
Я считаю, что ответ находится в классе HashingTF
(т.е. хеширующие функции), но я не понимаю, как это работает, кажется, что он требует определенного значения емкости, но мой список ключевых слов и тем эффективно неограничен (или лучше, неизвестно в начале).