Привет На прошлой неделе Facebook объявил Fasttext, который позволяет классифицировать слова в ведро. Скрытое распределение Дирихле - еще один способ моделирования темы. Мой вопрос заключается в том, что кто-либо делает сравнение относительно pro и con в этих двух.
Я не пробовал Fasttext, но здесь немного pro и con для LDA, основанных на моем опыте
Pro
-
Итеративная модель, имеющая поддержку искры Apache
-
Принимает содержимое документа и моделирует тему.
-
Не только узнает, о чем идет речь, но и узнает связанные документы
-
Сообщество искры Apache постоянно вносит свой вклад в это. Раньше они работали над mllib сейчас в библиотеках ml.
Con
-
Стоп-слова должны быть хорошо определены. Они должны быть связаны с контекстом документа. Например: "документ" - это слово, которое имеет высокую частоту появления и может возглавлять диаграмму рекомендуемых тем, но может или не может быть релевантным, поэтому нам нужно обновить это слово для
-
Иногда классификация может быть неактуальной. В приведенном ниже примере трудно сделать вывод о том, что говорит это ведро
Тема:
-
Срок: дисциплина
-
Term: дисциплины
-
Термин: notestable
-
Term: победа
-
Термин: пути
-
Термин: chapterclosingtable
-
Период: метапрограммы
-
Термин: прорывы
-
Термин: различия
-
Term: спасение
Если кто-то провел исследования в Fasttext, можете ли вы обновить свое обучение?