Я пытаюсь понять, почему Latent Dirichlet Allocation (LDA) плохо работает в коротких текстовых средах, таких как Twitter. Я читал тему темы для более короткого текста, однако я до сих пор не понимаю "разреженности словосочетаний".
С моей точки зрения, поколение LDA является разумным для любых текстов, но причиной неудачных результатов в коротких текстах является процедура отбора проб. Я предполагаю, что LDA отображает тему для слова, основанного на двух частях: (1) темы других слов в одном и том же документе (2) задание тем из других вхождений этого слова. Поскольку (1) часть короткого текста не может отражать истинное его распределение, это вызывает неудовлетворительное назначение темы для каждого слова.
Если вы нашли этот вопрос, не стесняйтесь публиковать свою идею и помогать мне понять это.