Я работаю над проблемой прогнозирования, используя большой текстовый набор данных. Я реализую Модель мешков слов.
Какой должен быть лучший способ получить сумку слов? Прямо сейчас у меня tf-idf различных слов, и количество слов слишком велико, чтобы использовать его для дальнейших назначений. Если я использую критерии tf-idf, каков должен быть порог tf-idf для получения мешка слов? Или я должен использовать некоторые другие алгоритмы. Я использую python.