Я работаю над проектом, где мне нужно проанализировать страницу текста и сборников страниц текста, чтобы определить доминирующие слова. Я хотел бы знать, есть ли библиотека (предпочитают С# или java), которые будут обрабатывать тяжелую работу для меня. Если нет, есть ли алгоритм или несколько, которые достигли бы моих целей ниже.
То, что я хочу сделать, похоже на текстовые облака, созданные из URL-адреса или rss-канала, которые вы найдете в Интернете, за исключением того, что я не хочу визуализации. Они используются все время для анализа выступлений кандидатов в президенты, чтобы узнать, что такое тема или наиболее используемые слова.
Усложнение состоит в том, что мне нужно сделать это на тысячах коротких документов, а затем на коллекции или категории этих документов.
Мой первоначальный план состоял в том, чтобы разобрать документ, затем отфильтровать общие слова - из, он, он, она и т.д. Затем подсчитайте количество раз, когда оставшиеся слова отображаются в тексте (и общем наборе/категории),
Проблема в том, что в будущем я хотел бы обрабатывать стебли, множественные формы и т.д. Я также хотел бы узнать, есть ли способ определить важные фразы. (Вместо количества слов, количество слов, составляющих 2-3 слова вместе)
Любые рекомендации по стратегии, библиотекам или алгоритмам, которые помогут, будут оценены.