Без получения степени в поиске информации я хотел бы знать, существуют ли какие-либо алгоритмы для подсчета частоты, с которой встречаются слова в данном тексте. Цель состоит в том, чтобы получить "общее ощущение" того, что люди говорят по набору текстовых комментариев. В строках Wordle.
Что мне нужно:
- игнорировать статьи, местоимения и т.д. ('a', 'an', 'the', 'him', 'them' и т.д.)
- сохранить собственные существительные
- игнорировать перенос, кроме мягкого вида
Достигнув звезд, они будут персиковыми:
- обработка стеблей и множественных чисел (например, нравится, нравится, нравится, нравится соответствовать одному и тому же результату)
- группировка прилагательных (наречия и т.д.) со своими субъектами ( "отличный сервис", а не "великий", "сервис" ).
Я попытался использовать некоторые базовые вещи, используя Wordnet, но я просто слежу за ними и надеюсь, что это сработает для моих конкретных данных. Что-то более общее было бы здорово.