Я использовал библиотеку Ruby Classifier для классифицировать политики конфиденциальности, Я пришел к выводу, что простого подхода к сумме слов, встроенного в эту библиотеку, недостаточно. Чтобы повысить точность классификации, я хочу обучать классификатор на n-граммах в дополнение к отдельным словам.
Мне было интересно, есть ли там библиотека для предварительной обработки документов, чтобы получить соответствующие n-граммы (и правильно справиться с пунктуацией). Одна мысль заключалась в том, что я мог предварительно обрабатывать документы и вводить псевдограммы в Ruby Classifier, например:
wordone_wordtwo_wordthree
Или, может быть, есть лучший способ сделать это, например, библиотеку, в которой встроенная в него диаграмма Наивы Байеса, встроенная в нее из getgo. Я открыт для использования языков, отличных от Ruby, если они выполняют задание (Python кажется хорошим кандидатом, если это необходимо).