Я прочитал статью, в которой для классификатора используется функция ngram counts, и мне было интересно, что именно это означает.
Пример текста: "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam"
Я могу создавать униграммы, биграммы, триграммы и т.д. из этого текста, где мне нужно определить, на каком уровне вы создадите эти униграммы. "Уровень" может быть символом, слогом, словом,...
Итак, создание униграмм из приведенного выше предложения просто создало бы список всех слов?
Создание битрамов приведет к тому, что пары слов объединят слова, которые следуют друг за другом?
Итак, если в статье говорится о подсчетах ngram, она просто создает из текста текстовые символы, биграммы, триграммы и т.д., и подсчитывает, как часто происходит эта ngram?
Есть ли существующий метод в пакете python nltk? Или мне нужно реализовать собственную версию?