Я нашел этот предыдущий вопрос по SO: N-граммы: объяснение + 2 приложения. ОП привел этот пример и спросил, был ли он правильным:
Sentence: "I live in NY."
word level bigrams (2 for n): "# I', "I live", "live in", "in NY", 'NY #'
character level bigrams (2 for n): "#I", "I#", "#l", "li", "iv", "ve", "e#", "#i", "in", "n#", "#N", "NY", "Y#"
When you have this array of n-gram-parts, you drop the duplicate ones and add a counter for each part giving the frequency:
word level bigrams: [1, 1, 1, 1, 1]
character level bigrams: [2, 1, 1, ...]
Кто-то в разделе ответов подтвердил, что это правильно, но, к сожалению, я немного растерялся, потому что не до конца понял все, что было сказано! Я использую LingPipe и следую учебному пособию, в котором говорилось, что я должен выбрать значение от 7 до 12, но без указания причины.
Что такое хорошее значение nGram и как его следует учитывать при использовании такого инструмента, как LingPipe?
Изменение: это был учебник: http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html