У меня нет формального фона в обработке естественного языка, было интересно, может ли кто-то из стороны НЛП пролить свет на это. Я играю с библиотекой NLTK, и я специально изучал функцию стоп-логов, предоставляемую этим пакетом:
В [80]: nltk.corpus.stopwords.words( 'английский')
Out [80]:
['i', 'me', 'my', "я", "мы", "наш", "наш", "мы", "вы", "ваш", "твой", "ты", "себя", "он", "его" , "его" , "сам", "она", "ее", "ее", "сама", "это", "его" , "сам", "они", "их" , "их" , "их" , "себя", "что", "что", "кто", "кто", 'this', "это", "эти", "те", "am", "is", "есть" , "есть" , "были", "быть", "было", "быть", "иметь", "есть" , "имеет", "иметь", "делать", "делает", "сделал", "сделал", "a", "an", "the", 'и', 'but', 'if', 'или', 'потому что', 'как', 'до', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'против', 'между', "в", "через", "во время", 'before', 'after', 'above', "ниже", "до", "от", "вверх", 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', "далее", "затем", "один раз", "здесь", "там", "когда", "where", "почему", "как", "все", "все", "оба", "каждый", "несколько", "больше", "большинство", "другие", "некоторые", "такие", "нет", "ни", "не", "только", "собственный", "такой же", "так", "чем", "тоже", "very", "s", "t", "can", "will", 'just', 'don', 'should', 'now']
Я не понимаю, почему слово "не" присутствует? Разве это не обязательно для определения чувства внутри предложения? Например, предложение вроде этого:
Я не уверен, в чем проблема.
полностью отличается после удаления стоп-слова not
, изменяя значение предложения на противоположное (I am sure what the problem is
). Если это так, существует ли набор правил, которые мне не хватает, когда вы не используете эти стоп-слова?