Добавление слов в scikit-learn Список остановок CountVectorizer

Scikit-learn CountVectorizer класс позволяет передать строку 'english' в аргумент stop_words. Я хочу добавить некоторые вещи в этот предопределенный список. Может ли кто-нибудь сказать мне, как это сделать?

Ответ 1

В соответствии с исходный код для sklearn.feature_extraction.text, полный список (на самом деле a frozenset, from stop_words) ENGLISH_STOP_WORDS отображается через __all__. Поэтому, если вы хотите использовать этот список и несколько других элементов, вы можете сделать что-то вроде:

from sklearn.feature_extraction import text 

stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)

(где my_additional_stop_words - любая последовательность строк) и использовать результат как аргумент stop_words. Этот вход в CountVectorizer.__init__ анализируется _check_stop_list, который пройдет через frozenset.