У меня есть одномерный массив с большими строками в каждом из элементов. Я пытаюсь использовать CountVectorizer
для преобразования текстовых данных в числовые векторы. Однако, я получаю сообщение об ошибке:
AttributeError: 'numpy.ndarray' object has no attribute 'lower'
mealarray
содержит большие строки в каждом из элементов. Существует 5000 таких образцов. Я пытаюсь процитировать это, как показано ниже:
vectorizer = CountVectorizer(
stop_words='english',
ngram_range=(1, 1), #ngram_range=(1, 1) is the default
dtype='double',
)
data = vectorizer.fit_transform(mealarray)
Полный стек:
File "/Library/Python/2.7/site-packages/sklearn/feature_extraction/text.py", line 817, in fit_transform
self.fixed_vocabulary_)
File "/Library/Python/2.7/site-packages/sklearn/feature_extraction/text.py", line 748, in _count_vocab
for feature in analyze(doc):
File "/Library/Python/2.7/site-packages/sklearn/feature_extraction/text.py", line 234, in <lambda>
tokenize(preprocess(self.decode(doc))), stop_words)
File "/Library/Python/2.7/site-packages/sklearn/feature_extraction/text.py", line 200, in <lambda>
return lambda x: strip_accents(x.lower())
AttributeError: 'numpy.ndarray' object has no attribute 'lower'