Я новичок в scikit-learn, и я использовал TfidfVectorizer
, чтобы найти значения tfidf терминов в наборе документов. Я использовал следующий код, чтобы получить то же самое.
vectorizer = TfidfVectorizer(stop_words=u'english',ngram_range=(1,5),lowercase=True)
X = vectorizer.fit_transform(lectures)
Теперь, если я печатаю X, я могу видеть все записи в матрице, но как я могу найти верхние n записей на основе оценки tfidf. В дополнение к этому есть какой-либо метод, который поможет мне найти верхние n записей на основе tfidf score за ngram, т.е. Верхние записи среди униграмм, bigram, триграмм и т.д.?