Я использую Лемматизатор NLTK WordNet для проекта тегов с частичной речью, сначала изменяя каждое слово в корпусе тренировки на его основу (на месте модификации), а затем тренируясь только на новом корпусе. Тем не менее, я обнаружил, что lemmatizer не работает, как я ожидал.
Например, слово loves лемматизировано на love, что верно, но слово loving остается loving даже после лемматизации. Здесь loving является таким же, как в предложении "Я люблю его".
Является ли love основой отклоненного слова loving? Точно так же многие другие "формы" остаются такими же, как и после лемматизации. Это правильное поведение?
Каковы некоторые другие лемматизаторы, которые точны? (не нужно быть в NLTK) Существуют ли морфологические анализаторы или лемматизаторы, которые также учитывают слово "Часть речи" при решении слова "ствол"? Например, слово killing должно быть kill в качестве основы, если killing используется в качестве глагола, но оно должно иметь killing в качестве основы, если оно используется как существительное (как в the killing was done by xyz),.