Я использую Лемматизатор NLTK WordNet для проекта тегов с частичной речью, сначала изменяя каждое слово в корпусе тренировки на его основу (на месте модификации), а затем тренируясь только на новом корпусе. Тем не менее, я обнаружил, что lemmatizer не работает, как я ожидал.
Например, слово loves
лемматизировано на love
, что верно, но слово loving
остается loving
даже после лемматизации. Здесь loving
является таким же, как в предложении "Я люблю его".
Является ли love
основой отклоненного слова loving
? Точно так же многие другие "формы" остаются такими же, как и после лемматизации. Это правильное поведение?
Каковы некоторые другие лемматизаторы, которые точны? (не нужно быть в NLTK) Существуют ли морфологические анализаторы или лемматизаторы, которые также учитывают слово "Часть речи" при решении слова "ствол"? Например, слово killing
должно быть kill
в качестве основы, если killing
используется в качестве глагола, но оно должно иметь killing
в качестве основы, если оно используется как существительное (как в the killing was done by xyz
),.