Я использую именный указатель Entity Recognizer http://nlp.stanford.edu/software/CRF-NER.shtml в Стэнфорде, и он работает нормально. Это
List<List<CoreLabel>> out = classifier.classify(text);
for (List<CoreLabel> sentence : out) {
for (CoreLabel word : sentence) {
if (!StringUtils.equals(word.get(AnswerAnnotation.class), "O")) {
namedEntities.add(word.word().trim());
}
}
}
Однако проблема, которую я нахожу, - это идентификация имен и фамилий. Если распознаватель встречает "Джо Смит", он возвращает "Джо" и "Смит" отдельно. Мне бы очень хотелось, чтобы он вернулся "Джо Смит" в качестве одного термина.
Может ли это быть достигнуто через распознаватель, возможно, через конфигурацию? До сих пор я ничего не нашел в джавадоке.
Спасибо!