Я только начал с Stanford CoreNLP, я хотел бы создать пользовательскую модель NER для поиска лиц.
К сожалению, я не нашел хорошую модель для итальянской. Мне нужно найти эти объекты в документе резюме /CV.
Проблема заключается в том, что такой документ может иметь другую структуру, например, я могу:
CASE 1
- Name: John
- Surname: Travolta
- Last name: Travolta
- Full name: John Travolta
(so many labels that can represent the entity of the person i need to extract)
CASE 2
My name is John Travolta and I was born ...
В принципе, я могу иметь структурированные данные (с разными метками) или контекст, где я должен найти эти сущности.
Каков наилучший подход для такого рода документов? Может ли максимальная модель работать в этом случае?
EDIT @vihari-piratla
На данный момент я принимаю стратегию, чтобы найти шаблон, который имеет что-то слева и что-то справа, следуя этому методу, у меня есть 80/85%, чтобы найти объект.
Пример:
Name: John
Birthdate: 2000-01-01
Это означает, что у меня есть "Имя:" слева от шаблона и \n справа (пока не найдет \n). Я могу создать очень длинный список таких шаблонов. Я думал о шаблонах, потому что мне не нужны имена внутри "другого" контекста.
Например, если пользователь записывает другие имена внутри опыта работы, я не нуждаюсь в них. Потому что я ищу личное имя, а не другие. С помощью этого метода я могу уменьшить ложные срабатывания, потому что я буду рассматривать конкретные шаблоны не "общие имена".
Проблема с этим методом заключается в том, что у меня есть большой список шаблонов (1 шаблон = 1 регулярное выражение), поэтому он не масштабируется так хорошо, если я добавляю другие.
Если я смогу обучить модель NER со всеми этими шаблонами, это будет потрясающе, но я должен использовать тонны документов, чтобы хорошо их обучать.