Именованные библиотеки распознавания объектов для Java

Я ищу простую, но "достаточно хорошую" библиотеку именных имен и словарей для Java, я ищу для обработки электронных писем и документов и извлечения некоторой "базовой информации", например: Имена, места, адреса и даты

Я смотрю вокруг, и большинство из них, похоже, находятся на тяжелой стороне и полном проекте NLP.

Любые рекомендации?

Ответ 1

Кстати, я недавно наткнулся на OpenCalais, который, похоже, обладает функциональностью, которую я ухаживал.

Ответ 2

Возможно, вам захочется взглянуть на один из моих более ранних ответов на аналогичную проблему.

Кроме того, большинство более легких NER-систем сильно зависят от используемого домена. Например, вы найдете множество инструментов и документов о биомедицинских системах NER. В дополнение к моему предыдущему сообщению (которое уже содержит мою основную рекомендацию, если вы хотите сделать NER), вот еще несколько инструментов, которые вы можете изучить:

  • Стэнфордский CER-NER
  • Postech Biomedical NER System, если вас интересует этот конкретный домен
  • OpenCalais кажется коммерческой системой. Есть обертки UIMA для OpenCalais, но они, похоже, датированы. Существует также словарь-аннотатор Context-Mapper на основе словаря для UIMA, который может помочь вам. Имейте в виду, что UIMA подразумевает значительные накладные расходы в кривой обучения; -)
  • OpenNLP также имеет инструмент NER.
  • Balie делает, помимо прочего, NER.
  • ABNER делает NER, но опять же сосредоточился на биомедицинской области.
  • JULIE Lab Tools из университета Йены, Германия, также делают NER. У них есть автономные версии и механизмы анализа UIMA.

Еще одно замечание: вы не уйдете без токенизации на входе. Токенизация естественного языка немного нетривиальна, поэтому я предлагаю вам использовать панель инструментов, которая делает это для вас.

Ответ 3

Возможно, вы захотите попробовать Alchemy API. Это похоже на Open Calais.