Моя работа предусматривает использование кластера UIMA для запуска документов для извлечения именованных объектов, а что нет. Насколько я понимаю, UIMA имеет очень мало компонентов NLP, упакованных вместе с ним. Я уже некоторое время тестировал GATE, и мне это очень удобно. Это нормально для обычного текста, но когда мы запускаем его через некоторые репрезентативные тестовые данные, точность падает. Текстовые данные, которые у нас есть внутри, иногда являются все шапки, иногда все строчные буквы или их сочетание в одном документе. Даже используя ANNIE все правила шапки, точность все же оставляет желать лучшего. Я недавно слышал о Stanford NLP и OpenNLP, но не успел интенсивно тренироваться и тестировать их. Как эти два сравнения с точки зрения точности с ANNIE? Они работают с UIMA, как GATE?
Спасибо заранее.