Какая хорошая библиотека естественного языка для перефразирования?

Я ищу существующую библиотеку для обобщения или перефразирования контента (я нахожусь в блогах) - любой опыт работы с существующими библиотеками обработки естественного языка?

Я открыт для различных языков, поэтому меня больше интересуют способности и точность.

Ответ 1

Было какое-то обсуждение Грока. Теперь это поддерживается как OpenCCG, и оно также будет переопределено в OpenNLP.

Вы можете найти OpenCCG в http://openccg.sourceforge.net/. Я также предложил бы парсер Curran и Clark CCG здесь: http://svn.ask.it.usyd.edu.au/trac/candc/wiki

В принципе, для парафраза вам нужно написать то, что сначала анализирует предложения по сообщениям в блоге, извлекает смысловое значение этих сообщений, а затем ищет через пространство слова слова слова, которые будут композиционно создавать то же семантическое значение, а затем выберите тот, который не соответствует текущему предложению. Это займет много времени, и это может не иметь большого смысла. Не забывайте, что для этого вам понадобится почти идеальное разрешение анафоры и возможность выбирать выводы на уровне дискурса.

Если вы просто хотите сделать записи в блоге, которые не имеют идентифицируемого с помощью машины дублирующегося содержимого, вы всегда можете просто использовать преобразования темы и фокуса и синонимы WordNet. Там определенно были сайты, которые внесли деньги в AdWords, которые сделали это раньше.

Ответ 2

Я думаю, он хочет генерировать записи в блогах, автоматически перефразируя все, что было в блогах, которые эта система контролирует.

Это было бы действительно интересно, если бы вы могли объединить от 2 до 10 сообщений в блоге, похожих друг на друга, но из разных источников, а затем сделать перефразированное "реальное" резюме автоматически (размер 1 сообщения в блоге).

Это также отлично подходит для Homeworks. К сожалению, это не так просто сделать.

Единственный способ, которым я мог видеть, - это разложить каждое предложение на "значение", а затем случайным образом изменить структуру предложения и некоторые слова, сохраняющие значение.

Эти предложения означают одно и то же:

Я ненавижу этого парня, он настолько тупой.
Этот парень глуп, я его ненавижу.
Я презираю этого немого парня.
Он немой, я его ненавижу.

Было бы нетривиально написать программу для преобразования одного из этих предложений в другие, и это простые предложения, реальные предложения из блогов намного сложнее.

Ответ 3

Вы попадаете в очень отдаленный домен типа AI. Я много работал над преобразованием текста в машинные знания, в основном используя Attempto Controlled English (см.: http://attempto.ifi.uzh.ch/site/), это естественный язык ( английский), который полностью обрабатывается компьютером в нескольких разных онтологиях, таких как OWLDL.

Похоже на то, что мы будем переполняться, хотя...

Есть ли причина не просто принимать первые несколько предложений вашего сообщения в блоге, а затем добавлять эллипс для вашего резюме?

Ответ 4

Спасибо за эти ссылки. Похоже, что GROK мертв - но он может работать еще для моих целей.

Еще 2 ссылки:

Потенциально контролируемый английский - интересная концепция: как совершенно противоположный взгляд на проблему. Не очень практично для того, что я пытаюсь сделать.

@mmattax Что касается предложения взять несколько предложений - я не пытаюсь представить резюме: в противном случае это было бы приятно judo. Я собираюсь на самом деле обобщить содержимое для использования в других целях оценки.

Ответ 5

Возможно, вы захотите попробовать GATE или закрытый, запатентованный и дорогостоящий API-интерфейс TextAnalyst COM