Я ищу существующую библиотеку для обобщения или перефразирования контента (я нахожусь в блогах) - любой опыт работы с существующими библиотеками обработки естественного языка?
Я открыт для различных языков, поэтому меня больше интересуют способности и точность.
Ответ 1
Было какое-то обсуждение Грока. Теперь это поддерживается как OpenCCG, и оно также будет переопределено в OpenNLP.
Вы можете найти OpenCCG в http://openccg.sourceforge.net/. Я также предложил бы парсер Curran и Clark CCG здесь: http://svn.ask.it.usyd.edu.au/trac/candc/wiki
В принципе, для парафраза вам нужно написать то, что сначала анализирует предложения по сообщениям в блоге, извлекает смысловое значение этих сообщений, а затем ищет через пространство слова слова слова, которые будут композиционно создавать то же семантическое значение, а затем выберите тот, который не соответствует текущему предложению. Это займет много времени, и это может не иметь большого смысла. Не забывайте, что для этого вам понадобится почти идеальное разрешение анафоры и возможность выбирать выводы на уровне дискурса.
Если вы просто хотите сделать записи в блоге, которые не имеют идентифицируемого с помощью машины дублирующегося содержимого, вы всегда можете просто использовать преобразования темы и фокуса и синонимы WordNet. Там определенно были сайты, которые внесли деньги в AdWords, которые сделали это раньше.
Ответ 2
Я думаю, он хочет генерировать записи в блогах, автоматически перефразируя все, что было в блогах, которые эта система контролирует.
Это было бы действительно интересно, если бы вы могли объединить от 2 до 10 сообщений в блоге, похожих друг на друга, но из разных источников, а затем сделать перефразированное "реальное" резюме автоматически (размер 1 сообщения в блоге).
Это также отлично подходит для Homeworks. К сожалению, это не так просто сделать.
Единственный способ, которым я мог видеть, - это разложить каждое предложение на "значение", а затем случайным образом изменить структуру предложения и некоторые слова, сохраняющие значение.
Эти предложения означают одно и то же:
- Я ненавижу этого парня, он настолько тупой.
- Этот парень глуп, я его ненавижу.
- Я презираю этого немого парня.
- Он немой, я его ненавижу.
Было бы нетривиально написать программу для преобразования одного из этих предложений в другие, и это простые предложения, реальные предложения из блогов намного сложнее.
Ответ 3
Вы попадаете в очень отдаленный домен типа AI. Я много работал над преобразованием текста в машинные знания, в основном используя Attempto Controlled English (см.: http://attempto.ifi.uzh.ch/site/), это естественный язык ( английский), который полностью обрабатывается компьютером в нескольких разных онтологиях, таких как OWLDL.
Похоже на то, что мы будем переполняться, хотя...
Есть ли причина не просто принимать первые несколько предложений вашего сообщения в блоге, а затем добавлять эллипс для вашего резюме?
Ответ 4
Спасибо за эти ссылки. Похоже, что GROK мертв - но он может работать еще для моих целей.
Еще 2 ссылки:
Потенциально контролируемый английский - интересная концепция: как совершенно противоположный взгляд на проблему. Не очень практично для того, что я пытаюсь сделать.
@mmattax Что касается предложения взять несколько предложений - я не пытаюсь представить резюме: в противном случае это было бы приятно judo. Я собираюсь на самом деле обобщить содержимое для использования в других целях оценки.
Ответ 5
Возможно, вы захотите попробовать GATE или закрытый, запатентованный и дорогостоящий API-интерфейс TextAnalyst COM