Инструменты программирования NLP с использованием PHP?

Поскольку появились большие веб-приложения, поиск данных (и делает это молниеносно быстрым и точным) стал одной из самых важных проблем в веб-приложениях. Некоторое время я работал с Lucene.NET, который является портом С# проекта Lucene,

Я также работаю с использованием PHP с помощью Zend Framework Lucene API, который подводит меня к моему вопросу. В большинстве случаев для обеспечения хорошего индексирования нам нужно выполнить некоторые инструменты NLP, такие как токенизация, lemmatizing, и многое другое, вопрос:

Знаете ли вы о какой-либо хорошей платформе/инструментах программирования NLP с использованием PHP?

PS: Я очень хорошо знаю Zend API для Lucene, но данные индексирования должным образом не просто хранятся и полагаются на Lucene, вам нужно выполнить некоторые дополнительные задачи, например, описанные выше.

Ответ 1

Я бы предположил, что вы смотрите на Solr, что является лучшей практикой реализации Lucene. Solr использует API на основе REST, который также имеет очень хороший клиент PHP. Это позволит вам использовать мощность Lucene без необходимости выполнять какое-либо низкоуровневое программирование, чтобы получить мощность NLP, которую вы хотите. Кроме того, вы, вероятно, захотите захватить версию trunk для Solr, поскольку разработка NLP очень активна прямо сейчас, и каждый день добавляются новые возможности.

Ответ 3

Похоже, вы ищете тот же материал, что и googled несколько месяцев назад: D... Я запускаю проект на основе php/zend с помощью Solr (через php-solr-client lib), и пока у меня нет нашел что-нибудь в php для продвинутого NLP. Для основных вещей, как все упоминают, вы можете уйти с Solr (сужение, облака тегов/фраза тегов облака, токенизация и т.д.), И есть несколько базовых, но полезных текстовых библиотек php (там нет ничего реально, лучше полагаться на Solr)... но если вы ищете более алгоритмический/семантический/чувственный анализ НЛП, я предлагаю вам немного переместиться с PHP и перейти на Java, так как есть больше библиотек, которые могут помочь вам в этой области (например, OpenNLP). В случае, если вы хотите, чтобы вы искали, вы, возможно, захотите взглянуть на Mahout:

http://www.lucidimagination.com/blog/2010/03/16/integrating-apache-mahout-with-apache-lucene-and-solr-part-i-of-3/