Как реализовать полнотекстовый поиск на китайском языке на PostgreSQL?

Этот вопрос задан раньше:

Postgresql полнотекстовый поиск в postgresql - японский, китайский, арабский

но на китайском языке нет ответов, насколько я могу судить. Я взглянул на вики OpenOffice, и у нее нет словаря для китайского языка.

Изменить. Поскольку мы уже успешно используем внутренний механизм FTS PG для английских документов, мы не хотим переходить на внешний механизм индексирования. В основном, я ищу китайскую конфигурацию FTS, включая парсер и словари для упрощенного китайского языка (мандарин).

Ответ 1

Я знаю, что это старый вопрос, но есть расширение Postgres для китайцев: https://github.com/amutu/zhparser/

Ответ 2

Я только что реализовал китайское решение FTS в PostgreSQL. Я сделал это, создав маркеры NGRAM с китайского ввода и создав необходимый tsvector с помощью встроенной функции (в моем случае я использовал plpythonu). Он работает очень хорошо (в основном предпочтительнее переходить на SQL Server!!!).

Ответ 3

Индексируйте свои данные с помощью Solr, это поисковый сервер с открытым исходным кодом, построенный поверх Lucene.

Вы можете найти более подробную информацию о Solr здесь:

http://lucene.apache.org/solr/

Хорошая книга о практическом использовании (с немедленной загрузкой в ​​формате PDF):

https://www.packtpub.com/solr-1-4-enterprise-search-server/book

И не забудьте использовать китайский токенизатор, например, solr.ChineseTokenizerFactory, потому что китайский язык не разделен пробелами.