Как работает токенизация и сопоставление образцов на китайском языке??

Этот вопрос включает в себя вычисления, а также знание китайского языка. У меня есть китайские запросы, и у меня есть отдельный список фраз на китайском языке. Мне нужно найти, какой из этих запросов имеет любую из этих фраз.

По-английски это очень простая задача. Я вообще не понимаю китайский язык, его семантику, правила грамматики и т.д., И если кто-то на этом форуме, который также понимает китайский, может помочь мне с некоторым базовым пониманием и как сопоставление образцов для китайцев.

У меня есть основное представление о том, что в китайской единице (без какого-либо промежутка между пробелами) может означать более одного слова (это правильно?). Так есть ли какие-либо правила о том, как более одного слова объединяются между собой, чтобы выделяться как единое целое. Это сбивает с толку, потому что в китайском письме есть пробелы, но даже единица без пространства имеет в нем более одного слова.

Любые ссылки, объясняющие китайский язык с вычислительной точки зрения, сопоставление образцов и т.д., были бы очень полезными.

Ответ 1

У меня есть основное представление о том, что в китайской единице (без какого-либо промежутка между пробелами) может означать более одного слова (это правильно?).

В китайских пространствах редко используются, например:

递归 (英语: Рекурсия), 又譯為遞迴, 在数学与计算机科学中, 是指在函数的定义中使用函数自身的的.递归一词还较常用于描述以自相似方法重复事物的过程. 例如, 当两面镜子相互之间近似平行时, 镜中嵌套的图像是以无限递归的形式出现的.

Вы заметите, что кажутся просто пространствами, являются просто китайскими символами пунктуации, у которых просто больше отступов, чем обычно.

Итак, есть ли какие-либо правила о том, как более одного слова объединяются между собой, чтобы выделяться как единое целое. Это сбивает с толку, потому что в китайском письме есть пробелы, но даже единица без пространства имеет в нем более одного слова.

Подумайте об этом так: один китайский персонаж очень, очень похож на одно английское слово. Часто два или более символа нужно комбинировать, чтобы сформировать одно слово, и каждый отдельный символ может означать нечто совершенно иное в зависимости от контекста.

Чтобы значимо обозначить китайский текст, вам придется сегментировать слова, принимая во внимание.

См. Обработка китайского языка и обработка речи из группы Stanford NLP.

Ответ 2

Книга Кена Лунде Обработка информации CJKV, вероятно, стоит посмотреть. Основной порядок слов - предмет - глагол - объект, но см. Также "Освещение темы" в http://en.wikipedia.org/wiki/Chinese_grammar