Как работает токенизация и сопоставление образцов на китайском языке??

Этот вопрос включает в себя вычисления, а также знание китайского языка. У меня есть китайские запросы, и у меня есть отдельный список фраз на китайском языке. Мне нужно найти, какой из этих запросов имеет любую из этих фраз.

По-английски это очень простая задача. Я вообще не понимаю китайский язык, его семантику, правила грамматики и т.д., И если кто-то на этом форуме, который также понимает китайский, может помочь мне с некоторым базовым пониманием и как сопоставление образцов для китайцев.

У меня есть основное представление о том, что в китайской единице (без какого-либо промежутка между пробелами) может означать более одного слова (это правильно?). Так есть ли какие-либо правила о том, как более одного слова объединяются между собой, чтобы выделяться как единое целое. Это сбивает с толку, потому что в китайском письме есть пробелы, но даже единица без пространства имеет в нем более одного слова.

Любые ссылки, объясняющие китайский язык с вычислительной точки зрения, сопоставление образцов и т.д., были бы очень полезными.

Ответ 1

У меня есть основное представление о том, что в китайской единице (без какого-либо промежутка между пробелами) может означать более одного слова (это правильно?).

В китайских пространствах редко используются, например:

递归 (英语: Рекурсия), 又 譯為 遞 迴, 在 数学 与 计算机 科学 中, 是 指 在 函数 的 定义 中 使用 函数 自身 的 的.递归 一词 还 较 常用 于 描述 以 自 相似 方法 重复 事物 的 过程. 例如, 当 两面 镜子 相互 之间 近似 平行 时, 镜 中 嵌套 的 图像 是以 无限 递归 的 形式 出现 的.

Вы заметите, что кажутся просто пространствами, являются просто китайскими символами пунктуации, у которых просто больше отступов, чем обычно.

Итак, есть ли какие-либо правила о том, как более одного слова объединяются между собой, чтобы выделяться как единое целое. Это сбивает с толку, потому что в китайском письме есть пробелы, но даже единица без пространства имеет в нем более одного слова.

Подумайте об этом так: один китайский персонаж очень, очень похож на одно английское слово. Часто два или более символа нужно комбинировать, чтобы сформировать одно слово, и каждый отдельный символ может означать нечто совершенно иное в зависимости от контекста.

Чтобы значимо обозначить китайский текст, вам придется сегментировать слова, принимая во внимание.

См. Обработка китайского языка и обработка речи из группы Stanford NLP.