Мне нужно разделить китайское предложение на отдельные слова. Проблема с китайцами в том, что нет пробелов. Например, предложение может выглядеть так: 主楼怎么走
(с пробелами: 主楼 怎么 走
).
На данный момент я могу думать о одном решении. У меня есть словарь с китайскими словами (в базе данных). script будет:
-
попытайтесь найти первые два символа предложения в базе данных (
主楼
), -
если
主楼
на самом деле является словом, а в базе данных script будет пытаться найти первые три символа (主楼怎
).主楼怎
не является словом, поэтому он не находится в базе данных = > теперь мое приложение знает, что主楼
- это отдельное слово. -
попробуйте сделать это с остальными символами.
Мне не нравится этот подход, потому что для анализа даже небольшого текста он будет запрашивать базу данных слишком много раз.
Есть ли другие решения?