Мне нужно разделить китайское предложение на отдельные слова. Проблема с китайцами в том, что нет пробелов. Например, предложение может выглядеть так: 主楼怎么走 (с пробелами: 主楼 怎么 走).
На данный момент я могу думать о одном решении. У меня есть словарь с китайскими словами (в базе данных). script будет:
-
попытайтесь найти первые два символа предложения в базе данных (
主楼), -
если
主楼на самом деле является словом, а в базе данных script будет пытаться найти первые три символа (主楼怎).主楼怎не является словом, поэтому он не находится в базе данных = > теперь мое приложение знает, что主楼- это отдельное слово. -
попробуйте сделать это с остальными символами.
Мне не нравится этот подход, потому что для анализа даже небольшого текста он будет запрашивать базу данных слишком много раз.
Есть ли другие решения?