Мы разрабатываем систему для нечеткого сопоставления на более чем 50 международных языках с использованием стандартного символа Юникода UTF-8, UTF-16 и UTF-32. До сих пор мы могли использовать расстояние Левенштейна для обнаружения орфографических символов расширенных слов немецкого Unicode.
Мы хотели бы расширить эту систему для обработки китайских иероглифов, представленных в Юникоде. Как мы будем проводить расчет расстояния Левенштейна между похожими иероглифами?