Я рассматриваю алгоритм, который может отображать символы с диакритикой (tilde, circumflex, caret, umlaut, caron) и их "простой" символ.
Например:
ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n
á --> a
ä --> a
ấ --> a
ṏ --> o
Etc.
-
Я хочу сделать это на Java, хотя я подозреваю, что это должно быть что-то Unicode-y и должно быть выполнимым достаточно легко на любом языке.
-
Цель: позволяет легко искать слова с диакритическими знаками. Например, если у меня есть база данных теннисистов, и введен Björn_Borg, я также сохраню Bjorn_Borg, чтобы найти его, если кто-то войдет в Bjorn, а не Björn.