Я ищу java-библиотеку, которая позволяет "нормализовать" текст. Что-то похоже на стандартное Normalizer, но шире (что-то вроде utf8proc LUMP).
Он должен заменить все виды специальных символов на эквиваленты ASCII (если это возможно, конечно). Все варианты пространства для кода 32, все варианты минусов (длинный, короткий, тонкий и т.д.) До кода 45 и т.д.