Здесь много вопросов и ответов на StackOverflow, которые принимают "письмо", могут быть сопоставлены в regexp на [a-zA-Z]
. Однако с Unicode есть еще много символов, которые большинство людей будет рассматривать как письмо (все греческие буквы, Cyrllic.. и многое другое. Unicode определяет много блоков, каждый из которых могут иметь "буквы".
Определение Java определяет классы Posix для таких вещей, как альфа-символы, но это указано только для работы с US-ASCII. Предопределенные классы символов определяют слова, состоящие из [a-zA-Z_0-9]
, что также исключает много букв.
Итак, как вы правильно сопоставляете строки Unicode? Есть ли какая-то другая библиотека, которая получает это право?