Мне нужно разбить строку и извлечь слова, разделенные пробельными символами. Источник может быть на английском или японском. Английские символы пробелов включают в себя вкладку и пробел, а японский текст также использует их. (IIRC, все широко используемые японские наборы символов являются надмножествами US-ASCII.)
Итак, набор символов, которые мне нужно использовать для разделения моей строки, включает в себя обычное пространство ASCII и вкладку.
Но на японском языке есть еще один космический персонаж, обычно называемый "пространством полной ширины". Согласно моей утилите Mac Character Viewer, это U + 3000 "IDEOGRAPHIC SPACE". Это (обычно), что получается, когда пользователь нажимает клавишу пробела при вводе в японский режим ввода.
Есть ли другие символы, которые мне нужно рассмотреть?
Я обрабатываю текстовые данные, представленные пользователями, которым было сказано "разделить записи с пробелами". Тем не менее, пользователи используют самые разные компьютерные и мобильные операционные системы для отправки этих текстов. Мы уже видели, что пользователи могут не знать, находятся ли они в японском или английском режиме ввода при вводе этих данных.
Кроме того, поведение ключа пространства различается по платформам и приложениям даже в японском режиме (например, Windows 7 будет вставлять идеографическое пространство, но iOS будет вставлять пространство ASCII).
Так что я хочу, в основном, "набор всех символов, которые визуально выглядят как пространство и могут быть сгенерированы, когда пользователь нажимает клавишу пробела или клавишу табуляции, поскольку многие пользователи не знают разницы между пространством и вкладка на японском и/или английском языках".
Есть ли какой-либо авторитетный ответ на такой вопрос?