Нечетные коды символов:
ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้้้้้้้้้้้้้ ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้้้้้้้้้้้้้ ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้้้้้้้้้้้้้ ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้
Вопрос: Какая кодировка этих символов?
(Совет: попробуйте отредактировать этот вопрос, и вы увидите, почему они странные, LIVE)
Да, это так. Вы видите то же самое, что и я.
По-видимому, это произошло от мака. Итак, с небольшим знанием предмета, который у меня есть, я выпустил блокнот ++ и попытался просмотреть его в шестнадцатеричном формате.
Результат? Попробуйте сами: http://notepad-plus-plus.org/
Довольно очевидно; Какого черта?
Я могу понять, если это Just a Bunch of Bits
в какой-то странной запатентованной двоичной кодировке (содержащей такие вещи, как цвет, шрифт и т.д.). Но почему они так странно выглядят?
Также почему notepad ++ не показывает исходные символы с самого начала? Если вы включите шестнадцатеричный редактор, а затем отключите его, он будет расширяться.
(Также (снова), попробуйте скопировать вложенные выше символы дважды в блокнот ++. См. разницу? Ничего, кроме 0x3f
и случайных 0x20
. Это также верно для каждого отдельного символа. как я знаю, ни пространство, ни вопросительный знак не похожи на вышеуказанные символы. Но, может быть, я ошибаюсь..)
Вот фрагмент из прогноза:
EDIT: Редактирование этих символов с помощью UTF-8
вместо глупого ANSI
фактически позволяет вам видеть правильные байты.
РЕДАКТИРОВАТЬ 2: Я, вероятно, должен был быть более ясным в том, что я хотел знать, когда писал этот вопрос (в моей защите я был настолько измучен, что мне просто хотелось кричать BRAINOVERFLOW
, когда Я видел это [скриншот]).
РЕДАКТИРОВАТЬ 3: (скопировано из ответа yahoo) Кажется, это вещь, называемая "укладкой диакритики" с использованием тайских символов.
По сути, тайский персонаж ก "ko kai" может иметь любую из нескольких надстрочных диакритических знаков, таких как ็ "maitaikhu". Если вы следуете "ko kai" с "maitaikhu", последний выглядит как верхний индекс таким образом: ก็
Если вы добавите дополнительные диакритики после такой комбинации, они будут складываться так: ก ็็็็็
Вот символы, которые это сделают: http://graphemica.com/search?q=%E0%B8%81...