Какая кодировка символов используется?

Нечетные коды символов:

ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้้้้้้้้้้้้้ ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้้้้้้้้้้้้้ ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้้้้้้้้้้้้้ ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้

Вопрос: Какая кодировка этих символов?


(Совет: попробуйте отредактировать этот вопрос, и вы увидите, почему они странные, LIVE)

Да, это так. Вы видите то же самое, что и я.
По-видимому, это произошло от мака. Итак, с небольшим знанием предмета, который у меня есть, я выпустил блокнот ++ и попытался просмотреть его в шестнадцатеричном формате.

Результат? Попробуйте сами: http://notepad-plus-plus.org/

Довольно очевидно; Какого черта? Я могу понять, если это Just a Bunch of Bits в какой-то странной запатентованной двоичной кодировке (содержащей такие вещи, как цвет, шрифт и т.д.). Но почему они так странно выглядят?


Также почему notepad ++ не показывает исходные символы с самого начала? Если вы включите шестнадцатеричный редактор, а затем отключите его, он будет расширяться.


(Также (снова), попробуйте скопировать вложенные выше символы дважды в блокнот ++. См. разницу? Ничего, кроме 0x3f и случайных 0x20. Это также верно для каждого отдельного символа. как я знаю, ни пространство, ни вопросительный знак не похожи на вышеуказанные символы. Но, может быть, я ошибаюсь..)

Вот фрагмент из прогноза:

Do you see that?!?!

EDIT: Редактирование этих символов с помощью UTF-8 вместо глупого ANSI фактически позволяет вам видеть правильные байты.

РЕДАКТИРОВАТЬ 2: Я, вероятно, должен был быть более ясным в том, что я хотел знать, когда писал этот вопрос (в моей защите я был настолько измучен, что мне просто хотелось кричать BRAINOVERFLOW, когда Я видел это [скриншот]).

РЕДАКТИРОВАТЬ 3: (скопировано из ответа yahoo) Кажется, это вещь, называемая "укладкой диакритики" с использованием тайских символов.

По сути, тайский персонаж ก "ko kai" может иметь любую из нескольких надстрочных диакритических знаков, таких как ็ "maitaikhu". Если вы следуете "ko kai" с "maitaikhu", последний выглядит как верхний индекс таким образом: ก็

Если вы добавите дополнительные диакритики после такой комбинации, они будут складываться так: ก ็็็็็

Вот символы, которые это сделают: http://graphemica.com/search?q=%E0%B8%81...

Ответ 1

Простой поиск в gnome charmap:

U+0E01 THAI CHARACTER KO KAI

General Character Properties

In Unicode since: 1.1
Unicode category: Letter, Other

Various Useful Representations

UTF-8: 0xE0 0xB8 0x81
UTF-16: 0x0E01

C octal escaped UTF-8: \340\270\201
XML decimal entity: ก

за которым следует (один или несколько вариантов):

U+0E47 THAI CHARACTER MAITAIKHU

General Character Properties

In Unicode since: 1.1
Unicode category: Mark, Non-Spacing

Various Useful Representations

UTF-8: 0xE0 0xB9 0x87
UTF-16: 0x0E47

C octal escaped UTF-8: \340\271\207
XML decimal entity: ็

Annotations and Cross References

Alias names:
 • mai taikhu

Вторая - это метка без пробела, украшающая первый char

Ответ 2

Ввод этих символов в поле поиска Graphmenica приведет вас к этой странице, показывая разные используемые символы: