Некоторые символы, такие как символ Юникода "LATIN SMALL LETTER C WITH CARON", могут быть закодированы как 0xC4 0x8D
, но также могут быть представлены двумя кодовыми точками для "LATIN SMALL LETTER C" и "COMBINING CARON", которые 0x63 0xcc 0x8c
.
Подробнее здесь: http://www.fileformat.info/info/unicode/char/10d/index.htm
Интересно, есть ли библиотека, которая может конвертировать "LATIN SMALL LETTER C" + "КОМБИНИРОВАНИЕ КАРОНА" в "ЛАТИНСКОЕ МАЛОЕ ПИСЬМО C С КАРОНОМ". Или есть таблица, содержащая эти преобразования?