Тюркские символы "ÇçĞğııÖöŞşÜü" не обрабатываются правильно в кодировке utf-8, хотя все они кажутся определенными. Символы всех из них - 65533 (символ replacemnt, возможно, для отображения ошибок) при использовании, и в зависимости от выбранного шрифта отображается вопросительный знак или поле. В некоторых случаях 0/null возвращается как charcode. В Интернете есть много инструментов, которые дают определения utf-8, но я не уверен, что инструменты используют какой-либо определенный (реальный/международный) реестр или динамически создают определение с известными правилами и вычислениями. Шрифты для них четко определены, и нет проблем с отображением их при вводе кодовых точек вручную. Это доказывает, что они определены в utf-8. Но, с другой стороны, они не обрабатываются в кодировках или траннаформациях, таких как ajax-запросы/ответы.
Итак, базовый вопрос: "КАК МЫ ОПРЕДЕЛИЕМ КОДЕКСА ДЛЯ A CHAR"? Вопрос может быть адаптирован следующим образом для предотвращения ошибочной концепции. Предположим, что мы подготовили данные кодирования для "Ç" следующим образом: Характер: Ç Название персонажа: LATIN CAPITAL ПИСЬМО C CEDILLA Кодовая точка шестнадцатеричного кода: 00C7 Десятичный код: 199 Ширина Hex UTF-8: C387 ...... Где/Как мы можем сохранить эту информацию в качестве стандартного utf-8 char? Как мы можем распространять/раскрывать его (готовиться к использованию другими)? Нужно ли нам какое-либо подтверждение кем-либо/учредителем (например, консорциум unicode/utf-8) Как мы можем обнаружить/исправить ошибки, если они уже зарегистрированы, но не работают правильно? Можем ли мы иметь конфигурацию custom-utf8? Если да, то как?
Примечание. Здесь нет фрагмента кода, так как это не проблема с неправильным использованием.