Я получаю символы символов UTF-8 как латинские символы 1-го символа. Примеры содержат
Latin 1 character bytes ----- UTF-8 bytes
äännök ----- äännök
Ã<U+0084>Ã<U+0084>NÃ<U+0096>S ----- äänös
и моя информация о сеансе
> sessionInfo()
R version 3.3.2 (2016-10-31)
Platform: x86_64-apple-darwin13.4.0 (64-bit)
Running under: macOS Sierra 10.12.1
locale:
[1] C/UTF-8/C/C/C/C
attached base packages:
[1] stats graphics grDevices utils datasets methods base
Итак, какие настройки мне нужны в R для правильной обработки умляутов (не для того, чтобы возвращать байты UTF-8 в виде латинских символов 1)?
Связанные?
По-видимому, this, мне нужно
Если вы меняете Sys.setlocale с "LC_CTYPE" или "LC_ALL" , чтобы изменить языковой стандарт системы во время работы RStudio, вы можете столкнуться с некоторыми незначительными проблемами, такими как RStudio предполагает, что системное кодирование не изменяется. Если вы находитесь в Windows, мы рекомендуем вызывать только Sys.setlocale в .Rprofile. Если вы находитесь на Mac или Linux и хотите изменить языковой стандарт системы, посетите форум поддержки и сообщите нам о своем сценарии.
- Существует ли какой-нибудь простой инструмент для преобразования байтов символов Latin-1 в байты символов UTF-8?
P.s. Я тестировал это сейчас в R на Linux и R на OSX, я получаю ту же проблему интерпретации байтов символов UTF-8, что и символы латиницы 1-го символа.