В Юникоде буквы с акцентами могут быть представлены двумя способами: самой подчеркнутой буквой и комбинацией голой буквы с акцентом. Например, é (+ U00E9) и e'(+ U0065 + U0301) обычно отображаются одинаково.
R отображает следующее (версия 3.0.2, Mac OS 10.7.5):
> "\u00e9"
[1] "é"
> "\u0065\u0301"
[1] "é"
Однако, конечно:
> "\u00e9" == "\u0065\u0301"
[1] FALSE
Есть ли функция в R, которая преобразует буквы с двумя символами Юникода в их односимвольную форму? В частности, здесь она рушится "\u0065\u0301"
на "\u00e9"
.
Это было бы очень удобно обрабатывать большие количества строк. Кроме того, односимвольные формы могут быть легко преобразованы в другие кодировки через iconv
- по крайней мере, для обычных символов Latin1 - и лучше обрабатываются plot
.
Большое спасибо заранее.