Я пытаюсь прочитать таблицы в R с HTML-страниц, которые в основном кодируются в UTF-8 (и объявляют <meta charset="utf-8">
), но имеют некоторые строки в некоторых других кодировках (я думаю, Windows-1252 или ISO 8859-1). Вот пример. Я хочу, чтобы все правильно декодировалось в кадр данных R. XML::readHTMLTable
принимает аргумент encoding
но не позволяет использовать несколько кодировок.
Итак, в R, как я могу попробовать несколько кодировок для каждой строки входного файла? В Python 3 я бы сделал что-то вроде:
with open('file', 'rb') as o:
for line in o:
try:
line = line.decode('UTF-8')
except UnicodeDecodeError:
line = line.decode('Windows-1252')