Это ошибка, которую я получаю, когда пытаюсь запустить tolower()
в символьном векторе из файла, который не может быть изменен (по крайней мере, не вручную - слишком большой).
Error in tolower(m) : invalid multibyte string X
Кажется, что имена французских компаний являются проблемой с символом É
. Хотя я не исследовал их все (также невозможно сделать это вручную).
Странно, потому что я думал, что проблемы с кодировкой были бы идентифицированы во время read.csv()
, а не во время операций после факта.
Есть ли быстрый способ удалить эти многобайтовые строки? Или, может быть, способ идентифицировать и преобразовать? Или даже просто игнорировать их полностью?