Я пытаюсь использовать пакет tm в R для выполнения некоторого текстового анализа. Я связал следующее:
require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)�lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
Проблема в том, что некоторые символы недопустимы. Я хотел бы исключить недопустимые символы из анализа либо изнутри R, либо перед импортом файлов для обработки.
Я попытался использовать iconv для преобразования всех файлов в utf-8 и исключить все, что не может быть преобразовано в следующее:
find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \;
как указано здесь Пакетное преобразование файлов latin-1 в utf-8 с помощью iconv
Но я все равно получаю ту же ошибку.
Буду признателен за любую помощь.