Позвольте сделать текстовую обработку
Здесь я стою с матрицей терминов документов (из пакета tm
)
dtm <- TermDocumentMatrix(
myCorpus,
control = list(
weight = weightTfIdf,
tolower=TRUE,
removeNumbers = TRUE,
minWordLength = 2,
removePunctuation = TRUE,
stopwords=stopwords("german")
))
Когда я делаю
typeof(dtm)
Я вижу, что это "список", и структура выглядит как
Docs
Terms 1 2 ...
lorem 0 0 ...
ipsum 0 0 ...
... .......
Итак, я попробую
wordMatrix = as.data.frame( t(as.matrix( dtm )) )
Это работает для 1000 документов.
Но когда я пытаюсь использовать 40000, этого больше нет.
Я получаю эту ошибку:
Fehler in vector(typeof(x$v), nr * nc) : Vektorgröße kann nicht NA sein
Zusätzlich: Warnmeldung:
In nr * nc : NAs durch Ganzzahlüberlauf erzeugt
Ошибка в векторе...: Вектор не может быть NA Дополнительно: В nr * nc NA, созданных при переполнении целых чисел
Итак, я посмотрел на as.matrix, и получается, что каким-то образом функция преобразует ее в вектор с as.vector и, чем с матрицей. Преобразование в вектор работает, но не одно из вектора в матрицу dosen't.
Есть ли у вас какие-либо предложения, что может быть проблемой?
Спасибо, Капитан