Мне понравился Python раньше, потому что у Python есть богатые встроенные типы, такие как наборы, диктофоны, списки, кортежи. Эти структуры помогают писать короткие сценарии для обработки данных.
С другой стороны, R подобен Matlab и имеет скаляр, вектор, фрейм данных, массив и список в качестве своих типов данных. Но в нем отсутствуют наборы, диктофоны, кортежи и т.д. Я знаю, что тип списка является мощным, многие операции можно рассматривать как обработку списка. Но идея использования R как языка общего назначения остается неопределенной.
(Ниже приведен пример пример. Не означает, что я сосредоточен на обработке текста/разработке.)
Например, мне нужно сделать подсчет TF-IDF для набора новостей (например, 200 000 статей в папке и ее подпапках).
После того, как я прочитал файлы, мне нужно выполнить сопоставление "от слова к идентификатору" и другие задачи подсчета. Эти задачи включают манипуляции с строками и нужны контейнеры, такие как набор или карта.
Я знаю, что могу использовать другой язык для обработки и загрузки данных в R. Но, может быть, (для небольших вещей) лучше всего перевести всю предварительную обработку в один R script.
Итак, мой вопрос заключается в том, что R обладает достаточными возможностями в таких богатых структурах данных на уровне языка? Или, если нет, любые пакеты обеспечивают хорошее расширение для языка R?