Я только что потратил некоторое время на изучение data.table
в R и задавался вопросом об условиях, при которых я могу ожидать наибольшего прироста производительности. Возможно, простой ответ заключается в том, что у меня есть большой файл данных и часто работают с подмножествами этого data.frame. Когда я просто загружаю файлы данных и оцениваю модели, я не могу ожидать многого, но многие операции [
имеют значение. Это правда и единственный ответ или что еще я должен учитывать? Когда это начинает иметь значение? 10x5, 1,000x5, 1,000,000x5?
Изменить: некоторые из комментариев предполагают, что data.table
часто быстрее и, что не менее важно, почти никогда не замедляется. Поэтому было бы также полезно знать, когда не использовать data.table
.