Мне кажется, что подмножество и фильтр (из dplyr) имеют одинаковый результат. Но мой вопрос: есть ли в какой-то момент разность потенциалов, например. скорость, размеры данных, которые он может обрабатывать и т.д.? Есть ли случаи, когда лучше использовать один или другой?
Пример:
library(dplyr)
df1<-subset(airquality, Temp>80 & Month > 5)
df2<-filter(airquality, Temp>80 & Month > 5)
summary(df1$Ozone)
# Min. 1st Qu. Median Mean 3rd Qu. Max. NA
# 9.00 39.00 64.00 64.51 84.00 168.00 14
summary(df2$Ozone)
# Min. 1st Qu. Median Mean 3rd Qu. Max. NA
# 9.00 39.00 64.00 64.51 84.00 168.00 14