Итак, представьте себе доступ к достаточным данным (миллионы данных для обучения и тестирования) достаточного качества. Пожалуйста, игнорируйте концепцию дрейфа на данный момент и считайте данные статичными и со временем не меняются. Имеет ли смысл использовать все эти данные с точки зрения качества модели?
Brain and Webb (http://www.csse.monash.edu.au/~webb/Files/BrainWebb99.pdf) включили некоторые результаты в эксперименты с разными размерами данных. Их протестированные алгоритмы сходятся к тому, чтобы быть несколько стабильными после обучения с 16 000 или 32 000 точек данных. Однако, поскольку мы живем в большом мире данных, у нас есть доступ к наборам данных из миллионов точек, поэтому документ является несколько актуальным, но чрезвычайно устаревшим.
Есть ли какие-либо более свежие исследования влияния размеров данных на алгоритмы обучения (Наивные Байес, Деревья принятия решений, SVM, нейронные сети и т.д.).
- Когда алгоритм обучения сходится к определенной стабильной модели, для которой больше данных больше не увеличивает качество?
- Может ли это произойти после 50 000 данных, или, может быть, после 200 000 или только после 1 000 000?
- Есть ли правило?
- Или, может быть, нет способа, чтобы алгоритм сходился к устойчивой модели, к определенному равновесию?
Почему я спрашиваю об этом? Представьте себе систему с ограниченным хранилищем и огромным количеством уникальных моделей (тысячи моделей с собственным уникальным набором данных) и не способ увеличения объема хранилища. Поэтому важно ограничить размер набора данных.
Любые мысли или исследования по этому поводу?