Есть ли правило о том, как лучше всего делить данные на наборы обучения и проверки? Желательно ли разделить 50/50? Или есть явные преимущества наличия большего количества учебных данных относительно данных валидации (или наоборот)? Или этот выбор в значительной степени зависит от приложения?
В основном я использовал 80%/20% данных обучения и валидации, но я выбрал это разделение без какой-либо принципиальной причины. Может ли кто-нибудь, кто более опытен в машинных процессах, посоветовать мне?