Я большой фанат футбола (футбол) и тоже заинтересовался машинным обучением. В качестве проекта для моего курса ML я пытаюсь построить модель, которая будет прогнозировать шансы на победу для домашней команды, учитывая имена дома и команды. (Я запрашиваю свой набор данных и соответственно создаю datapoints на основе предыдущих совпадений между этими двумя командами)
У меня есть данные в течение нескольких сезонов для всех команд, однако у меня есть следующие проблемы, которые я бы хотел получить с помощью... EPL (английская премьер-лига) имеет 20teams, которые играют друг с другом дома и в отъезде (380 игр в время года). Таким образом, каждый сезон любые две команды играют друг с другом только дважды.
У меня есть данные за последние 10+ лет, в результате получилось 2 * 10 = 20 баз данных для двух команд. Однако я не хочу проходить через 3 года, так как я считаю, что со временем команды значительно меняются (ManCity, Liverpool), и это приведет к большей ошибке в системе.
Таким образом, это приводит к примерно 6-8 точкам данных для каждой пары команд. Тем не менее, у меня есть несколько функций (до 20+) для каждой точки данных, например, цели в полный рабочий день, полминуты, проходы, кадры, желтые, красные и т.д. Для обеих команд, поэтому я могу включить такие функции, как недавняя форма, недавний дом форма, недавняя форма и т.д.
Однако идея просто иметь только 6-8 данных для тренировки кажется мне неправильной. Любые мысли о том, как я мог бы противостоять этой проблеме? (Если это проблема в первую очередь, то есть.)
Спасибо!
EDIT: FWIW, вот ссылка на мой отчет, который я составил при завершении моего проекта. https://www.dropbox.com/s/ec4a66ytfkbsncz/report.pdf. Это не "здорово", но я думаю, что некоторые из наблюдений, которые мне удалось выявить, были довольно крутыми (например, как мое предсказание очень хорошо работало для бундеслиги, потому что "Бавария" всегда выигрывала лигу).