Я решаю проблему классификации с логической регрессией sklearn в python.
Моя проблема - общая/общая. У меня есть набор данных с двумя классами/результатом (положительный/отрицательный или 1/0), но набор очень неуравновешен. Есть ~ 5% положительных и ~ 95% негативов.
Я знаю, что существует несколько способов справиться с неуравновешенной проблемой, подобной этой, но не нашли правильного объяснения того, как правильно реализовать пакет sklearn.
То, что я сделал до сих пор, состоит в том, чтобы построить сбалансированный набор тренировок, выбрав записи с положительным результатом и равным количеством случайно выбранных отрицательных записей. Затем я смогу обучить модель этому набору, но я застрял в том, как модифицировать модель, чтобы затем работать с исходной неуравновешенной совокупностью/множеством.
Каковы конкретные шаги для этого? Я наполнил документацию и примеры sklearn и не нашел хорошего объяснения.