Я работаю над конкретной проблемой двоичной классификации с очень неуравновешенным набором данных, и мне было интересно, попытался ли кто-нибудь применить специальные методы для работы с несбалансированными наборами данных (например, SMOTE) в задачах классификации, используя Spark MLlib.
Я использую реализацию MLLib Random Forest и уже пробовал простейший подход к случайному недокалибровке большего класса, но он не работал так хорошо, как я ожидал.
Я был бы признателен за любые отзывы о вашем опыте с подобными проблемами.
Спасибо,