У меня проблема дисбаланса класса и экспериментирование с взвешенным случайным лесом с использованием реализации в scikit-learn (> = 0,16).
Я заметил, что реализация принимает параметр class_weight в конструкторе дерева и sample_weight в методе подгонки, чтобы помочь устранить дисбаланс класса. Эти два, кажется, умножаются, хотя и принимают окончательный вес.
Мне трудно понять следующее:
- На каких стадиях строительства/обучения/прогнозирования деревьев используются эти веса? Я видел несколько бумаг для взвешенных деревьев, но я не уверен, что делает scikit.
- В чем же разница между class_weight и sample_weight?