Я использую RandomForestClassifier, реализованный в пакете python sklearn, чтобы построить двоичную классификационную модель. Ниже приведены результаты перекрестных проверок:
Fold 1 : Train: 164 Test: 40
Train Accuracy: 0.914634146341
Test Accuracy: 0.55
Fold 2 : Train: 163 Test: 41
Train Accuracy: 0.871165644172
Test Accuracy: 0.707317073171
Fold 3 : Train: 163 Test: 41
Train Accuracy: 0.889570552147
Test Accuracy: 0.585365853659
Fold 4 : Train: 163 Test: 41
Train Accuracy: 0.871165644172
Test Accuracy: 0.756097560976
Fold 5 : Train: 163 Test: 41
Train Accuracy: 0.883435582822
Test Accuracy: 0.512195121951
Я использую функцию "Цена", чтобы предсказать "качество", которое является порядковым значением. В каждой перекрестной проверке имеется 163 учебных примера и 41 тестовый пример.
По-видимому, здесь происходит переобучение. Итак, есть ли какие-либо параметры, предоставленные sklearn, для преодоления этой проблемы? Я нашел некоторые параметры здесь, например min_samples_split и min_sample_leaf, но я не совсем понимаю, как их настроить.
Заранее спасибо!