class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None)
Я использую случайную модель леса с 9 образцами и около 7000 атрибутов. Из этих образцов есть 3 категории, которые распознает мой классификатор.
Я знаю, что это далеко не идеальные условия, но я пытаюсь выяснить, какие атрибуты являются наиболее важными в предсказаниях функций. Какие параметры лучше всего настроить для оптимизации важности функции?
Я пробовал разные n_estimators
и заметил, что количество "значимых функций" (т.е. ненулевые значения в массиве feature_importances_
) резко возросло.
Я прочитал документацию, но если у кого-то есть опыт в этом, я хотел бы знать, какие параметры лучше всего настроить, и краткое объяснение, почему.