Почему алгоритм C4.5 использует обрезку, чтобы уменьшить дерево решений и как обрезка влияет на точность предсказания?

Я искал в google об этой проблеме, и я не могу найти что-то, что объясняет этот алгоритм простым, но подробным способом.

Например, я знаю, что алгоритм id3 не использует обрезку вообще, поэтому, если у вас есть непрерывная характеристика, показатели успеха прогнозирования будут очень низкими.

Итак, C4.5 для поддержки непрерывных характеристик использует обрезку, но это единственная причина?

Также я не могу понять в приложении WEKA, как именно фактор доверия влияет на эффективность предсказаний. Чем меньше доверительный коэффициент, тем более обрезается алгоритм, однако какова корреляция между обрезкой и точностью предсказания? Чем больше вы обрезаете, тем лучше прогнозы или что еще хуже?

Спасибо

Ответ 1

Обрезка - это способ уменьшения размера дерева решений. Это уменьшит точность данных обучения, но (в общем) повысит точность невидимых данных. Он используется для смягчения overfitting, где вы достигнете совершенной точности данных обучения, но модель (т.е. дерево решений), которую вы изучаете, настолько конкретным, что это не относится ни к чему, кроме данных обучения.

В целом, если вы увеличите обрезку, точность в наборе тренировок будет ниже. Однако WEKA предлагает различные вещи, чтобы лучше оценить точность, а именно тренировку/тестирование или перекрестное подтверждение. Например, если вы используете кросс-валидацию, вы обнаружите "сладкое пятно" фактора уверенности в обрезке где-нибудь там, где оно достаточно ровно, чтобы сделать научное дерево решений достаточно точным на тестовых данных, но не жертвует слишком большой точностью на данные обучения. Там, где это сладкое пятно лежит, будет зависеть от вашей фактической проблемы, и единственный способ определить ее надежно - попробовать.