Я искал в google об этой проблеме, и я не могу найти что-то, что объясняет этот алгоритм простым, но подробным способом.
Например, я знаю, что алгоритм id3 не использует обрезку вообще, поэтому, если у вас есть непрерывная характеристика, показатели успеха прогнозирования будут очень низкими.
Итак, C4.5 для поддержки непрерывных характеристик использует обрезку, но это единственная причина?
Также я не могу понять в приложении WEKA, как именно фактор доверия влияет на эффективность предсказаний. Чем меньше доверительный коэффициент, тем более обрезается алгоритм, однако какова корреляция между обрезкой и точностью предсказания? Чем больше вы обрезаете, тем лучше прогнозы или что еще хуже?
Спасибо