10-кратная перекрестная проверка

В k раз мы имеем следующее: вы делите данные на k подмножеств (примерно) равный размер. Вы тренируете сеть k раз, каждый раз из одного из подмножеств от обучения, но используя только пропущенное подмножество вычислите, какой критерий ошибки вас интересует. Если k равно образцу размер, это называется перекрестной валидностью "выбытие". "Leave-v-out" - это более сложная и дорогостоящая версия перекрестной проверки, которая включает в себя оставляя все возможные подмножества v случаев.

что означает обучение и тестирование терминов? Я не понимаю.

Не могли бы вы рассказать мне несколько ссылок, где я могу узнать этот алгоритм с примером?

Train classifier on folds: 2 3 4 5 6 7 8 9 10; Test against fold: 1
Train classifier on folds: 1 3 4 5 6 7 8 9 10; Test against fold: 2
Train classifier on folds: 1 2 4 5 6 7 8 9 10; Test against fold: 3
Train classifier on folds: 1 2 3 5 6 7 8 9 10; Test against fold: 4
Train classifier on folds: 1 2 3 4 6 7 8 9 10; Test against fold: 5
Train classifier on folds: 1 2 3 4 5 7 8 9 10; Test against fold: 6
Train classifier on folds: 1 2 3 4 5 6 8 9 10; Test against fold: 7
Train classifier on folds: 1 2 3 4 5 6 7 9 10; Test against fold: 8
Train classifier on folds: 1 2 3 4 5 6 7 8 10; Test against fold: 9
Train classifier on folds: 1 2 3 4 5 6 7 8 9;  Test against fold: 10  

Ответ 1

Вкратце: Обучение - это процесс предоставления обратной связи алгоритму для корректировки прогностической способности создаваемого классификатора (ов).

Тестирование - это процесс определения реалистичной точности классификатора (классификаторов), созданного алгоритмом. Во время тестирования классификатору (классификаторам) присваиваются невидимые экземпляры данных для окончательного подтверждения того, что точность классификатора не сильно отличается от таковой во время обучения.

Однако вам не хватает ключевого шага посередине: проверка (это то, о чем вы говорите в 10-кратной/k-кратной перекрестной проверке).

Валидация выполняется (обычно) после каждого этапа обучения и выполняется для того, чтобы определить, переопределяется ли классификатор. Шаг проверки не дает никакой обратной связи алгоритму, чтобы скорректировать классификатор, но помогает определить, происходит ли переобучение, и оно сигнализирует о завершении обучения.

Подумайте о процессе следующим образом:

1. Train on the training data set.
2. Validate on the validation data set.
if(change in validation accuracy > 0)
   3. repeat step 1 and 2
else
   3. stop training
4. Test on the testing data set.

Ответ 2

В методе k-fold вам необходимо разделить данные на k сегментов, k-1 из них используется для обучения, а один - для тестирования. Это делается k раз, первый раз, первый сегмент используется для тестирования, а остальные используются для обучения, затем второй сегмент используется для тестирования, а остальные используются для обучения и т.д. Это ясно из вашего примера в 10 раз, поэтому оно должно быть простым, прочитайте снова.

Теперь о том, что такое обучение и какое тестирование:

Обучение по классификации - это та часть, в которой создается модель классификации, используя некоторый алгоритм, популярными алгоритмами для создания обучающих моделей являются ID3, C4.5 и т.д.

Тестирование означает оценку модели классификации путем запуска модели по тестовым данным, а затем создание матрицы путаницы, а затем вычисления точности и частоты ошибок модели.

В методе K-fold создается k моделей (как видно из описания выше), и наиболее точной моделью классификации является выбранная.