Почему метод Cross Entropy предпочтительнее ошибки среднего квадрата? В каких случаях это не задерживается?

Хотя оба вышеуказанных метода обеспечивают лучший результат для лучшей близости прогноза, предпочтение отдается кросс-энтропии. Это во всех случаях или есть некоторые специфические сценарии, где мы предпочитаем кросс-энтропию над MSE?

Ответ 1

Кросс-энтропия предпочтительна для классификации, а средняя квадратичная ошибка - один из лучших вариантов регрессии . Это происходит непосредственно из утверждения самих проблем: в классификации вы работаете с очень определенным набором возможных выходных значений, поэтому MSE плохо определен (поскольку он не обладает таким видом знаний, таким образом, наказывает ошибки несовместимым образом). Чтобы лучше понять феномены, хорошо следовать и понимать отношения между

  • кросс-энтропия
  • логистическая регрессия (бинарная кросс-энтропия)
  • линейная регрессия (MSE)

Вы заметите, что оба они могут рассматриваться как оценки максимального правдоподобия, просто с различными предположениями относительно зависимой переменной.

Ответ 2

Когда вы получаете функцию стоимости из аспекта вероятности и распределения, вы можете заметить, что MSE происходит, когда вы принимаете ошибку, следуя нормальному распределению и кросс-энтропии, когда вы принимаете биномиальное распределение. Это означает, что неявно, когда вы используете MSE, вы выполняете регрессию (оценку), а когда используете CE, вы выполняете классификацию. Надеюсь, это поможет немного.

Ответ 3

Например, если вы выполняете логистическую регрессию, вы будете использовать сигмоидную функцию для оценки вероятности, кросс-энтропии как функции потерь и спуска градиента, чтобы минимизировать ее. Выполнение этого, но использование MSE в качестве функции потери может привести к невыпуклой проблеме, где вы можете найти локальные минимумы. Использование кросс-энтропии приведет к выпуклой проблеме, где вы можете найти оптимальное решение.

https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35

Здесь также есть интересный анализ: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean- квадратные ошибки для-нейросетевой классификатор-обучение/