Хотя оба вышеуказанных метода обеспечивают лучший результат для лучшей близости прогноза, предпочтение отдается кросс-энтропии. Это во всех случаях или есть некоторые специфические сценарии, где мы предпочитаем кросс-энтропию над MSE?
Почему метод Cross Entropy предпочтительнее ошибки среднего квадрата? В каких случаях это не задерживается?
Ответ 1
Кросс-энтропия предпочтительна для классификации, а средняя квадратичная ошибка - один из лучших вариантов регрессии . Это происходит непосредственно из утверждения самих проблем: в классификации вы работаете с очень определенным набором возможных выходных значений, поэтому MSE плохо определен (поскольку он не обладает таким видом знаний, таким образом, наказывает ошибки несовместимым образом). Чтобы лучше понять феномены, хорошо следовать и понимать отношения между
- кросс-энтропия
- логистическая регрессия (бинарная кросс-энтропия)
- линейная регрессия (MSE)
Вы заметите, что оба они могут рассматриваться как оценки максимального правдоподобия, просто с различными предположениями относительно зависимой переменной.
Ответ 2
Когда вы получаете функцию стоимости из аспекта вероятности и распределения, вы можете заметить, что MSE происходит, когда вы принимаете ошибку, следуя нормальному распределению и кросс-энтропии, когда вы принимаете биномиальное распределение. Это означает, что неявно, когда вы используете MSE, вы выполняете регрессию (оценку), а когда используете CE, вы выполняете классификацию. Надеюсь, это поможет немного.
Ответ 3
Например, если вы выполняете логистическую регрессию, вы будете использовать сигмоидную функцию для оценки вероятности, кросс-энтропии как функции потерь и спуска градиента, чтобы минимизировать ее. Выполнение этого, но использование MSE в качестве функции потери может привести к невыпуклой проблеме, где вы можете найти локальные минимумы. Использование кросс-энтропии приведет к выпуклой проблеме, где вы можете найти оптимальное решение.
https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35
Здесь также есть интересный анализ: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean- квадратные ошибки для-нейросетевой классификатор-обучение/