Особенности обычно нормализуются до классификации.
Нормализация L1 и L2 обычно используется в литературе.
Можно ли прокомментировать преимущества нормы L2 (или нормы L1) по сравнению с нормой L1 (или нормой L2)?
Ответ 1
Преимущества L2 над нормой L1
- Как уже было сказано aleju в комментариях, выводы нормы L2 легко вычисляются. Поэтому он также прост в использовании методов обучения на основе градиента.
- L2-регуляризация
оптимизирует среднюю стоимость (тогда как L1 уменьшает медиану
explain), который часто используется как измерение производительности. Это особенно хорошо, если вы знаете, что у вас нет никаких выбросов, и вы хотите, чтобы общая ошибка была небольшой.
- Решение, скорее всего, будет уникальным. Это связано с предыдущей точкой: хотя среднее значение является единственным значением, медиана может располагаться в интервале между двумя точками и поэтому не является уникальной.
- В то время как L1-регуляризация может дать вам разреженный вектор коэффициентов, нерасширение L2 может улучшить вашу производительность прогнозирования (поскольку вы используете больше возможностей вместо простого игнорирования их).
- L2 инвариантно относительно вращения. Если у вас есть набор данных, состоящий из точек в пространстве, и вы применяете поворот, вы все равно получаете одинаковые результаты (т.е. Расстояния между точками остаются неизменными).
Преимущества L1 над нормой L2
- Норма L1 предпочитает разреженные коэффициенты. (пояснение в Quora) Это означает, что норма L1 выполняет выбор функции, и вы можете удалить все функции, где коэффициент равен 0. Уменьшение размеров полезно практически во всех случаях.
- Норма L1 оптимизирует медиану. Поэтому норма L1 не чувствительна к выбросам.
Другие источники:
Тот же вопрос о Quora
Еще один
Ответ 2
Если вы работаете с обратными задачами, L1 вернет более разреженную матрицу, а L2 вернет более коррелированную матрицу.