-
В тензорном потоке, можете ли вы использовать негладкую функцию в качестве функции потерь, например, кусочную (или с if-else)? Если вы не можете, почему вы можете использовать ReLU?
-
В этой ссылке SLIM, это говорит
"Например, мы могли бы хотеть минимизировать потери журнала, но наши метрики интереса могли бы быть оценкой F1, или оценкой Пересечения по Союзу (которые не дифференцируемы, и поэтому не могут использоваться в качестве потерь)".
Означает ли это вообще "не дифференцируемо", например, проблемы с множеством? Потому что для ReLU в точке 0 он не дифференцируем.
- Если вы используете такую настраиваемую функцию потерь, вам нужно реализовать градиент самостоятельно? Или tenorflow может сделать это автоматически? Я проверил некоторые настраиваемые функции потерь, они не реализовали градиент для своей функции потерь.