Я понимаю, что пакетная нормализация помогает ускорить обучение, поворачивая активацию к распределению по Гауссу, и таким образом решая проблему исчезающих градиентов. Действия нормы партии применяются по-разному при обучении (используйте среднее значение/переменную для каждой партии) и во время теста (используйте окончательное среднее значение/переменную по фазе обучения).
Нормализация экземпляров, с другой стороны, действует как нормализация контраста, как упомянуто в этом документе https://arxiv.org/abs/1607.08022. Авторы отмечают, что выходные стилизованные изображения не должны зависеть от контраста входного содержимого изображения, и, следовательно, нормализация экземпляров помогает.
Но тогда мы не должны также использовать нормализацию экземпляров для классификации изображений, где метка класса не должна зависеть от контраста входного изображения. Я не видел никакой бумаги, использующей нормализацию экземпляров вместо нормализации партий для классификации. В чем причина этого? Кроме того, можно и нужно использовать нормализацию партии и экземпляра вместе. Я стремлюсь получить как интуитивное, так и теоретическое понимание того, когда использовать какую нормализацию.