Почему ротационно-инвариантные нейронные сети не используются в победителях популярных конкурсов?

Как известно, современная самая популярная CNN (сверточная нейронная сеть): VGG/ResNet (FasterRCNN), SSD, Yolo, Yolo v2, DenseBox, DetectNet - не вращаются инвариантно: современная CNN (сверточная нейронная сеть), так как DetectNet вращает инвариант?

Известно также, что существует несколько нейронных сетей с обнаружением объекта с вращающейся инвариантностью:

Мы знаем, что в таких соревнованиях по обнаружению изображений, как IMAGE-NET, MSCOCO, PASCAL VOC - используются сетевые ансамбли (одновременно некоторые нейронные сети). Или сетевые ансамбли в единой сети, такие как ResNet (Остаточные сети, действующие как ансамбли относительно неглубоких сетей)

Но используются ротационно-инвариантные сетевые ансамбли в победителях как MSRA, а если нет, то почему? Почему в ансамбле дополнительная чередово-инвариантная сеть не добавляет точности для обнаружения определенных объектов, таких как объекты самолетов, - какие изображения выполняются под разными углами поворота?

Это может быть:

  • объекты самолетов, которые сфотографированы с земли введите описание изображения здесь

  • или наземные объекты, которые сфотографированы с воздуха введите описание изображения здесь

Почему ротационно-инвариантные нейронные сети не используются в победителях популярных конкурсов по обнаружению объектов?

Ответ 1

Недавний прогресс в распознавании изображений, который в основном был сделан путем изменения подхода от классического выбора функции - алгоритма неполного обучения без выбора фетов - алгоритм глубокого обучения был вызван не только математическими свойствами сверточных нейронных сетей. Да, конечно, их способность фиксировать одну и ту же информацию с использованием меньшего количества параметров была частично вызвана свойством инвариантности сдвига, но недавнее исследование фантастической книге, эти два подхода (более строгая и меньшая структура + увеличение данных) более или менее эквивалентны.

Ответ 2

Мне также интересно, почему сообщество или ученый не уделяли много внимания рационализации CNN как @Alex.

Одна из возможных причин, на мой взгляд, заключается в том, что многим сценариям не требуется это свойство, особенно для тех популярных соревнований. Как сказал Роб, некоторые естественные картины уже сделаны в едином горизонтальном (или вертикальном) направлении. Например, при обнаружении лица многие работы выравнивают изображение, чтобы люди стояли на земле перед подачей на любые модели CNN. Честно говоря, это самый дешевый и эффективный способ для этой конкретной задачи.

Однако в реальной жизни существуют некоторые сценарии, требующие свойства инвариантности вращения. Поэтому я прихожу к другой догадке: эта проблема не является сложной с точки зрения экспертов (или исследователей). По крайней мере, мы можем использовать увеличение данных для получения некоторого инварианта вращения.

И наконец, большое спасибо за ваше резюме по поводу бумаг. Я добавил еще одну бумагу Group Equivariant Convolutional Networks_icml2016_GCNN и ее реализация на github другими людьми.