Точная оценка глубины - Stereo Vision

Я занимаюсь исследованиями в области стереовидения, и меня интересует точность оценки глубины в этом вопросе. Это зависит от нескольких факторов, таких как:

  • Собственная стереокалибровка (вращение, перевод и искажение),
  • разрешение изображения,
  • качество камеры и объектива (меньшее искажение, правильный захват цвета),
  • совместимые функции между двумя изображениями.

Скажем, у нас нет недорогих камер и линз (без дешевых веб-камер и т.д.).

Мой вопрос: какова точность оценки глубины, которую мы можем достичь в этой области? Кто-нибудь знает реальную систему стерео зрения, которая работает с некоторой точностью? Можем ли мы достичь точности оценки глубины 1 мм?

Мой вопрос также касается систем, реализованных в opencv. Какую точность вам удалось достичь?

Ответ 1

Я бы добавил, что использование цвета - плохая идея даже для дорогих камер - просто используйте градиент интенсивности серого. Некоторые производители высококачественных стереокамер (например, Point Grey) привыкли полагаться на цвет, а затем переключились на серый. Также рассмотрите смещение и дисперсию как два компонента ошибки стереофонического согласования. Это важно, поскольку использование корреляционного стерео, например, с большим окном корреляции, приведет к усреднению глубины (т.е. Моделирует мир как группу фронто-параллельных патчей) и уменьшит смещение при одновременном увеличении дисперсии и наоборот. Так что всегда есть компромисс.

Больше чем факторы, которые вы упомянули выше, точность вашего стерео будет зависеть от специфики алгоритма. Это зависит от алгоритма, чтобы проверить глубину (важный шаг после стерео оценки) и изящно заделать дыры в бесструктурных областях. Например, рассмотрите возможность проверки в прямом и обратном направлении (при сопоставлении R к L должны быть получены те же кандидаты, что и при сопоставлении с L по R), устранение блоб-шума (негауссовский шум, типичный для стереосогласования, удаленного с помощью алгоритма подключенного компонента), проверка текстуры (недопустимая глубина в областях со слабой текстурой), проверка уникальности (наличие унимодальной оценки соответствия без второго и третьего сильных кандидатов. Это, как правило, сокращение до проверки вперед-назад) и т.д. Точность также будет зависеть от шума датчика и датчик динамического диапазона.

Наконец, вы должны задать свой вопрос о точности как функции глубины, поскольку d = f * B/z, где B - базовая линия между камерами, f - фокусное расстояние в пикселях, а z - расстояние вдоль оптической оси. Таким образом, существует сильная зависимость точности от базовой линии и расстояния.

Kinect обеспечит точность 1 мм (смещение) с довольно большой дисперсией до 1 м или около того. Затем он резко падает. У Kinect будет мертвая зона до 50 см, поскольку нет достаточного перекрытия двух камер на близком расстоянии. И да - Kinect - это стереокамера, в которой одна из камер моделируется ИК-проектором.

Я уверен, что с вероятностным стерео, таким как распространение убеждений на марковских случайных полях, можно добиться более высокой точности. Но эти методы предполагают некоторые сильные приоритеты относительно гладкости поверхностей объекта или конкретной ориентации поверхности. Смотрите это, например, стр. 14.

Ответ 2

В. Кто-нибудь знает настоящую систему стереозрения, которая работает с некоторой точностью? Можем ли мы достичь точности оценки глубины 1 мм?

Да, вы определенно можете достичь точности оценки глубины 1 мм (и намного лучше) с помощью стереогарнитуры (черт возьми, вы можете проводить стерео разведку с помощью пары микроскопов). Системы промышленной инспекции на основе стерео с погрешностью в диапазоне 0,1 мм находятся в рутинном использовании и используются по крайней мере с начала 1990 года. Для ясности, под "стереоизображением" я подразумеваю систему трехмерной реконструкции, использующую 2 или более геометрически разделенных датчика, где трехмерное местоположение точки определяется путем триангуляции согласованных изображений трехмерной точки в датчиках. Такая система может использовать структурированные проекторы света, чтобы помочь с согласованием изображения, однако, в отличие от надлежащей "системы трехмерного восстановления на основе структурированного света", она не полагается на калиброванную геометрию для самого проектора света.

Однако большинство (вероятно, все) такие стереосистемы, разработанные для высокой точности, используют либо ту или иную форму структурированного освещения, либо некоторую предварительную информацию о геометрии реконструированных форм (или их комбинацию), чтобы жестко ограничить соответствие точки для триангуляции. Причина в том, что, вообще говоря, можно триангулировать более точно, чем они могут соответствовать, поэтому точность соответствия является ограничивающим фактором для точности восстановления.

Один интуитивный способ понять, почему это так, - взглянуть на простую форму уравнения стереовосстановления: z = fb/d. Здесь "f" (фокусное расстояние) и "b" (базовая линия) суммируют свойства буровой установки, и они оцениваются калибровкой, тогда как "d" (несоответствие) выражает совпадение двух изображений одной и той же трехмерной точки.

Теперь, что особенно важно, параметры калибровки являются "глобальными", и они оцениваются на основе многих измерений, проведенных в поле зрения и диапазоне глубины, представляющих интерес. Следовательно, предполагая, что процедура калибровки является беспристрастной и что система приблизительно не зависит от времени, ошибки в каждом из измерений усредняются в оценках параметров. Таким образом, с помощью большого количества измерений и жесткого контроля оптики, геометрии и окружающей среды буровой установки (включая вибрации, изменения температуры и влажности и т.д.) Можно очень точно оценить параметры калибровки, то есть повлиять на несмещенные оценочные значения. из-за неопределенности порядка разрешения датчиков или лучше, так что эффектом их остаточных неточностей можно пренебречь в пределах известного объема пространства, в котором работает установка.

Однако различия являются точечными оценками: утверждается, что точка p на левом изображении совпадает (может быть) с точкой q на правом изображении, и любая ошибка в несоответствии d = (q - p) появляется в z, масштабируемой по f b. Это одноразовая вещь. Хуже того, на оценку диспаратности во всех нетривиальных случаях влияют (априори неизвестная) геометрия и свойства поверхности анализируемого объекта, а также их взаимодействие с освещением. Они сговариваются - с помощью любого подходящего алгоритма сопоставления - чтобы снизить практическую точность реконструкции, которую можно достичь. Здесь помогает структурированное освещение, поскольку оно уменьшает неопределенность соответствия: основная идея состоит в том, чтобы проецировать острые, четко сфокусированные края на объект, который можно найти и сопоставить (часто с точностью до субпикселя) на изображениях. Существует множество методов структурированного света, поэтому я не буду вдаваться в подробности. Но я отмечаю, что это та область, где использование цвета может сильно помочь.

Таким образом, то, чего вы можете достичь на практике, как обычно, зависит от того, сколько денег вы готовы потратить (лучшая оптика, датчик с низким уровнем шума, жесткие материалы и дизайн для механики буровой установки, контролируемое освещение) и от того, насколько хорошо вы понимаете и может ограничить вашу конкретную проблему реконструкции.

Ответ 3

Если вы не узнаете немного больше о точности подходов, посмотрите этот сайт, хотя он уже не очень активен результаты в значительной степени соответствуют уровню техники. Примите во внимание, что пара представленных там докладов шла для создания компаний. Что вы имеете в виду с реальной системой стерео зрения? Если вы имеете в виду коммерческие, их мало, большинство коммерческих систем реконструкции работают со структурированным светом или непосредственно сканерами. Это потому, что (вы пропустили один важный фактор в своем списке), текстура является ключевым фактором точности (или даже до этой корректности); белая стена не может быть восстановлена ​​с помощью стереосистемы, если не будет добавлена ​​текстура или структурированный свет. Тем не менее, по моему собственному опыту, системы, которые включают вариационное сопоставление, могут быть очень точными (точность субпикселей в пространстве изображений), что обычно не достигается с помощью вероятностных подходов. Последнее замечание: расстояние между камерами также важно для точности: очень близкие камеры найдут много правильных совпадений и быстро, но точность будет низкой, более отдаленные камеры найдут меньше совпадений, вероятно, потребуется больше времени, но результаты могут быть более точным; существует оптимальная область коники, определенная в много книг. После всего этого blabla я могу сказать вам, что с помощью opencv одна из лучших вещей, которую вы можете сделать, это выполнить калибровку исходных камер, использовать оптический поток Brox для поиска совпадений и восстановления.