Набор общедоступных данных для локализации/обнаружения номерного знака

Я читал много статей о алгоритмах локализации/обнаружения номерных знаков, таких как упомянутые здесь:

Каковы хорошие алгоритмы обнаружения автомобильных номерных знаков?

Я надеялся запустить мой на наборе данных автомобилей с известными номерами лицензий, чтобы я мог измерить ошибку.

После того, как я много думаю, я не могу найти общедоступных наборов данных такого рода. Кто-нибудь знает? Если нет, мой следующий шаг будет отправлен по электронной почте авторам статей.

Ответ 1

Я не уверен, как незаконно публиковать тестовые наборы данных изображений любого вида, взятые в публичном пространстве, поскольку это было сделано, и они были использованы в документах для целей результатов перекрестной проверки, но Я не знаю, какой уровень разрешения был необходим для публикации набора данных. Это заставляет вас думать, прежде чем выходить на улицу и брать кучу фотографий, а затем публиковать их. Я знаю, что просмотр в Google Street размывает все тарелки, полностью испортил то, что должно быть почти неограниченным золотым моментом данных анализа пластин. Он по-прежнему является золотым моментом локализации автомобиля из естественных данных сцены, но расстраивается с точки зрения пластины. Это может объяснить, почему так сложно найти какие-либо хорошие наборы данных, которые легко доступны. Вы могли бы подумать, что у нас будет довольно стандартная коллекция десятков тысяч пластин. Поиск изображений Google для "задней части автомобиля" на самом деле дает меньше результатов, чем можно было бы ожидать, и вам нужно сделать выбор вишни, чтобы отсеять изображения, которые не работают.

Сайт Medialab, размещенный @Abosamra, действительно хорош, хотя это греческие, а не американские тарелки.

С http://www.vision.caltech.edu/html-files/archive.html картинки Cars 1999 (Rear) 2 великолепны, хотя их всего 126. Это, безусловно, лучший американский набор данных, который мгновенно загружается, что я нашел, в том числе автомобили в естественных сценах с легко читаемыми пластинами.

Изображения 2001 года с одного и того же сайта содержат много повторов и в основном имеют слишком низкое разрешение, чтобы быть полезными для тестирования OCR, хотя они могут использоваться для тестирования локализации пластин и их более 500.

Оксфорд повторно публикует автомобили Caltech по первому каналу вместе с гораздо большим набором данных из 1155 изображений автомобилей, слишком малых для OCR, но может быть полезно для процесса обнаружения автомобиля:

http://www.robots.ox.ac.uk/~vgg/data3.html

MIT имеет набор данных, который сначала кажется многообещающим, но затем оказывается, что пластины слишком маленькие, чтобы делать OCR, и находятся в формате ppm, поэтому может потребоваться дополнительный дополнительный шаг для преобразования их в более общий файл формат. Они могут быть полезны для тестов локализации.

http://cbcl.mit.edu/projects/cbcl/software-datasets/CarData1Readme.html

UCSD имеет набор из примерно 878 изображений, но для получения доступа к набору данных требуется разрешение Луки Длангековой или Сержа Белонге. http://vision.ucsd.edu/belongie-grp/research/carRec/car_data.html

Если вы не против использования пластинок за пределами США, вы можете найти больше наборов данных. Вот один, например, который находится в Хорватии, но имеет 510 изображений, которые являются хорошим качеством. Они немного увеличены, поэтому они не очень хороши для тестирования способности вытащить автомобиль из естественной сцены, но очень хороши для идентификации пластин.

http://www.zemris.fer.hr/projects/LicensePlates/hrvatski/rezultati.shtml

Так как реальные пластины настолько трудно найти в автомобильных сценах, возможно, можно создать набор данных с использованием поддельных пластин. Вот сайт, который может создавать поддельные пластины:

http://acme.com/licensemaker/

Поддельные пластинки могут быть идеальными для создания тестового набора данных самих пластин для сегментации и фаз распознавания символов с множеством разных фоновых рисунков и шрифтов.

Таким образом, единственное, что осталось на самом деле - это найти способ встроить некоторые случайно созданные поддельные пластины в некоторые изображения с размытыми пластинами.

Я могу обновить свой пост, если найду больше.