Я смотрел на свернутую нейронную сеть из CS231n сверточных нейронных сетей для визуального распознавания. В сверточной нейронной сети нейроны расположены в трех измерениях (height
, width
, depth
). У меня возникают проблемы с depth
CNN. Я не могу представить, что это такое.
В ссылке они сказали The CONV layer parameters consist of a set of learnable filters. Every filter is small spatially (along width and height), but extends through the full depth of the input volume
.
Например, посмотрите на это изображение. Извините, если изображение слишком дрянное.
Я могу понять, что мы берем небольшую область с изображения, а затем сравниваем ее с "Фильтрами". Таким образом, фильтры будут собирать небольшие изображения? Также они сказали We will connect each neuron to only a local region of the input volume. The spatial extent of this connectivity is a hyperparameter called the receptive field of the neuron.
Итак, восприимчивое поле имеет тот же размер, что и фильтры? И какая будет глубина здесь? И что мы обозначим, используя глубину CNN?
Итак, мой вопрос в основном состоит в том, что если я возьму изображение, имеющее размерность [32*32*3]
(скажем, у меня есть 50000 этих изображений, создавая набор данных [50000*32*32*3]
), что я буду выбирать как его глубину и что бы это сделал означают глубину. Каким будет размерность фильтров?
Также будет полезно, если кто-нибудь сможет предоставить некоторую ссылку, которая дает некоторую интуицию на этом.
EDIT:
Итак, в одной части учебника (часть примера реального мира) говорится: The Krizhevsky et al. architecture that won the ImageNet challenge in 2012 accepted images of size [227x227x3]. On the first Convolutional Layer, it used neurons with receptive field size F=11, stride S=4 and no zero padding P=0. Since (227 - 11)/4 + 1 = 55, and since the Conv layer had a depth of K=96, the Conv layer output volume had size [55x55x96].
Здесь мы видим, что глубина 96. То есть глубина, которую я выбираю произвольно? или что-то, что я вычислил? Также в приведенном выше примере (Крижевский и др.) Они имели 96 глубин. Итак, что это значит по 96 глубинам? Также в учебнике указано Every filter is small spatially (along width and height), but extends through the full depth of the input volume
.
Значит, глубина будет такой? Если да, то могу ли я принять Depth = Number of Filters
?