Я смотрел на свернутую нейронную сеть из CS231n сверточных нейронных сетей для визуального распознавания. В сверточной нейронной сети нейроны расположены в трех измерениях (height, width, depth). У меня возникают проблемы с depth CNN. Я не могу представить, что это такое.
В ссылке они сказали The CONV layer parameters consist of a set of learnable filters. Every filter is small spatially (along width and height), but extends through the full depth of the input volume.
Например, посмотрите на это изображение. Извините, если изображение слишком дрянное. 
Я могу понять, что мы берем небольшую область с изображения, а затем сравниваем ее с "Фильтрами". Таким образом, фильтры будут собирать небольшие изображения? Также они сказали We will connect each neuron to only a local region of the input volume. The spatial extent of this connectivity is a hyperparameter called the receptive field of the neuron. Итак, восприимчивое поле имеет тот же размер, что и фильтры? И какая будет глубина здесь? И что мы обозначим, используя глубину CNN?
Итак, мой вопрос в основном состоит в том, что если я возьму изображение, имеющее размерность [32*32*3] (скажем, у меня есть 50000 этих изображений, создавая набор данных [50000*32*32*3]), что я буду выбирать как его глубину и что бы это сделал означают глубину. Каким будет размерность фильтров?
Также будет полезно, если кто-нибудь сможет предоставить некоторую ссылку, которая дает некоторую интуицию на этом.
EDIT:
Итак, в одной части учебника (часть примера реального мира) говорится: The Krizhevsky et al. architecture that won the ImageNet challenge in 2012 accepted images of size [227x227x3]. On the first Convolutional Layer, it used neurons with receptive field size F=11, stride S=4 and no zero padding P=0. Since (227 - 11)/4 + 1 = 55, and since the Conv layer had a depth of K=96, the Conv layer output volume had size [55x55x96].
Здесь мы видим, что глубина 96. То есть глубина, которую я выбираю произвольно? или что-то, что я вычислил? Также в приведенном выше примере (Крижевский и др.) Они имели 96 глубин. Итак, что это значит по 96 глубинам? Также в учебнике указано Every filter is small spatially (along width and height), but extends through the full depth of the input volume.
Значит, глубина будет такой? Если да, то могу ли я принять Depth = Number of Filters?


