Q1:CNN 中的全连接层为什么可以看作是使用卷积核遍历整个输入区域的卷积操作?

A1:以 AlexNet 为例,AlexNet 最后 3 层为全连接层,第一个全连接层的输入层是由卷积层做拉伸而得。对于第一个全连接层中的任一个神经元 \(FC_i^{(1)}\),其都和输入层中所有神经元相连,如果我们将输入层神经元排列成 6×6×256,即对输入层不进行拉伸,那么神经元 \(FC_i^{(1)}\) 就相当于对输入层乘以一个 6×6×256 的 filter(即 filter 的大小和 feature map 是一样的),经激活函数后得到的就是该神经元 \(FC_i^{(1)}\) 的输出。如果有 4096 个 filter,那么第一个全连接层就会有 1×1×4096 个神经元。
  之后情况类似,用 4096 个 1×1×4096 的 fiter 进行卷积即可得到第二层全连接层(1×1×4096),用 1000 个 1×1×4096 的 fiter 进行卷积即可得到第三层全连接层(1×1×1000)。所以全连接层也可以看成是卷积核遍历整个输入区域的卷积操作。

Q2:1×1 的卷积核(filter)怎么理解?

A2:首先需要搞清楚,1×1 的 filter 都干了些什么。
1)不改变 feature map 的大小。即当 stride 和 padding 分别为 1 和 0 时,使用 1×1 的 filter 对大小为 6×6 的 feature map 进行卷积,并不会改变 feature map 的大小。
2)会改变 channel 的数量,以此来达到升维和降维。下一层 channel 数量由该层 filter 的个数决定。
3)增加了非线性。下一层每一个 channel 的 feature map 中任意一点都是上一层同一位置所有 channel 的非线性组合(因为有非线性激活函数)。
4)channel 间信息的交互。

Q3:什么是感受野(Receptive field)?

A3:感受野是指卷积神经网络每一层特征图(feature map)上的神经元在原始图像上映射的区域大小。
  图 2 中,原始图像上的像素点只能看到本身,故可以认为其感受野为 1×1;conv1 中神经元能看到原始图像的 3×3,故其感受野为 3×3;而 conv2 中神经元能看到原始图像 5×5 的区域,故其感受野为 5×5。

Q4:对含有全连接层的 CNN,输入图像的大小必须固定?

A4:以图 1 中展示的 AlexNet 为例,如果 CNN 的输入层大小改变,那么 AlexNet 全连接层的输入层(由卷积层拉伸而得的)神经元个数是会改变的,或者说拉伸前 feature map 的大小变了,后面的全连接操作也没法做了(全连接层参数的个数都改变了)。
  完全卷积网络(Fully Convolutional Network,FCN)的输入图像可以为任意大小,当然输出结果的大小和输入图像大小相关。FCN 的做法就是把全连接层换成了卷积层,参数个数没变。如图 3 把 AlexNet 最后三层全连接层变为卷积层,就得到一个 FCN。

References

语义分割中的深度学习方法全解:从FCN、SegNet到各代DeepLab -- 量子学园
一文读懂卷积神经网络中的1x1卷积核 -- Amusi
深度神经网络中的感受野(Receptive Field) -- 蓝荣祎
FCN的学习及理解(Fully Convolutional Networks for Semantic Segmentation)-- 凹酱deep

03-05 19:42