非平方卷积核大小答案

【问题标题】：Non-squared convolution kernel size非平方卷积核大小
【发布时间】：2020-01-28 09:59:05
【问题描述】：

卷积神经网络使用 squared_sized 核是很常见的，即 (3,3)、(5,5) 等。

使用非平方内核大小的优缺点是什么？意思是（3,7），（3,9）等。

【问题讨论】：

【解决方案1】：

我想不出任何缺点。这实际上取决于您想要做什么以及您的数据是什么。

当您使用平方大小的内核时，您可以使用该内核将该区域转换为 conv 输出中的一个点。因此，使用正方形，输出中的每个点都是从输入点的一组公平的加权邻居中获得的（垂直邻居的数量与水平邻居的数量相同）。

但是，如果您使用非方形内核大小，例如 3×9 内核大小，则您使用水平比垂直多 3 倍的面积映射每个输入点（反之亦然）。根据数据的性质，这可能会简化您的训练过程并提高准确性。（例如，如果您试图检测非常大的细鳄鱼^_^）。毕竟这些都是我的观点，不是100%的科学事实。

【讨论】：

【解决方案2】：

平方大小的内核背后的原因是您通常不知道学习到的特征会有什么方向。所以你不想限制网络。过滤器的最佳形状是圆形，因此它可以在给定半径的某个区域内学习具有任意方向的任何特征。由于实现问题，这实际上并不可行，所以正方形是次佳形状。

如果你知道，例如所有学习到的特征都将具有 1x3（heightxwidth）的比率，您可以使用像 2x6 这样的内核大小。但你只是不知道这一点。即使您说要检测/分类的对象看起来像这样，它也不会转化为网络将学习识别它的特征。整个优点是您可以让网络学习功能，并且您应该尽可能少地限制这一点。

但我不想让你气馁。深度学习是大量的实验和反复试验。所以只是尝试一下，看看自己。也许对于某种问题，它实际上表现得更好，谁知道呢。

【讨论】：

【解决方案3】：

您可以使用任何您喜欢的内核大小。内核不必是正方形，尤其是当您想更加注意沿特定方向进行处理时。实际上，沿图像中特定轴的移动平均是一个简单的矩形过滤器。

【讨论】：