卷积神经网络的数学原理介绍.doc
《卷积神经网络的数学原理介绍.doc》由会员分享,可在线阅读,更多相关《卷积神经网络的数学原理介绍.doc(7页珍藏版)》请在三一文库上搜索。
1、卷积神经网络的数学原理介绍【导读】在计算机神经视觉技术的发展过程中,卷积神经网络成为了其中的重要组成部分,本文对卷积神经网络的数学原理进行了介绍。文章包括四个主要内容:卷积、卷积层、池化层以及卷积神经网络中的反向传播原理。在卷积部分的介绍中,作者介绍了卷积的定义、有效卷积和相同卷积、跨步卷积、3D卷积。在卷积层部分,作者阐述了连接切割和参数共享对降低网络参数学习量的作用。在池化层部分,作者介绍了池化的含义以及掩膜的使用。自动驾驶、智能医疗、智能零售,这些曾被认为不可能实现的事情,在计算机视觉技术的帮助下,终于在最近成为了现实。今天,自动驾驶和自动杂货店的梦想不再像以前那样遥不可及。事实上,每天
2、我们都在使用计算机视觉技术帮助我们用人脸解锁手机,或者对即将发布到社交媒体上的照片进行自动修饰。在计算机视觉技术应用这一巨大成功的背后,卷积神经网络(CNN)可能是其中最重要的组成部分。在本文中,我们将逐步理解,神经网络是如何与CNN特有的思想协作的。本文章包含了相当复杂的数学方程式,但如果您对线性代数和微积分不熟悉,请不要气馁。我的目标不是让您记住那些公式,而是让您从直觉上去理解这些公式背后隐藏的意义。前言在之前的系列中,我们学习了密集连接的神经网络(densely connected neural networks)。这些网络的神经元被分成组,形成连续的层,相邻的两个层之间的神经元相互连接
3、。下图展示了一个密集连接的神经网络的示例。Figure 1.Densely connected neural network architecture当我们解决分类问题时,如果我们的特征是一组有限的并有明确定义的特征,这种方法是很有效的例如,根据足球运动员在比赛期间所记录的统计数据,预测该运动员的位置。但是,当使用照片来进行预测时,情况会变得更加复杂。我们当然可以将每个像素的亮度视为一个单独的特征,并将其作为输入传递给我们的密集网络(dense network)。不幸的是,为了使神经网络能够处理典型的智能手机照片,该网络必须包含数千万甚至数亿个神经元。我们也可以通过缩小照片的尺寸来进行处理手机
4、照片,但是这样做会使我们丢失很多有价值的信息。可以发现,这种传统策略的性能很差,因此我们需要一种新的、更加聪明的方法来尽可能多地使用数据,并同时减少必要的计算和参数的数量。CNN闪亮登场的时候到了。数字图像的数据结构首先花一点时间来解释一下数字图像的存储方式。数字图像实际上是巨大的数字矩阵。矩阵中的每个数字对应于其像素的亮度。在RGB模型中,彩色图像由三个矩阵组成,分别对应三个颜色通道红,绿,蓝。而在黑白图像中,我们只需要一个矩阵。矩阵中的每个数字的取值区间都是0到255。该范围是存储图像信息的效率(256个值刚好适合1个字节)与人眼的灵敏度(我们区分同种颜色的灰度级别的数量极限)之间的折衷。
5、Figure 2.Data structure behind digitalimages卷积核卷积(kernel convolution)不仅仅用于CNN,它还是许多其他计算机视觉算法的关键要素。核卷积就是将一个小数字矩阵(滤波器,也称作 kernel 或 filter)在图像上进行滑动,并根据 kernel 的值,对图像矩阵的值进行转换的过程。对图像经过卷积操作后得到的输出称为特征映射(feature map)。特征映射的值的计算公式如下,其中 f 代表输入图像,h 代表滤波器 。结果矩阵的行数和列数分别用 m 和 n 表示。 Figure 3.Kernel convolution exam
6、ple将 kernel 放在选定的像素上后,我们从 kernel 中依次取出每个值,并将它们成对地与图像中的相应值相乘。最后,我们将每个核运算后的结果元素相加,并将求和结果放在输出特征图中的正确位置上。上图从微观角度详细地展示了这一运算的过程,但在完整图像上实施该运算的结果可能更加有趣。图4展示了使用几个不同 kernel 的卷积结果。 Figure 4.Finding edges with kernel convolution有效卷积正如我们在图3中看到的,当我们使用 3x3 的 kernel 对 6x6 图像执行卷积时,我们得到 4x4 的特征映射。这是因为在这个图像中,只有16个位置可以
7、将 kerenl 完整地放在这张图像中。由于每次执行卷积时我们的图像都会缩小,因此在我们的图像完全消失之前,我们只能进行有限次数的卷积。另外,如果对kernel 在图像中移动的过程进行观察,我们就会发现图像外围像素的影响远小于图像中心像素的影响。这样会导致我们失去图像中包含的一些信息。下图展示了像素位置的改变对特征图的影响。 Figure 5.Impact of pixelposition为了解决这两个问题,我们可以使用额外的边框来填充图像(padding)。例如,如果使用 1像素进行填充,我们将图像的大小增加到 8x8,因此使用 3x3 的 kernel 的卷积,其输出尺寸将为 6x6 。在
8、实践中,我们通常用零值来填充额外的边界。根据是否使用填充,我们将处理两种类型的卷积Valid 和 Same。Valid使用原始图像,Same使用原始图像并使用它周围的边框,以便使输入和输出的图像大小相同。在第二种情况下,填充宽度应满足以下等式,其中 p 是填充尺寸,f 是kernel 尺寸(通常是奇数)。 跨步卷积(Strided Convolution) Figure 6.Example of strided convolution在前面的例子中,我们总是每次将 kernel 移动一个像素,即步长为1。步长也可以视为卷积层的超参数之一。图6展示了使用更大步长时的卷积运算。在设计CNN架构时,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 卷积 神经网络 数学 原理 介绍
链接地址:https://www.31doc.com/p-3398937.html