欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOC文档下载
     

    ResNet本质上就干了一件事:降低数据中信息的冗余度。.doc

    • 资源ID:3272174       资源大小:16.50KB        全文页数:3页
    • 资源格式: DOC        下载积分:2
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要2
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    ResNet本质上就干了一件事:降低数据中信息的冗余度。.doc

    ResNet本质上就干了一件事:降低数据中信息的冗余度。本文作者重新审视了ResNet之所以工作的原因,得出结论: ResNet 本质上就干了一件事:降低数据中信息的冗余度。最近在总结完成语义分割任务的轻量级神经网络时,看到了 MobileNet V2 中对于 ReLU 层的思考,于是我也回过头重新审视 ResNet 之所以 work 的本质原因。以下是一些个人的见解,如有错误,还望及时指正。在谈及 ResNet 之前,我们先聊聊故事的背景。我们知道,在神经网络中,非线性激活层可以为模型引入了非线性,让模型具有更强的拟合能力。如果只是单纯的线性操作层的叠加,则完全可以等价为一个线性层,这就浪费了深度神经网络的一身好本领。所谓针无两头尖,那么非线性激活层会带来一些什么问题呢?我们以 ReLU 为例来进行说明,其他非线性激活层亦同理。首先,最直观的,从实验中我们可以注意到一个事实:ReLU 会造成的低维数据的坍塌(collapse)。顾名思义,即是说,低维度的 feature 在通过 ReLU 的时候,这个 feature 会像塌方了一样,有一部分被毁掉了,或者说失去了。能恢复吗?能,但是基本无法百分百还原了。具体表现出来就是:若是我们对一个 feature,先通过一个给定的变换规则 T,将它映射到它的 embedding space 中,再在该 embedding space 中,利用一个 ReLU 去处理该 feature,最后再把这个 feature 以同样的变换规则(逆方向)给映射回原始空间,我们会发现,这时,这个 feature 已经变得连亲妈都不认得了。如图图片来自MobileNetV2: Inverted Residuals and Linear BottlenecksReLU 这个东西,其实就是一个滤波器,只不过这个滤波器的作用域不是信号处理中的频域,而是特征域。那么滤波器又有什么作用呢?维度压缩,俗话说就是降维啦:如果我们有 m 个 feature 被送入 ReLU 层,过滤剩下 n 个(n那么,我们应该怎么去规避数据的坍塌呢?非线性激活层到底是个什么样的东西?其实,对于一个数据,利用非线性激活层对其进行激活,其实是从该数据的信息中提取出其潜在的稀疏性,但是这种提取的结果是否正确,就要分情况讨论了。对于一个 M 维的数据,我们可以将其看成是在 M 维空间中的一个 M 维流形(manifold)。而其中的有用信息,就是在该 M 维空间中的一个子空间(子空间的维度记为 N 维,Naiming He 的天才,ResNet 这东西,描述起来固然简单,但是对它的理解每深一层,就会愈发发现它的精妙及优雅,从数学上解释起来非常简洁,非常令人信服,而且直切传统痛点。ResNet 本质上就干了一件事:降低数据中信息的冗余度。具体说来,就是对非冗余信息采用了线性激活(通过 skip connection 获得无冗余的 identity 部分),然后对冗余信息采用了非线性激活(通过 ReLU 对 identity 之外的其余部分进行信息提取 / 过滤,提取出的有用信息即是残差)。其中,提取 identity 这一步,就是 ResNet 思想的核心。从本文的观点来看,因为从数据中拿掉了非冗余信息的 identity 部分,会导致余下部分的信息冗余度变高。这就像从接近饱和的溶液中移走了一部分溶质,会使得剩下的溶液的饱和度降低,一个道理。在这里也引用一下其他的一些观点,方便大家可以从一个更全面的角度去看这个问题:从特征复用的观点来看,提取 identity 部分,可以让网络不用再去学习一个 identity mapping(虽然是一样的东西,但是毕竟又要从头学起,讲真,换你来试试,这其实真的不容易学到),而是直接学习 residual。这就轻松愉快多了:站在巨人的肩膀上,做一点微小的工作什么的.既然说了 ResNet 解决的痛点,也顺便多说几句它带来的好处:由于 identity 之外的其余部分的信息冗余度较高,因此在对其使用 ReLU 进行非线性激活时,丢失的有用信息也会较少,ReLU 层输出为 0 的可能性也会较低。这就降低了在反向传播时 ReLU 的梯度消失的概率,从而便于网络的加深,以大大地发挥深度网络的潜能。特征复用能加快模型的学习速度,因为参数的优化收敛得快(从 identity 的基础上直接学习残差,总比从头学习全部来得快)。最后是两个小 tips:如果一个信息可以完整地流过一个非线性激活层,则这个非线性激活层对于这个信息而言,相当于仅仅作了一个线性激活。解决由非线性激活导致的反向传播梯度消失的窍门,就是要提高进行非线性激活的信息的冗余度。如果您觉得本文对您有所帮助,请高抬贵手点个赞接下来会填之前语义软分割的坑和图神经网络的坑,还有一些杂七杂八的:如姿态估计网络啦、deepSLAM 啦、视觉跟踪网络啦、VQA 啦. 最近光忙着看 paper 和写笔记了,有空再整理后发上来。

    注意事项

    本文(ResNet本质上就干了一件事:降低数据中信息的冗余度。.doc)为本站会员(白大夫)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开