Adobe研究院的研究者们提出了全新的通用深度网络架构CPNet.doc
《Adobe研究院的研究者们提出了全新的通用深度网络架构CPNet.doc》由会员分享,可在线阅读,更多相关《Adobe研究院的研究者们提出了全新的通用深度网络架构CPNet.doc(4页珍藏版)》请在三一文库上搜索。
1、Adobe研究院的研究者们提出了全新的通用深度网络架构CPNet斯坦福大学和Adobe研究院的研究者们提出了全新的通用深度网络架构CPNet,用于学习视频中图片之间的长程对应关系,来解决现有方法在处理视频长程运动中的局限性。在三大视频分类数据集上取得了优于之前结果的性能。相关论文获CVPR 2019 oral。这是一款全新的通用深度网络架构。现有的视频深度学习架构通常依赖于三维卷积、自相关、非局部模块等运算,这些运算难以捕捉视频中帧间的长程运动/相关性。近日,来自斯坦福和Adobe的研究人员,受到点云上深度学习方法的启发,提出了一个通用的深度网络架构CPNet,用于学习视频中图片之间的长程对应
2、关系,来解决上述问题。arXiv地址:https:/arxiv/abs/1905.07853研究人员们所提出的CPNet是一个全新的通用的视频深度学习框架。该网络通过寻找对应的表征来学习视频中图片之间稀疏且不规则的对应模式,并且可以融合进现有的卷积神经网络架构中。研究人员在三个视频分类数据集上进行了实验,结果表明,CPNet在性能上取得了较大的突破。CPNet:对应提议网络视频是由一串图片组成。然而,视频并不是任意图片随机的堆砌,其前后帧有强烈的相关性,表现为一帧图片中的物体通常会在其它帧中出现。相比于单张静态的图片,这样的对应关系构成了视频中动态的部分。我们总结视频中图片之间的对应关系有如下
3、三大特点:对应位置有相似的视觉或语义特征。这也是我们人类判定两帧中的像素是否属于同一物体的标准之一。对应位置在空间维和时间维上都可以有任意长的距离。空间维上,物体可以很快从图片的一端运动到另一端;时间维上,物体可以在视频中存在任意长的时间。潜在的对应位置所占比例为少数。对于一个像素/表征,在其它帧中通常只有极少的相似像素/表征是可能的对应,其它明显不相似的像素/表征则可以忽略掉。换言之,对应关系存在不规则性和稀疏性。那么什么样的网络架构可以满足上述特点呢?三维卷积无法检测相似性;自相关是局部操作,无法胜任长程对应;非局部模块侧重于注意力机制,无法适应稀疏性和不规则性,也无法学到长程运动的方向。
4、因此我们需要全新的网络架构。图1我们提出了对应提议网络CPNet(Correspondence Proposal Network),其架构能同时满足上述三种特点。核心思想如图1所示:深度网络架构中,我们将视频表征张量视为一个点云,在语义特征空间中(而非一般的时空空间),对于表征张量中的每一个表征即“点”,我们寻找其在其它帧里最近的k个“点”,并将其视为该表征的潜在对应。然后类似于点云上的深度学习,对于这k对“点”中的每一对,我们使用相同且互相独立的神经网络处理他们的特征向量和位置,然后用最大池化操作从k个输出中提取出最强的响应。本质上,我们的网络架构可以学到从这k对潜在对应中选择出最有趣的信息
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Adobe 研究院 研究者 提出 全新 通用 深度 网络 架构 CPNet
链接地址:https://www.31doc.com/p-3245779.html