一份深度学习“人体姿势估计”全指南,从DeepNet到HRNet.doc
《一份深度学习“人体姿势估计”全指南,从DeepNet到HRNet.doc》由会员分享,可在线阅读,更多相关《一份深度学习“人体姿势估计”全指南,从DeepNet到HRNet.doc(11页珍藏版)》请在三一文库上搜索。
1、一份深度学习“人体姿势估计”全指南,从DeepNet到HRNet从DeepNet到HRNet,这有一份深度学习“人体姿势估计”全指南几十年来,人体姿态估计(Human Pose estimation)在计算机视觉界备受关注。它是理解图像和视频中人物行为的关键一步。在近年深度学习兴起后,人体姿态估计领域也发生了翻天覆地的变化。今天,文摘菌就从深度学习+二维人体姿态估计的开山之作DeepPose开始讲起,为大家盘点近几年这一领域的最重要的论文。什么是人体姿势估计?人体姿态估计(Human Pose Estimation,以下简称为HPE)被定义为图像或视频中,人体关节(也被称为关键点-肘部、手腕等
2、)的定位问题。它也被定义为,在所有关节姿势组成的空间中搜索特定姿势。二维姿态估计-运用二维坐标(x,y)来估计RGB图像中的每个关节的二维姿态。三维姿态估计-运用三维坐标(x,y,z)来估计RGB图像中的三维姿态。HPE有一些非常酷的应用,在动作识别(action recognition)、动画(animation)、游戏(gaming)等领域都有着广泛的应用。例如,一个非常火的深度学习APP HomeCourt,可以使用姿态估计(Pose Estimation)来分析篮球运动员的动作。为什么人体姿势估计这么难?灵活、小而几乎看不见的关节、遮挡、衣服和光线变化都为人体姿态估计增加了难度。二维人
3、体姿态估计的不同方法传统方法关节姿态估计的传统方法是使用图形结构框架。这里的基本思想是,将目标对象表示成一堆“部件(parts)”的集合,而部件的组合方式是可以发生形变的(非死板的)。一个部件表示目标对象某部分图形的模板。“弹簧”显示部件之间的连接方式,当部件通过像素位置和方向进行参数化后,其所得到的结构可以对与姿态估计非常相关的关节进行建模。(结构化预测任务)然而,上述方法的局限性在于,姿势模型并非构建在图像数据之上。因此,研究者把大部分精力都放在了构建更具表现力的模型上了。可形变部件模型(Deformable part models)- Yang和Ramanan使用表示复杂关节关系的部件混
4、合模型。可形变部件模型是一个模板集合,这些模板的组合方式是可发生形变的,每个模型都有全局模板+部件模板。这些模板与图像相匹配用以以识别/检测对象,这种基于部件的模型可以很好地模拟关节。然而,这是以有限的表现力为代价实现的,并没有用到全局信息。基于深度学习的方法传统姿态估计方法有其难以克服的局限性,但这一局面因为CNN的出现而被打破。随着Toshev等人对“DeepPose”的引入,人体姿态估计的研究开始从传统方法转向深度学习。近年来,大多数姿态估计系统(pose estimation systems)都普遍采用ConvNets作为其主构模块,这在很大程度上取代了手工制作的特征和图形模板;这种方
5、法相比传统方法取得了巨大提升。在下一节中,我将按时间顺序总结几篇论文,这些论文代表了HPE的演进,从google的DeepPose开始(这不是一个详尽的列表,而是一个个人认为能够显示该领域最近进展和会议重要成果的论文合集)。论文涵盖1. DeepPose2. 使用卷积网络的高效目标定位(Efficient Object Localization Using Convolutional Networks)3. 卷积姿态机(Convolutional Pose Machines)4. 基于误差反馈的人体姿态估计(Human Pose Estimation with Iterative Error
6、Feedback)5. 用于人体姿态估计的堆叠式沙漏网络(Stacked Hourglass Networks for Human Pose Estimation)6. 人体姿态估计和跟踪的简单基线(Simple Baselines for Human Pose Estimation and Tracking)7. 人体姿态估计的高分辨率深度学习(Deep High-Resolution Representation Learning for Human Pose Estimation)DeepPose:通过深度神经网络(CVPR14)进行人体姿态估计DeepPose是第一篇将深度学习应用于H
7、PE的重要论文。它实现了SOTA(state of the art)性能并击败了现有的模型。在这种方法中,姿势估计被表述为一个基于CNN的身体关节回归问题。他们还使用一系列这样的回归器来改进姿势估计并获得更好的估计结果。这种方法所做的一件重要事情是以整体的方式评估姿势,也就是说,即使某些关节是隐藏的,如果摆出的姿势是作为一个整体,也可以对其进行估计。本文认为,CNN很自然地提供了这种推理,并通过结果证明了其强大。模型该模型由一个Alexnet后端(7层)和一个额外的最终层组成,这个最终层的输出为2k关节坐标。(xi,yi)2fori1,2k,k为关节数量使用L2损失对模型进行回归训练。这个模型
8、实现的一个有趣的想法是,使用级联回归器(cascaded regressors)对预测进行细化,从而对初始的粗糙预测进行了改进,得到较好的估计。图像被剪切到预测到的关节周围,并被送入下一阶段,这样,后续的姿势回归器可以看到更高分辨率的图像,从而学习更细比例的特征,从而最终获得更高的精度。结果本文使用了LSP(Leeds sports dataset,利兹2运动数据集)和FLIC(Frames Labeled In Cinema,电影院标记帧)数据集进行实验,并以PCP(Percentage of Correct Parts,部件正确率)指标和其他方法进行了比较。查看附录,可以找到一些主流的评估
9、指标(如PCP评语本文将深度学习(CNN)应用于人体姿势估计(HPE),并在这方面启发了大量研究。回归到XY位置是比较困难的,并且增加了学习复杂性,这削弱了其泛化能力,因此在某些区域表现不佳。最近的SOTA方法将问题转化为估算尺寸为W0H0,H1,H2,.,Hk 的K个热图(heatmap),其中每个热图中Hk表示kth关键点的位置置信度(共K个关键点)。下一篇论文将重点介绍这一观点。使用卷积网络(CVPR15)进行有效的目标定位这种方法通过并行方式对图像进行多分辨率处理来生成一组热图(heatmap),同时在不同的尺度上捕获特征。输出的结果是一个离散的热图而不是连续回归。热图预测关节在每个像
10、素发生的概率。这个输出模型是非常成功的,很多后续论文都是预测热图而不是直接回归。模型采用多分辨率CNN结构(粗糙热图模型)实现滑动窗口探测器,从而产出粗糙热图。本文的主要目的是恢复初始模型中,由于池化而造成的空间精度损失。他们通过使用一个额外的“姿态优化”ConvNet来实现这一点,ConvNet可以优化粗糙热图的定位结果。但是,与标准的级联模型不同,它们重用现有的卷积特性。这不仅减少了级联中可训练参数的数量,而且由于粗糙模型和精细模型是联合训练的,因此可以作为粗热图模型的调节器。从本质上讲,该模型包括用于粗定位的基于热图的部件模型、用于在每个关节的指定(x,y)位置采样和裁剪卷积特征的模块以
11、及用于微调的附加卷积模型。这种方法的一个关键特征是联合使用一个ConvNet和一个图形模型,图形模型学习关节之间的典型空间关系。训练该模型通过最小化我们的预测热图到目标热图的均方误差(MSE,Mean Squared-Error)距离进行训练(目标是以标准真值(x,y)关节位置为中心的二维常方差高斯(1.5像素)。结果评论热图比直接关节回归更有效。联合使用CNN和图形模型(Graphical Model)然而,这些方法缺乏结构建模。由于受限于身体部位比例、左右对称性、穿插限制、关节限制(例如肘部不向后弯曲)和物理连接(例如手腕与肘部的精确相关)等约束,二维人体姿势呈现出高度结构化。对这种结构约
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一份 深度 学习 人体 姿势 估计 指南 DeepNet HRNet
链接地址:https://www.31doc.com/p-3362038.html