UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术.doc
《UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术.doc》由会员分享,可在线阅读,更多相关《UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术.doc(2页珍藏版)》请在三一文库上搜索。
1、UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术,让智能体从单一视频中学习人物动作,并生成近乎相同的结果。更重要的是,智能体还能将所学到的技能应用于不同环境中。以下是论智对其博文的编译。不论是像洗手这样日常的动作,还是表演杂技,人类都可以通过观察学习一系列技能。随着网络上越来越多视频资源的出现,想找到自己感兴趣的视频比之前更容易了。在YouTube,每分钟都有300小时的视频上传成功。但是,对于机器来说,从如此大量的视觉数据中学习技能仍然困难。大多数动作模仿的学习方法都需要有简洁地表示,例如从动作捕捉获取的
2、记录。但想得到动作捕捉的数据可能也非常麻烦,需要大量设备。另外,动作捕捉系统也仅限于遮挡较少的室内环境,所以有很多无法记录的动作技能。那么,如果智能体可以通过观看视频片段来学习技能,不是很好吗?在这一项目中,我们提出了一种可以从视频中学习技能的框架,通过结合计算机视觉和强化学习中出现的先进技术,该框架能让智能体学会视频中出现的全部技能。例如给定一段单目视频,其中一个人在做侧手翻或后空翻,该系统的智能体就可以学习这些动作,并重现出一样的行为,无需人类对动作进行标注。从视频中学习身体动作的技能最近得到很多人的关注,此前的技术大多依靠人们手动调整框架结构,对生成的行为有很多限制。所以,这些方法也仅在
3、有限的几种情境下使用,生成的动作看起来也不太自然。最近,深度学习在视觉模拟领域表现出了良好的前景,例如能玩雅达利游戏,机器人任务框架我们提出的框架包含三个阶段:姿态估计、动作重建和动作模拟。在第一阶段,框架首先对输入的视频进行处理,在每一帧预测人物动作。第二步,动作重建阶段会将预测出的动作合并成参考动作,并对动作预测生成的人工痕迹做出修正。最后,参考动作被传递到动作模拟阶段,其中的模拟人物经过训练,可以用强化学习模仿动作。动作估计给定一段视频,我们用基于视觉的动作估计器预测每一帧演员的动作qt。该动作预测器是建立在人类网格复原这一工作之上的(akanazawa.github.io/hmr/),它用弱监督对抗的方法训练动作估计器,从单目图像中预测动作。虽然在训练该估计器的时候需要标注动作,不过一旦训练完成,估计器在应用到新图片上时就无需再次训练了。用于估计人物动作而生成更流畅的动作。另外,wp和wsm是不同损失的权重。这一过程可以显著提高参考动作的质量,并且修正一些人工生成的痕迹。动作模拟有了参考动作q
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术 Berkeley 大学 研究人员 利用 深度 姿态 估计 学习 技术
链接地址:https://www.31doc.com/p-3274407.html