基于目标图像的视觉强化学习算法,让机器人可以同时学习多个任务.doc
《基于目标图像的视觉强化学习算法,让机器人可以同时学习多个任务.doc》由会员分享,可在线阅读,更多相关《基于目标图像的视觉强化学习算法,让机器人可以同时学习多个任务.doc(5页珍藏版)》请在三一文库上搜索。
1、基于目标图像的视觉强化学习算法,让机器人可以同时学习多个任务目前的深度强化学习需要人为地为每一个任务设计奖励函数,当涉及复杂系统时需要很多的人力成本和复杂的工作。如果需要完成更大范围内的更多工作,就需要对每一个新任务进行重复的训练。为了提高学习的效率,伯克利的研究者们提出了一种可以同时对多个不同任务进行学习的算法,无需人工干预。这一算法可以自动从图像中抽取目标并学习如何达到目标,并实现推物体、抓握和开门等一系列特殊的任务。机器人可以学会自己表示目标、学习如何达到目标,而一切的输入仅仅是来自相机的RGB图像。 目标条件下的强化学习如何描述真实世界的状态和期望的目标是我们需要考虑的首要问题,但对于
2、机器人来说枚举出所有需要注意的物体是不现实的,现实世界中的物体及其数量变化多端、如果要检测他们就需要额外的视觉检测工作。那么该如何解决这一问题呢?研究人员提出了一种直接利用传感器信息来操作的方法,利用机器人相机的输出来表达世界的状态,同时利用期望状态的图像作为目标输入到机器人中。对于新的任务,只需要为模型提供新的目标图像即可。这种方法同时能拓展到多种复杂的任务,例如可以通过语言和描述来表达状态/目标。(或者可以利用先前提出的方法来优化目标:传送门UC Berkeley提出新的时域差分模型策略:从无模型到基于模型的深度强化学习)强化学习是一种训练主体最大化奖励的学习机制,对于目标条件下的强化学习
3、来说可以将奖励函数设为当前状态与目标状态之间距离的反比函数,那么最大化奖励就对应着最小化与目标函数的距离。我们可以通过一个基于目标条件下的Q函数来训练策略实现最大化奖励。基于目标条件的Q函数Q(s,a,g)描述的是在当前状态和目标下,当前的行为将产生对主体怎样的结果(奖励)?也就是说在给定状态s、目标g的前提下,我们可以通过优化行为a来实现奖励最大化:(s,g) = maxaQ(s,a,g)基于Q函数来选择最优的行为,可以得到最大化奖励和的策略(在这个例子中便是达到各种不同的目标)。Q学习得以广泛应用的原因在于它可以不基于策略而仅仅只依赖与s,a,g。那么意味着训练任意策略所收集的数据都可以用
4、来在多个任务上进行训练。基于目标条件的Q学习算法如简图所示:但上述方法的主要局限在于数据收集。如果能人工生成数据,理论上就可以学习解决不同的任务而无需与真实世界进行交互。但遗憾的是在真实世界中学习精确的模型十分困难,所以通常依赖于采样来获取状态s-行为a-下一个状态s的训练数据。但我们换个角度来看,如果可以表达出奖励函数r(s,g), 有一种可以生成目标并计算奖励的机制,我们就可以可回溯的重新标记目标,重新计算奖励。这样的话就可以利用(s,a,s) 数据生成大量的人工数据,这一个过程如下图所示:最美妙的事情在于可以同时生成多个目标和奖励函数,这就意味着可以学习达到多个目标而无需采集额外的数据,
5、这一简单的改进极大的加速了学习过程。上面的方法主要基于两个假设:1).知道奖励函数的表达并可以进行操作;2).可以得到目标的采样分布p(g).基于前人的工作,可以方便的设计出目标分布p(g)和奖励函数。但对于基于视觉的任务来说会出现两个问题:1).由于基于像素的距离可能没有实际意义,模型不知道该使用哪一个奖励函数;2).由于任务的目标是图像的形式,需要知道目标图像的分布p(g),但人工设计目标图像的分布是一个很复杂的任务。那么研究人员们期望最好的情况就是,主体可以自动地想象出它的目标,并学习出如何达到这一目标。基于假想目标的强化学习为了解决这一问题,研究人员通过学习出图像的表示并利用这些表示来
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 目标 图像 视觉 强化 学习 算法 机器人 可以 同时 任务
链接地址:https://www.31doc.com/p-3418002.html