一种能够平滑衔接无模型和基于模型策略的强化学习算法.doc
《一种能够平滑衔接无模型和基于模型策略的强化学习算法.doc》由会员分享,可在线阅读,更多相关《一种能够平滑衔接无模型和基于模型策略的强化学习算法.doc(4页珍藏版)》请在三一文库上搜索。
1、一种能够平滑衔接无模型和基于模型策略的强化学习算法试想一下我们希望从伯克利大学骑车到金门大桥,虽然仅仅只有二十公里之遥,但如果却面临一个天大的问题:你从来没有骑过自行车!而且雪上加霜的是,你刚刚来到湾区对于路况很陌生,手头仅仅只有一张市区的地图。那我们该如何骑车去看心心念念的金门大桥呢?这个看似十分复杂的任务却是机器人利用强化学习需要解决的问题。让我们先来看看如何学会骑自行车。一种方法是先尽可能多的学习知识并一步步的规划自己的行为来实现骑车这一目标:通过读如何骑自行车的书、学习相关的物理知识、规划骑车时每一块肌肉的运动.这种一板一眼的方式在研究中还可行,但是要是用来学习自行车那永远也到不了金门
2、大桥了。学习自行车正确的姿势是不断地尝试不断地试错和练习。像学习骑自行车这样太复杂的问题是不能通过实现规划实现的。当你学会骑车之后,下一步便是如果从伯克利到金门大桥了。你可以继续利用试错的策略尝试各种路径看看终点是不是在金门大桥。但这种方式显而易见的缺点是我们可能需要十分十分久的时间才能到达。那么对于这样简单的问题,基于已有的信息规划便是一种十分有效的策略了,无需太多真实世界的经验和试错便能完成。在强化学习中意味着更加高效采样的学习过程。对于一些技能来说试错学习十分有效,而对于另一些规划却来得更好上面的例子虽然简单但却反映了人类智慧的重要特征,对于某些任务我们选择利用试错的方式,而某些任务则基
3、于规划来实现。同样在强化学习中不同的方法也适用于不同的任务。然而在上面的例子中两种方法却不是完全独立的,事实上如果用试错的方法来概括自行车的学习过程就太过于简单了。当我们利用试错的方法来学习自行车时,我们也利用了一点点规划的方法。可能在一开始的时候你的计划是不要摔倒,而后变为了不要摔倒地骑两米。最后当你的技术不断提高后,你的目标会变成更为抽象的概念比如要骑到道路的尽头哦,这时候需要更多关注的是如何规划这一目标而不是骑车的细节了。可以看到这是一个逐渐从无模型转换为基于模型策略的过程。如果能将这种策略移植到强化学习算法中,那么我们就能得到既能表现良好(最初阶段的试错方法)又具有高效采样特性(在后期
4、转化为利用规划实现更为抽象的目标)的优秀算法了。这篇文章中主要介绍了时域差分模型,这是一种能够平滑衔接无模型和基于模型策略的强化学习算法。接下来首先要介绍基于模型的算法是如何工作的。基于模型的强化学习算法在强化学习中通过动力学模型,在行为at的作用下状态将从st转化到st+1,学习的目标是最大化奖励函数r(st,a,st+1)的和。基于模型的强化学习算法假设事先给定了一个动力学模型,那么我们假设模型的学习目标是最大化一系列状态的奖励函数:这一目标函数意味着在保证目标可行的状态下选取一系列状态和行为并最大化奖励。可行意味着每一个状态转移是有效的。例如下图中只有st+1是可行的状态。即便其他状态有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 能够 平滑 衔接 模型 基于 策略 强化 学习 算法
链接地址:https://www.31doc.com/p-3364815.html