伯克利RISELab推出了多主体强化学习包Ray RLlib 0.6.0.doc
《伯克利RISELab推出了多主体强化学习包Ray RLlib 0.6.0.doc》由会员分享,可在线阅读,更多相关《伯克利RISELab推出了多主体强化学习包Ray RLlib 0.6.0.doc(5页珍藏版)》请在三一文库上搜索。
1、伯克利RISELab推出了多主体强化学习包Ray RLlib 0.6.0近日伯克利RISELab推出了多主体强化学习包Ray RLlib 0.6.0,并同时与伯克利BAIR合作推进多主体强化学习在不同用户场景下的应用,将现有的单主体算法训练拓展到用户个性化算法的大规模训练上。为什么需要多主体强化学习?在使用强化学习的过程中,多主体强化学习的想法常常萦绕在研究人员的脑海里。相较于单主体强化学习算法,多主体的方式将带来以下优势:对于问题更自然地解构。例如如果想要训练一个控制移动通信蜂窝天线塔控制算法的策略,逾期使用一个超级智能体来控制城市中所有的天线,倒不如为每个天线建立独立的模型来的自然,以为在
2、移动通信中只有相邻的天线及其附近的用户才与每个站点的控制相关。具有大规模学习的潜力。首先将观测和行动从一个单一的主体解构成多个简单的主体不仅减少了单个智能体输入输出的维数,同时有效增加了在环境中训练每一步所产生的数据量。其次将行动和观测空间按照主体分为多个部分,其效果与时域抽象很类似,这种方法已经成功地加速了单主体条件下的学习效率。并且一些分层方法也可以利用类似多主体系统的方法来实现。最后,良好的解构还可以更好地迁移到变换的环境中,更具有适应性。而单个超级智能体在特定的环境中可能面临过拟合的危险。单智能体、超级智能体和多智能体强化学习的区别。一些多智能体应用场景在缓解交通拥堵方面,只需要控制极
3、少量自动驾驶车辆的速度,就能大幅度提高交通流的效率。多主体强化学习就可以用于这样的场景,在混合驾驶的情况下我们暂时无法通过单一主体来为交通灯和所有的车辆建模,而利用多主体的方法可以有效的解决大范围内多主体间观测和行动的实时性。下图显示了加入少量红色的无人驾驶车辆,整体通行效率大幅提高。详细报道可以阅读传送门无人驾驶与智能算法如何协作处理实际生活中的复杂交通问题?移动通信中的蜂窝天线控制问题,基站的联合配置可以通过优化局部使用分布和环境形态来得到,这里每一个基站就可以看作是多主体强化学习中的一个,共同覆盖整个城市的通信服务。在电竞游戏中OpenAI Five的表现令人印象深刻,其中的智能体训练出
4、配合的策略来与人类抗衡。每一个AI主体都有一个独立的神经网络策略并与大规模的PPO(Proximal Policy Optimization)进行联合训练。支持多主体的强化学习库ray-RLlib在了解了多主体强化学习的优势的应用场景后,我们就来看看这一新版本的强化学习库具有哪些优势和特点。RLlib兼容多种强化学习分布式算法,包括:A2C / A3C, PPO, IMPALA, DQN, DDPG, 和Ape-XD等等。在接下来的部分中文章将首先探讨多主体强化学习面临的挑战、展示如何通过现有的算法来训练多主体策略,如何在动态和变化增加的多主体环境中实现多特定的算法。这一算法包的目的在于减小研
5、究人员从单主体到多主体强化学习实现过程中的研究成本,加速项目的实施。支持多主体强化学习的难点像强化学习这样快速变化的领域构建软件面领着巨大的挑战,多主体强化学习更是如此。下面让我们通过例子来感受一下非静态环境中多主体强化学习面临的难点。下图中红色车辆的学习目标是控制车速,而蓝色车辆的学习目标则是尽可能缩短途中运输的时间。红色的车辆在一开始就简单的初始化为期望的固定速度。然而在多主体的环境下,其他的主体将会不断去优化自己的目标。在这个例子下,蓝色的车就会尝试超越红色的车。在单主体的角度下(红色车)这会引起一系列问题。因为在红色车看来,蓝色车也是环境的一部分。蓝色车超越的行为造成了动态环境的问题,
6、这违背了单主体在Q学习和DQN中需要的马尔科夫假设收敛的条件。非静态环境,两种主体的学习目标不一致造成了环境的变化。为了解决这一问题,人们提出了多种算法。包括LOLA,RIAI和Q-MIX。在更高的层次这些算法考虑了在强化学习过程中其他主体造成的影响。通常在训练时使用部分中心化的方式,而执行时使用去中心化的方式。这就意味着策略网络依赖于其他的主体。下面是Q-MIX中一个混合网络的例子:Q-MIX的网络架构,个体的Q估计通过单一的混合网络集成,是的最终的行动计算更有效率。同样,类似于A3C和PPO这类的策略梯度算法在多主体的情况下会面临很多困难,例如信用分配问题( credit assignme
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 伯克利RISELab推出了多主体强化学习包Ray RLlib 0.6.0 伯克利 RISELab 推出 主体 强化 学习 Ray 0.6
链接地址:https://www.31doc.com/p-3377191.html