基于TensorFlow的开源强化学习框架 Dopamine.doc
《基于TensorFlow的开源强化学习框架 Dopamine.doc》由会员分享,可在线阅读,更多相关《基于TensorFlow的开源强化学习框架 Dopamine.doc(3页珍藏版)》请在三一文库上搜索。
1、基于TensorFlow的开源强化学习框架 Dopamine强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手,它也是 DeepMind 的深度 Q 网络(DQN)的核心部分,它可以在多个 workers 之间分步学习,例如,在 Atari 2600 游戏中实现“超人”性能。麻烦的是,强化学习框架需要花费大量时间来掌握一个目标,而且框架往往是不灵活和不总是稳定的。但不用担心,Google 近日发布了一个替代方案:基于 TensorFlow 的开源强化学习框架 Dopamine(多巴
2、胺)。Google 的博文中提到,这个基于 Tensorflow 的强化学习框架,旨在为 RL 的研究人员提供灵活性,稳定性和可重复性的研究。受到大脑中奖励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。除了强化学习框架的发布,谷歌还推出了一个网站(https:/google.github.io/dopamine/baselines/plotsl),允许开发人员快速可视化多个智能体的训练运行情况。他们希望,这一框架的灵活性和易用性
3、将使研究人员能积极尝试新的想法,不管是渐进式还是激进式的想法。以下为 Google 博客详细内容,AI科技大本营编译:引入灵活和可重复的强化学习研究的新框架强化学习(RL)研究在过去几年中取得了许多重大进展。这些进步使得智能体可以以超人类级别的能力玩游戏。比如 Atari 游戏中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。具体而言,在 DQN 中引入 replay memories 可以利用以前的智能体经验,大规模的分布式训练可以在多个 workers 之间分配学习过程,分布式方法允许智能体模拟完整的分布过程,而不仅仅是模拟它们
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于TensorFlow的开源强化学习框架 Dopamine 基于 TensorFlow 强化 学习 框架
链接地址:https://www.31doc.com/p-3416349.html