OpenAI发布了一个名为“Neural MMO”的大型多智能体游戏环境.doc
《OpenAI发布了一个名为“Neural MMO”的大型多智能体游戏环境.doc》由会员分享,可在线阅读,更多相关《OpenAI发布了一个名为“Neural MMO”的大型多智能体游戏环境.doc(3页珍藏版)》请在三一文库上搜索。
1、OpenAI发布了一个名为“Neural MMO”的大型多智能体游戏环境最近,OpenAI 发布了一个名为“Neural MMO”的大型多智能体游戏环境,该平台支持在一个持久开放的任务中使用大量且数量可变的智能体。大量智能体和物种的加入导致了更好的勘探,不同的生态位形成,和更大的整体能力。近年来,多智能体设置已成为深度强化学习的有效研究平台。尽管取得了这些进展,多智能体强化学习仍然面临两大挑战。我们需要创建具有高度复杂性上限的开放式任务:当前环境要么复杂但应用面太窄,要么开放但太简单。持久性和大规模等属性是关键,但是我们还需要更多的基准环境来量化大规模和持久性的学习进度。而这次大型多人在线游戏
2、 (MMOs) 模拟了一个大型生态系统,该系统由数量不等的玩家在持久且广泛的环境中进行生存竞争。为了应对这些挑战,OpenAI 构建了符合以下标准的神经 MMO:1、持久性: 无需环境重置,智能体在其他学习智能体存在的情况下并发学习。策略必须考虑长期的范围,并适应其他智能体行为中潜在的快速变化。2、规模:环境支持大量数量可变的实体。OpenAI 的实验考虑了在 100 个并发服务器中的每个服务器中 128 个并发智能体的最长 1 亿个生存期。3、效率:入门计算门槛很低。OpenAI 可以在单个桌面 CPU 上训练出有效的策略。4、扩展:与现有的 MMO 们类似,OpenAI 设计 Neural
3、 MMO 也是为了更新新内容。目前的核心功能包括瓦片地形的程序生成、食物和水的觅食系统以及战略作战系统。开源驱动的扩展在未来是有机会的。在这个游戏环境中,玩家 (智能体) 可以加入任何可用的服务器 (环境),每个服务器 (环境) 都包含一个自动生成的可配置大小的瓦片地形游戏地图。有些地砖,如可食用的森林地砖和草地砖,是可移动的。其他的,如水和固体石,则不是。智能体程序在环境边缘的随机位置生成。他们必须获得食物和水,并避免战斗伤害从其他智能体,以维持他们的健康。踩在森林地砖上或靠近水砖的地方,分别会重新填充代理的部分食物或供水。然而,森林地砖的食物供应有限,随着时间的推移,食物会缓慢再生。这意味
4、着智能体必须竞争食物砖,同时周期性地从无限的水砖中补充他们的水供应。玩家在战斗中使用三种战斗风格,代表肉搏(近战),射手(远程物理攻击)和法师(远程魔法攻击)。(来源:OpenAI)这个平台提供了一个过程化的环境生成器和可视化工具,用于实现值函数、映射访问分布和学习策略的智能体依赖性。基线使用超过 100 个世界的策略梯度进行训练。作为一个简单的基线团队使用普通的策略梯度来训练一个小型的、完全连接的体系结构,将值函数基线和奖励折扣作为唯一增强。智能体不会因为实现特定的目标而获得奖励,而是只根据其生命周期 (轨迹长度) 进行优化即在其生命周期中,每一次滴答声都会获得 1 个奖励。团队通过计算所有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- OpenAI发布了一个名为“Neural MMO”的大型多智能体游戏环境 OpenAI 发布 一个 名为 Neural MMO 大型 智能 游戏 环境
链接地址:https://www.31doc.com/p-3269068.html