十大具身智能机器人数据集汇总.docx
《十大具身智能机器人数据集汇总.docx》由会员分享,可在线阅读,更多相关《十大具身智能机器人数据集汇总.docx(15页珍藏版)》请在三一文库上搜索。
1、十大具身智能机器人数据集汇总数据集概览数据集名称发布时间发布机构(作者)任务种类与数量数据模态数据规模仿真顺实支持数据格式项目/论文链接AiBotWorld2024年12月智元机器人,上海Al实验室等移动式双臂机器人日常操作技能80余种RGB视觉、触觉、六维力、机器人状态等*100+*个机器人,*100万+*啕d真实数据(真机采集)统一采集流程(工业级质控)曲目主页论如(无)OpenX-Embodiment2023年10月GoogleDeepMindn11l构单臂、双臂、四22种形态527项技能,160,266个任善多源视觉、传感器观测和动作(统-RLDS格式)311个场景,*100万+*嗽迹
2、仿真+真实混合数据RLDS标准格式项目论文DROID2024年03月Stanford,UCBerkeIey等单臂机械臂(Franka7DoF)86种操作任叁多视RGB视频、机器人控制指令564个场景,76,000轨迹真实数据(跨13机构采集)统一硬件平台采集P页目论文RT-1/RT-22022年12月/2023年07月GoogleQMjQd移动式机器人(轮式底座+7DoF机械臂)境务关环任拾开居百如;家数I取等然器图自指机作一机、言、初相像语令人RT-I含13万轨迹(-111GB);预训练10亿图文对真实数据+网页图像自定义数据结构(开源代码)项目,论文BrigeDatav,z2023年09月
3、UCBerkeley等桌面6DoF机械臂(WicipwX)3目标图像或语言指令条件的多任务视I动三文8秀It楸作24种环境,共60,096轨迹真实数据(VR遥操作采集)HDF5数据集(开源提供)颐目论文RoboSet(RgboAgent)j2023年09月CMU,MetaAl桌面机械臂(FrankaEmika)厨房场景38项任务,12种技能四视RGB视频、语言指令、动作7,500轨迹用于训练(一共-28,5轨迹)真实数据(动觉+遥操作)HDF5序歹IJ结构P页目论文ARIO(AllRobotsInOne)2024年08月鹏城实验室等联盟多种机形态(主站双臂+S趣等)合技抓放移开作盖、操涵取置动
4、等能觉图点声文触RGB像不余心258场景,321,064任秀,303万轨迹仿真+真实遵合开源黝居ARlO统一格式标准P页目论文RoMINp2024年12月北京具能机器人创新中心等多实体:单臂、双臂、人形机等279项任务(6类技能类别)多幅Rqg-Ds磕状态、末端器信息、语言描述5.5万成功+5千失败轨迹;61类物体真实数据+部分仿真规范化数据结构项目论文RH20T2023年07月上海交通大学单臂机械臂(多相机+力传感器平台)147项操作任务(RLBench+MetaWorI力自定义)多视角视频、力反馈、音频、机器+人类示范视频F万+*k迹,数据量40TB真实数据(力回馈遥操作采集)自定义多模态
5、数据格式颐目论文EmbodiedCi2024年io月清华大学虚拟智能体(支持无人机/无人车等)室外城市导航、场景描述、多轮问答等基准任虚拟环境多模态:高逼真3D视觉、语义标签、文本指令等2.82.4km城市区域模型,2栋建筑,1条街道仿真环境(基于UE5引擎)提供PythonAPI和SDK官网论文AgiBotWorld数据集由智元机器人携手上海Al实验室等机构于2024年发布,是全球首个覆盖全域真实场景、采用全能硬件平台并具备全流程质量把控的百万级真实机器人数据集。该数据集面向机器人日常生活能力训练,涵盖了80余种家庭与工业场景下的操作技能,从抓取、放置、推拉等基础动作,到搅拌、折叠、熨烫等复
6、杂的双臂协作长程任务,几乎囊括日常生活所需的大部分动作类型。数据由100台移动双臂机器人(智元Genie-I等)在400011f真实场地中采集完成,场景包括家居、餐饮、工业、商超、办公五大类,涉及3000+种真实物品。数据模态与规模:AgiBotWorld提供多模态感知和动作数据,包括环绕布局的RGB相机画面、高精度触觉传感器数据、末端六轴力传感、机器人的关节状态和操作指令等。总计收录了来自100台机器人执行的100多万条示范轨迹(总时长约595小时,Alpha版本),数据量远超此前同类数据集(轨迹数约为Google的OpenX-Embodiment的10倍)。每条轨迹不仅包含机器人的动作序列
7、及传感器读数,还附有对应的人类自然语言指令,实现语言-视觉-动作三模态对齐。,仿真和结构:AgiBotWorId专注于真实世界数据,不包含仿真环境数据。其采集过程制定了统一规范和工业级质控,确保不同机器人采集的数据具有一致格式和标注标准。数据采用分层文件组织(划分场景和任务),并提供JS0N/HDF5格式的标注描述,方便跨平台使用和解析(通过社区协议开放获取)。项目主页提供了数据下载(需签署协议)和使用文档。开放获取:项目主页提供了数据集的概览和获取途径。目前AgiBotWorld已在GitHub和HuggingFace发布Alpha版本。作为国内开源的百万级真机数据集,它为研究者在机器人整理
8、分拣、家务助理等日常任务大模型训练提供了宝贵资源,对推动具身智能大模型的应用具有重要意义。2. OpenX-Embodiment(2023年)OpenX-Embodiment是GoogleDeepMind联合全球21家研究机构于2023年推出的开放、大规模标准化机器人学习数据集。该项目整合了60个已有机器人数据集的数据,将它们统一转换为谷歌RLDS(强化学习数据集标准)格式的“episode”序列。OpenX-Embodiment涵盖从单臂、双臂机械臂到四足机器人在内的22种不同形态机器人的数据,共计超过100万条机器人示范轨迹,分属311个环境场景、527项技能,细分为160,266个具体
9、任务。这是机器人领域迄今规模最大的多源多任务数据集之一,被誉为机器人研究的ImageNet时刻”。任务与技能:数据集中常见技能包括拾取(PiCking)、移动(moving)推动(PUShing)、放置(Plaeing)等基本操作,涉及的任务目标多样,如几何形状物体、容器、家具、电器、餐具、食物等。这种广泛的技能和目标分布,使数据集可以支持训练通用机器人策略。研究团队在此数据集上训练并开源了RT-I-X和RT-2-X模型,将原有单一数据集训练的模型性能分别提升了50%和300%o尤其RT-2-X结合视觉语言预训练,实现了视觉-语言-动作模型对新奇技能的显著泛化。,数据模态:由于整合数据源众多,
10、OPenX-Embodiment的数据模态因子涵盖视觉、力觉、事件序列等不同类型。每条数据以时序“episode”形式组织,包含传感器观测序列(如相机图像、深度或点云、机器人proprioception等)以及对应的机器人动作序列,采用统一的时间步长格式和元数据标注。谷歌提供的RLDS格式确保了各子数据的高度兼容和易解析性。仿真与现实:该数据集综合了真实机器人实验的数据和模拟环境生成的数据。例如,既包含Franka、KUKA等真实机械臂采集的演示,也整合了MetaWOrId、RLBenCh等模拟平台的数据。所有数据均被转换到统一空间,使仿真和真实的数据可以无缝混合用于训练这为研究者提供了同时利
11、用模拟和真实数据训练模型的机会,有助于提高策略的泛化能力。,获取与使用:OpenX-Embodiment通过GitHub开放了数据集转换工具和部分数据。论文中详细描述了数据格式和基准模型RT-X的性能。由于数据量巨大,完整数据需要通过与作者团队联系获取,但其开放标准和部分示例数据已极大降低了复现门槛。OpenX-Embodiment为跨硬件、跨任务的通用机器人大模型研究奠定了数据基础。3. DROID(2024年)DROID(DistributedRobotInteractionDataset)是由斯坦福大学、UC伯克利、丰田研究院等机构于2024年联合发布的大规模*“野外”机器人操作数据集*
12、O该数据集关注多场景、多任务、多操作者的丰富数据采集,旨在提升机器人策略的鲁棒性与泛化性。DROID包含由50位操作者在北美、亚洲和欧洲13家机构使用统一硬件采集的约76,000条机器人示范轨迹,总时长约350小时,覆盖86种日常操作任务和564个真实场景OPenreVieW.net。这些数据分布于家庭厨房、客厅、办公室、走廊、卧室、浴室、洗衣房等多样真实生活环境。采集硬件与任务:所有实验均使用相同的移动工作台硬件配置:包含一个FrankaPanda7-DoF机械臂、两个Zed2立体相机、腕载ZedMini相机,以及OCUIUSQuest2VR头显+手柄用于遥操作。通过VR控制器,人类操作者直
13、观地远程操作机械臂执行任务,从而保证每条演示的独特性。任务涵盖了厨房做饭、物品收纳、家具整理、清洁整理等日常家庭及办公情景下的操作技能,共86类具体任务,难度从简单的拾取物品到复杂的长序列动作皆有。数据模态与质量:DROlD的每条数据序列包含多视角的视频帧序列(来自8-10个全局RGB-D摄像头和机械臂腕上的摄像头)、操作者的动作控制指令(如末端轨迹)以及时间同步的六维力传感读数等,力求记录丰富的接触信息。止匕外,每条轨迹还提供对应人类示范视频,方便机器人学习模仿人类策略。相比此前数据集,DROID的数据在场景、技能广度上显著更丰富,经验证可令策略性能平均提升20%以上。开放资源:DROID数
14、据集及其基准方法已随论文公开。官网提供了数据下载、硬件搭建指南和评测代码。由于采用统一采集标准,研究者可直接在不同场景数据上训练单一模型,避免了硬件差异造成的数据分布不一致问题。DRolD的推出表明,通过大规模多场景实测数据,机器人操作策略的泛化水平和稳健性能够大幅提升,为发展具备“野外”适应能力的机器人奠定了基础。4. RT-I/RT-2(2022-2023年)RT-I(RoboticsTransformer1)与RT-2是Google在2022-2023年推出的一系列视觉-语言-动作(VLA)机器人大模型及数据集。RT-I发布于2022年,包含一个经过13个月实机采集的大规模多任务机器人数
15、据集,以及一个Transformer架构的多任务政策模型。RT-2于2023年推出,在RT-I真实机器人数据的基础上,融合了大规模的网络图像-文本数据,进一步提升了模型的认知和推理能力。,数据组成:RT-I数据集由谷歌EVerydayRobots团队的13台移动机械臂机器人采集,机器人具有7自由度机械臂、两指夹爪和自主移动底座。在17个月内,这些机器人在办公室和厨房等真实环境中累计收集了13万段人机交互片段(总计InGB)o每段包含机器人执行某项任务的摄像头画面序列,以及对应的人类指令文本标注。RT-2则引入了从网络筛选所得的约10亿对图像-文本数据(原始WebLI数据集包含100亿对,筛选后
16、保留10%)。通过将预训练的视觉语言知识融入机器人控制,RT-2实现了从互联网上习得常识来辅助物体操作。 任务与场景:RT-1/2的数据主要来自办公室、厨房等室内场景,涉及家具、电器、食品、文具等700余种物体。机器人需要完成从基础的pick-place(拾取和放置)到更复杂的擦拭(WiPing)、*组装(assembling)*等操作。示例任务包括:打开和关闭抽屉、操作微波炉门、抓取细长物体、拉扯餐巾纸、打开罐子等等。这些任务难度不等、步骤多样,考验了模型对环境的理解和长序列决策能力。 模型性能:得益于大规模跨模态预训练,RT-2模型在未知场景下的任务成功率达到62%,较RT-1的大约32%
17、有显著提升。相较纯视觉预训练的基线(如VC-l、R3M)和仅用视觉模型识别的传统方法,RT-2在开放环境下展现出更强的语义理解和决策能力。这证明了将视觉语言模型与机器人行为相结合的可行性:预训练的视觉语言模型经过少量机器人数据微调,即可直接用于控制真实机器人完成复杂任务。 开源情况:谷歌研究团队开源了RT-I的数据集子集及模型代码,并提供了RT-2的模型推理demo。研究者可以通过GitHUb获取RT-I模型和数据接口。完整的RT-I机器人数据未全部公开,但RT-2论文提供了丰富的实验细节。RTT/2系列工作开创了视觉-语言-动作模型的新范式,展示了预训练大模型知识在机器人控制上的直接迁移,为
18、后续融合大模型与机器人控制的研究奠定了基础。5. BridgeDataV2(2023年)BridgeDataV2是由UC伯克利、斯坦福大学、GoogleDeepMind和CMU等机构在2023年发布的大型多样化机器人操作行为数据集。该数据集旨在推动可扩展的机器人学习研究,特别设计为可与开放词汇、多任务学习的方法兼容。BridgeDataV2的任务可通过目标图像或自然语言指令来描述,训练得到的技能能够推广到新物体、新环境和新的机器人架构。,场景与任务:BridgeDataV2包含24种不同环境,划分为4大类场景。其中大部分数据来自7种玩具厨房环境(带有不同组合的水槽、炉灶、微波炉),其余环境包括
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 十大具身 智能 机器人 数据 汇总
