在全球人工智能高速迈进的浪潮下,具身智能技术和产业迅猛发展,但在数据与模型、感知与认知能力、交互与适应性等诸多关键领域仍存在诸多亟待突破的难题。作为国家级创新平台,国家地方共建具身智能机器人创新中心始终聚焦底层前沿技术突破,致力于拓展具身智能技术边界。2025年开年,国创中心在国际机器人与自动化顶会(ICRA)与多智能体系统顶会(AAMAS)等全球顶会上连续发布五篇重磅论文,为具身智能技术的多重要分支领域带来了新的方法论与技术范式。
国际机器人与自动化会议(ICRA)是机器人与自动化领域的权威盛会,由IEEE主办,汇聚全球顶尖学者,涵盖前沿技术与创新应用,国创中心在多任务操作、模型扩展、数据利用、多层零样本导航等领域的研究成果获ICRA收录;多智能体系统国际会议(AAMAS)聚焦多智能体的基础理论与应用实践,国创中心本次在视觉运动领域的研究成果获AAMAS收录。这些研究成果不仅攻克了相应领域的关键难题,还为机器人技术在复杂场景中的实际应用提供了全新的思路和方法。
离散策略:解耦动作空间,提升机器人多任务操作能力
论文标题:Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation
arXiv地址:https://arxiv.org/abs/2409.18707
在具身智能机器人的多任务操作中,动作模式的多样化是一个长期存在的挑战。单一任务可能对应多种操作方式,导致动作分布复杂且存在多种模式,而多任务设置进一步加剧了这一问题。传统方法难以区分不同任务的动作模式,导致在多任务场景下性能下降。例如,在桌面操作任务中,机器人需要掌握抓、放、推、拉、旋转等多种动作技能,现有技术难以准确区分和适应不同任务,导致操作失败率较高。
为了解决这一问题,国创中心技术团队提出了一种名为Discrete Policy的创新方法,通过向量量化变分自编码器(VQ-VAE)将动作序列映射到离散的隐动作空间,并利用条件扩散模型生成任务特定的隐动作模式嵌入向量,从而解耦多任务动作空间。该方法通过离散化隐动作空间,有效区分不同任务的动作模式。具体来说,VQ-VAE将连续的动作空间离散化为有限的隐动作空间,使得每个任务的动作模式可以被清晰地分离和识别。条件扩散模型则进一步生成任务特定的隐动作模式嵌入向量,确保机器人在执行不同任务时能够选择最合适的动作模式。
Discrete Policy显著提升了多任务操作的准确性和适应性。在实验中,Discrete Policy在12个任务中的平均成功率比Diffusion Policy高出32.5%,在5个任务测试中的平均成功率达到84%,比OpenVLA高出15%。此外,在6个双机械臂操作任务中,其成功率也达到65.8%,显著优于其他方法。
在应用方面,Discrete Policy不仅适用于桌面操作,还可广泛应用于工业、家居等多种场景。例如在工业装配线上,机器人需要执行多种复杂的操作任务,Discrete Policy可以有效提升其操作精度和效率。
未来,国创中心计划进一步优化该方法,提升其在动态环境中的适应能力,并探索其在更复杂场景下的应用。通过不断改进和扩展Discrete Policy,国创中心旨在为多任务机器人操作提供更加高效和可靠的技术支持,推动具身智能技术的进一步发展。
自我监督学习:从失败数据中提取价值提升操作成功率
论文标题:Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation
arXiv地址:https://arxiv.org/abs/2401.08957
在机器人操作任务中,数据收集成本高、时间长且昂贵,现有模仿学习方法通常只使用成功数据,丢弃失败数据,导致数据利用率低下,然而失败数据中往往包含有价值的信息,可以帮助机器人更好地理解任务和环境,从而提高操作成功率。如何从这些失败数据中提取有效信息,并将其转化为可用的训练数据,一直是模仿学习领域的一大难题。
为了更好地从失败数据中提取有价值的信息,国创中心技术团队提出了一种自监督数据过滤框架(SSDF)。该框架通过结合专家数据和失败数据来计算失败轨迹段的质量分数,并筛选出高质量的失败数据片段用于训练。具体来说,SSDF通过三种自监督任务(掩码状态转换预测、状态转换重构和动作自回归)提取代表性特征,并根据这些特征计算失败数据与专家数据之间的相似度,最终筛选出高质量的失败数据片段用于行为克隆。掩码状态转换预测任务通过预测被掩码的状态转换来学习状态之间的依赖关系;状态转换重构任务通过重构状态转换来提取状态变化的特征;动作自回归任务则通过预测未来动作来学习动作序列的模式。这些任务共同作用,使得SSDF能够从失败数据中提取出与专家数据相似的高质量片段。
经ManiSkill2基准测评和真实机器人操作任务测试,SSDF显著提升了任务成功率。例如,在悬挂绳子这一任务中,经SSDF框架过滤,机器人执行任务的成功率从14.4%提高到了28.4%。这一技术不仅提高了失败数据的利用效率,还降低了对高质量专家数据的依赖,节省了数据收集和标注成本。
在应用方面,通过更加有效的数据过滤和利用,SSDF框架可以大幅提高各种机器人系统在高不确定性环境中的表现。例如在工业自动化中,机器人需要执行多种复杂的装配任务,SSDF可以帮助机器人从失败的操作中学习,提高装配精度。SSDF框架的应用可以有效增强工业自动化、服务机器人以及人工智能系统实际部署效率,节约经济成本和时间。
后续,国创中心技术团队计划进一步提升自监督数据过滤框架(SSDF)的能力,特别是在不同任务场景以及不同机械臂之间的设置。此外,团队还希望改进特征提取和相似度计算方法,提升处理高维数据的稳定性和准确性。通过不断优化和扩展SSDF框架,国创中心致力于为机器人操作任务提供更加高效和可靠的学习方法,推动具身智能技术的进一步发展。
除了离散策略和自我监督学习,国创中心技术团队在扩散策略扩展、控制感知增强和多层零样本导航策略等领域也同步创造了高价值成果,这些成果不仅在技术上实现了突破,更为具身智能技术的多场景实地应用提供了强大助力。
论文标题:Scaling Diffusion Policy in Transformer to 1 Billion Parameters for Robotic Manipulation
arXiv地址:https://arxiv.org/abs/2409.14411
为了解决增加扩散模型层数或参数量导致训练梯度不稳定的问题,国创中心技术团队提出了ScaleDP方法,首次验证了基于扩散的模仿学习的模型扩展能力,成功解决了扩散策略在Transformer架构下的扩展难题。ScaleDP有效解决了扩散策略在Transformer架构中的梯度问题,使模型能够扩展到10亿参数,显著提升了训练稳定性和性能。
ScaleDP不仅验证了模型扩展带来的性能提升,还为具身智能的实际应用提供了更强的模型支持。同时,国创中心还计划进一步探索ScaleDP在多机器人协作和动态环境实时操作等复杂任务中的应用。
论文标题:Efficient Training of Generalizable Visuomotor Policies via Control-Aware Augmentation
针对现有端到端视觉模型只能在有限环境中训练且视觉泛化能力较差这一问题,国创中心技术团队提出了EAGLE框架,通过自监督学习感知掩码,精准定位操作中的关键区域(如机械爪接触面),并利用大规模互联网数据仅对非关键区域进行数据增强,同时通过非对称知识蒸馏方法,让视觉策略可从基于底层环境状态的专家策略中学习,实现面向新场景的零样本视觉策略迁移。
EAGLE框架有效避免了传统数据增强技术对关键信息的破坏,并大幅降低了数据采集和标注的成本。未来,国创中心技术团队计划将此技术应用于大规模预训练算法中,提升预训练模型在不同背景和干扰物下的泛化能力。同时,国创中心正在与家用机器人厂商合作,开发零样本自适应操作系统,使机械臂在新场景中无需大量数据采集即可高效部署。这一技术的广泛应用将显著降低机器人部署成本,推动家庭服务机器人的普及化发展。
论文标题:Multi-Floor Zero-Shot Object Navigation Policy
arXiv地址:https://arxiv.org/abs/2409.10906
为了应对多楼层环境中的智能体导航难题,国创中心技术团队提出了多层导航策略(MFNP),通过构建语义地图,融合RGB-D图像和位姿数据,为导航提供基础信息,结合大语言模型(LLM)、视觉语言模型(VLM)策略以及多层导航策略(MFNP),通过指定楼梯区域为路标点、对楼梯入口进行处理以及设置时间重置机制,有效提升了智能体在多楼层环境中的导航效率和成功率。
MFNP在HM3D和MP3D数据集上的表现超越了现有方法,显著提升了零样本对象导航的性能。这一成果不仅在数据集上得到验证,也在真实场景中展现出实际应用价值,推动了基于视觉的导航技术在复杂现实场景中的发展。后续,国创中心技术团队计划进一步扩展MFNP,细化多层导航数据集和应用到端到端训练方法,提高具身智能在复杂多层环境中的适应性和自主性。这一技术的深入发展和应用,有望在搜索救援、物品查找等多样化任务中提升智能机器人的效率和成功率,具有重要的实用价值和广泛的应用前景。
从离散策略的动作解耦到基于扩散策略的模型扩展,从自我监督学习到控制感知增强的策略训练,再到多层零样本导航策略,国创中心技术团队的创新成果在具身智能机器人领域实现了关键性技术突破,为底层技术探索和应用拓展提供了重要的理论支持与实践范例,有力推动了具身智能技术在多任务操作、模型扩展、数据利用和视觉运动策略等核心问题上的实质性进展。
具身智能的发展离不开全产业链的不懈努力和创新探索,后续,国创中心将继续深耕具身智能领域,加强与全球顶尖高校和科研院所的合作,不断探索未知,攻克更多技术难题。这些成果将为全球人工智能和机器人技术的发展提供新的思路和方向,推动具身智能从实验室走向实际应用,为人类社会带来更高效、更智能的服务与支持。