斯坦福联合研究项目 论文解读 | HOMER:通过混合模仿学习和全身控制实现野外移动操作
研究背景
在移动操作机器人领域,近年来的研究重点逐渐从实验室环境转向真实世界应用场景。传统移动操作机器人在面对家庭、办公室等非结构化日常环境时,暴露出诸多难题。
面临控制复杂性高(如基座与手臂协调困难)、泛化能力弱(对新物体和场景适应性差)、数据效率低(需大量演示数据)等难题。
为此,斯坦福大学和剑桥大学研究团队提出HOMER 框架,通过结合基于运动学的全身控制器(处理基座与手臂协调)和混合模仿学习策略(切换长距离绝对姿态与精细操作相对姿态预测),并整合视觉语言模型提升泛化能力。

图1:左图:演示者通过全身iPhone 远程操作,利用移动机械臂在真实家庭环境中收集数据。右图:HOMER 从这些收集到的演示数据中,学习到一种混合模仿学习策略,该策略会在用于抵达目标的绝对动作与用于精细操作的相对动作之间进行切换。一个全身控制器将这些末端执行器指令映射为手臂和基座的关节指令,以执行操作。
HOMER 框架的核心由三部分构成:
全身控制器(WBC):基于运动学,将末端执行器的目标姿态映射为移动基座和机械臂的关节位置命令,通过优化目标函数(包括末端执行器姿态跟踪、关节姿态保持接近中性位置、基座运动阻尼等)和约束条件(关节速度、位置限制及碰撞避免),实现协调运动。
从形式上看,WBC是一个映射W:SE(3)→R3+N,它能将期望的末端执行器位姿 xee∈SE(3) 转换为移动基座和机械臂的关节位置指令 q∈R3+N。研究人员实现了一个基于迭代逆运动学(IK)的求解器,该求解器的目标是找到使位姿误差最小的 q。为了计算能让末端执行器朝 xee 移动的速度,将位姿误差定义为体坐标系下的扭转:eee=log((xtee)−1xee)

混合模仿学习代理:包含关键点子策略和密集子策略。关键点子策略πkeypose处理长距离运动,输入第三人称点云Pt,输出末端执行器位姿、夹持器状态与控制模式,训练需动作、模式及显著点标注;条件关键点子策略(HOMER - COND)可接入外部3D关键点,还靠数据增强提升泛化。密集子策略πdense负责精细操作,输入第三人称和腕部RGB图像、当前末端执行器状态,预测相对位姿的6D增量动作与控制模式。执行时,代理根据当前模式mt自动切换子策略:

视觉语言模型(VLM)集成:通过 HOMER-COND变体,引入VLM生成的3D关键点作为条件输入,提升对新物体、杂乱场景的泛化能力。

图2. HOMER 策略架构:HOMER 包含一个密集型策略和一个关键点姿态策略。密集型策略利用 RGB 图像预测用于精细操作的相对动作;关键点姿态策略利用点云预测用于远程移动的末端执行器绝对姿态。每个策略还会预测下一个控制模式,从而实现学习到的模式转换。此外,关键点姿态策略可选择性地以外部提供的、源自视觉语言模型(VLM)的显著点为条件,以支持动态目标指定(即 HOMER-COND)。最后,全身控制器(WBC)将预测的末端执行器动作转换为移动基座和机械臂的关节指令。
机械臂:采用7 自由度 Kinova Gen3 机械臂,搭载于TidyBot++全向移动基座,形成移动操作系统。
感知设备:配备两台基座相机和一台腕部鱼眼相机,用于获取RGB-D图像,进而构建 3D 点云。
计算硬件:机载NUC负责实时控制,机载GPU笔记本运行策略推理。
软件工具:基于MuJoCo物理引擎和mink逆运动学库实现全身控制器,采用 Transformer 架构和 Diffusion Policy 分别实现关键点子策略和密集子策略。
为验证HOMER的性能,研究人员在六项不同任务上对其开展评估,每项任务仅使用20个演示数据。同时,为明确关键设计因素的影响,设置了与HOMER在两方面存在差异的基线进行对比:

混合动作vs 仅密集动作:对比HOMER在关键姿势与密集动作间切换的混合策略,和仅采用密集动作的策略。
全身控制vs 分离底座 + 手臂控制:对比HOMER 借助全身控制器(WBC)实现的协调控制,与单独控制底座和手臂运动的策略。
所有基线使用的训练数据与HOMER 一致,仅在动作空间或控制策略上有所不同。
基准测试结果

泛化能力的提升
HoMeR面临的一大挑战是在新物体、杂乱场景下的泛化能力不足。为解决此问题,利用HoMeR可根据外部3D关键点调节关键姿势策略的优势,推出HoMeR - Cond,它以视觉语言模型Molmo依据任务语言描述生成的3D关键点为输入。
为进一步增强鲁棒性,HoMeR - Cond在无颜色的点云上训练,并添加随机生成的干扰点模拟杂波与遮挡。在尺寸、干扰点、外观均有变化的四个具挑战性立方体变体上评估:

HoMeR和HoMeR - Cond - NoAugs在简单设置下能成功识别,但遇到干扰物或新物体时识别效果下降;而HoMeR - Cond保持了稳健性,体现出将显著点条件与点云增强结合的价值,有效提升了泛化能力。
通过将Kinova Gen3集成到系统中,研究团队能够在逼真的家庭环境中将移动性和操控性完美结合。在任务操作中展现可靠的性能,充分说明了Kinova 技术如何帮助机器人研究突破实验室的常规限制。
关键成果与突破
HOMER的成果和突破在移动操作领域具有重要意义:
首次将混合模仿学习与全身控制结合并应用于移动操作场景,突破了传统方法在非结构化环境中的局限性,为机器人在家庭等真实场景中高效工作提供了可行路径。
实现了样本高效学习,仅需每个任务20 次演示即可达到高成功率,大幅降低了对大规模标注数据的依赖,推动了移动操作机器人的实用化进程。
通过模块化设计集成VLM,显著提升了机器人对新对象、新环境的泛化能力,为机器人适应多样化场景开辟了新方向,使机器人从特定任务执行者向通用助手迈进了一步。
意义
学术领域:为移动操作机器人研究提供了新的技术路径和方法,拓展了模仿学习、全身控制等方向的研究边界,为后续相关研究奠定基础。
产业应用:有望推动移动操作机器人在家庭服务、办公辅助、医疗护理、工业协作等多个领域的广泛应用。
项目详情:https://homer-manip.github.io/
关于BFT白芙堂机器人
BFT(白芙堂)机器人是智能机器人一站式服务平台,能为客户提供机器人选型、培训、解决方案、在线采购、本地化定制等高性价比的一站式服务。平台产品涵盖协作机器人、工业机器人、移动机器人、SCARA机器人、服务机器人、机器人夹爪、三维机器视觉设备、3D工业相机等十余种品类,实现机器人产业链产品全覆盖,并广泛应用于工业制造、实验室自动化、智慧零售、教育科研等行业。平台已与国内外知名机器人企业达成战略合作,并拥有专业的工程师团队,能为客户提供算法及系统定制、职校教学、科研实验室平台搭建、机器人展厅定制等服务,支持一对一技术支持和二次开发。
