BFT机器人|一站式机器人采购平台 机器人代理、采购

商品分类
    商品分类
  1. 首页
  2. 返回

上海交通大学联合项目论文解读 | Hume 模型:视觉 - 语言 - 动作模型中引入系统 2 思维



研究背景

在机器人与物理世界交互的领域,传统视觉 - 语言 - 动作模型常因缺乏深度推理能力,难以应对复杂动态任务。上海交通大学联合项目以 Franka Research 3机器人为载体,提出了 Hume 模型方案。


该方案通过在视觉 - 语言 - 动作模型中引入系统2思维,结合价值引导的思维机制与级联动作去噪技术,实现了机器人在复杂任务中的精准控制与高效决策。最终在多个基准测试中超越现有最先进模型,解决了传统模型在复杂场景下推理不足、动作精度低的核心问题。


image.png

Hume,这是一种双系统视觉语言行动模型,旨在探索类人思维能力,以实现灵巧的机器人控制。该模型配备了价值导向的系统2思维和级联行动去噪功能,具备卓越的复杂推理和控制能力。该模型在各种评估中均达到了最先进的性能,并展现出 在复杂机器人控制任务方面取得了显著进展。


我们作为Franka机器人的官方代理商

为用户提供高效的解决方案

如有产品购买需求请联系:info@bft-robot.com



核心方法


双系统架构设计:系统2作为 “慢思考” 核心,基于40亿参数的视觉语言模型构建,通过价值查询头估计动作的状态 - 动作价值,重复采样并筛选最优动作块;系统1作为轻量级 “快执行” 模块,以8000万参数实现90赫兹高频动作输出,对系统2的动作进行级联去噪。


价值引导思维机制:系统2通过流匹配去噪头生成多组候选动作,结合价值查询头的评估结果,选择价值最高的动作路径,提升复杂任务的推理准确性。


异步协作模式:系统2以4赫兹低频运行,负责长期规划;系统1异步接收动作指令并实时执行,平衡 “慢思考” 与 “快控制” 的需求。


image.png




实验设置


硬件设备:WidowX、AgiBot G-1和Franka机器人


机械臂:采用Franka Research 3协作机械臂,7个自由度,重复定位精度±0.1mm,配备力矩传感器,支持力控操作,适用于精细抓取与装配任务。



相机:搭载 Intel RealSense D455 深度相机,分辨率 1280×720,帧率 30fps,同步获取 RGB 图像与深度信息,为视觉观测提供高精度数据。


计算平台:采用 NVIDIA RTX 4090 显卡与 Intel Xeon W-2295 处理器,满足模型实时推理与数据处理需求;配套机器人控制系统实现动作指令的精准执行。


image.png




实验设计与验证


场景覆盖:包含 21 个真实世界场景(如厨房物品整理、桌面装配)与 3 个模拟环境,测试变量涵盖视角变化、光照差异、未知物体与环境布局调整。


image.png


对比方案:与 OpenVLA、GR00T、π0 等主流视觉 - 语言 - 动作模型进行对比,评估指标包括任务成功率、动作流畅度、环境适应性。


image.png

表1:LIBERO基准测试结果。展示了每种方法在四个任务套件中的成功率(SR)和标准误差,这些结果是在三个随机种子下进行500次试验的平均值。Hume取得了最高的平均成功率和排名,其次是OpenVLA-OFT和π0。

 

消融实验:通过移除系统 2 价值引导模块、级联去噪机制等组件,验证各核心模块的必要性;针对类人机器人控制等复杂任务进行专项测试。

 

image.png

在WidowX、Franka和Agibot G-1机器人上的实际消融实验。在3个不同的实际机器人平台上对Hume进行了消融研究,涵盖15个机器人学习场景和21个实际操作任务。


关键成果与突破


  • 性能领先:在LIBERO基准测试中成功率提升4.4%,Simpler基准测试提升 25.9%,真实世界部署中提升12.9%,刷新同类模型最佳表现。


  • 复杂推理能力:通过系统2思维实现多步任务规划,例如 “打开抽屉 - 取出物品 - 关闭抽屉” 的连贯操作,解决传统模型因短视导致的任务中断问题。


  • 鲁棒性增强:在光照突变、物体位置偏移等干扰下,任务完成率仍保持 85% 以上,较传统模型提升30%以上。



结语


Hume 模型通过双系统架构与价值引导思维,为机器人赋予了类人化的 “思考” 能力,在 Franka Research 3 机器人上的实验验证了其在复杂场景中的优越性。


该成果不仅推动了视觉 - 语言 - 动作模型的技术突破,更为通用机器人在工业协作、家庭服务等领域的应用提供了关键支撑。未来可进一步优化模型效率,拓展至多机器人协同场景,持续探索类人思维与机器人控制的深度融合。


关于BFT白芙堂机器人

BFT(白芙堂)机器人是智能机器人一站式服务平台,能为客户提供机器人选型、培训、解决方案、在线采购、本地化定制等高性价比的一站式服务。平台产品涵盖协作机器人、工业机器人、移动机器人、SCARA机器人、服务机器人、机器人夹爪、三维机器视觉设备、3D工业相机等十余种品类,实现机器人产业链产品全覆盖,并广泛应用于工业制造、实验室自动化、智慧零售、教育科研等行业。平台已与国内外知名机器人企业达成战略合作,并拥有专业的工程师团队,能为客户提供算法及系统定制、职校教学、科研实验室平台搭建、机器人展厅定制等服务,支持一对一技术支持和二次开发。

相关产品

推荐产品