BFT机器人|一站式机器人采购平台 机器人代理、采购

商品分类
    商品分类
  1. 首页
  2. 返回

Franka Robotics × VLMgineer:以大模型之力,首拓机器人硬件新领域


研究背景:


本文以Franka Research 3机械臂为核心载体,聚焦机器人在复杂操作任务中对工具的创造性设计与高效使用问题。


在传统的机器人研究中,多侧重于优化控制策略,而工具设计往往依赖人工,这在一定程度上限制了机器人在超出自身能力范围任务中的表现。


为此,研究人员提出了VLMGINEER框架。该框架结合视觉语言模型(VLM)的创造力与进化搜索算法,实现了工具与动作计划的协同设计,成功解决了传统方法中工具设计依赖人工、泛化能力弱、控制与工具设计脱节等问题。


实验设置

    核心硬件


    采用Franka Research 3机械臂作为标准载体,将其默认两指夹爪作为基线对比,工具通过末端执行器接口连接。


    感知与模拟环境


    • 环境通过PyBullet物理引擎模拟,并集成overhead相机以提供场景视觉输入。
    • 无需额外外部传感器,依赖模拟环境的状态反馈(如物体位置、姿态)评估任务完成度。

    软件框架


    基于Python实现,VLM采用gemini-2.5-pro-preview模型,进化搜索与模拟评估并行计算以加速迭代。


    image.png

    图1:VLMGINEER 以未修改的环境源代码、环境图像、环境描述和任务描述作为上下文,通过视觉语言模型(VLM)零样本生成工具和动作设计。随后,它通过候选样本采样、基于仿真的评估以及进化改进的循环,对工具和动作设计进行迭代优化。


    核心方法

      VLM驱动的工具 - 动作协同设计


      通过VLM生成初始工具设计(URDF 格式)和对应动作序列(末端执行器位姿与夹爪状态),利用进化搜索迭代优化,逐步提升工具性能与动作效率


      image.png

      图2:面对机器人能力之外的操作任务,VLMGINEER先提示视觉语言模型生成工具和动作,再在仿真中用进化搜索优化工具几何结构并合成机器人运动规划,最终使配备自动设计工具的机器人成功完成任务。

       

      进化搜索机制:


      采样:VLM基于环境代码、任务描述生成多样化工具 - 动作候选对;

      评估:通过任务适应度函数筛选表现优异的候选;

      迭代:引导VLM对优秀候选进行突变(如调整尺寸)和交叉(融合设计元素),生成新一代设计。

       

      统一表示格式


      工具以URDF格式描述,确保与机器人模型兼容;动作以离散位姿数组表示(含末端执行器6自由度+夹爪状态),简化控制逻辑。



      实验设计与验证

        基准测试集


        构建了 ROBOTOOLBENCH 基准,包含 12 项任务(如取远处物体、聚集球体、移动小球等),这些任务均被设计为默认机械臂难以完成的场景。


        image.png

        图 3:本图对比了 Franka 夹具实验、3 组人工提示实验以及本文提出的方法在 12 项任务中的奖励情况。对于每种方法,图例中颜色较深的柱形表示 5 次运行的平均奖励,而位于其上方、颜色较浅的柱形则表示这些运行中的最佳奖励。


        image.png

        图4:本图对人工设计的工具、RLBench(强化学习基准)工具以及 VLMGINEER工具在三项任务上进行了定性对比,这三项任务分别是:取cube(顶行)、踢进球门(中行)和收集球体(底行)。


        对比实验


        • 基线 1:Franka 默认夹爪(无额外工具)。
        • 基线 2:人类指定工具设计(含机器人专家、LLM 专家、普通人三组)。
        • 基线 3:RLBench 现有工具(日常常用工具)。

        成果表明,该框架在 12 项日常操作任务中,不仅超越了人类指定设计的工具和现有日常工具,还将复杂机器人任务转化为简单执行流程,为机器人硬件设计与应用开辟了新路径。

         image.png

        图 5:本图对人工设计的工具、RLBench(强化学习基准)工具以及 VLMGINEER 工具在三项任务上进行了定性对比,这三项任务分别是:取 cube(顶行)、踢进球门(中行)和收集球体(底行)。


        评估指标:任务完成度(归一化奖励0-1)、动作效率(末端执行器移动距离)。



        关键成果与突破


        性能超越基线

        • 相比人类指定设计的 VLM 生成工具,平均奖励提升 64.7%;

        • 优于现有人类设计工具,平均奖励提升 24.3%,且动作更高效(如在 BringCube 任务中移动距离更短)。


        进化机制的有效性

        • 经进化迭代后,工具设计显著优化(如 GatherSpheres 任务中添加护栏防止球体掉落);

        • 相比仅初始采样的设计,进化后任务成功率平均提升 30% 以上。


        泛化能力

        • 无需任务特定模板或示例,可直接应用于12项不同任务,展示跨场景适应性。


        image.png

        图 5:展示了进化算法在工具设计中(a)定量和(b)定性两方面的有效性。a)所有评估任务的平均最高奖励,对比 “无进化” 和 “有进化” 条件;b)收集球体(顶行)和移动球体(底行)任务在进化前后的定性对比。


        结语

        VLMGINEER通过融合大模型的创造力与进化算法的优化能力,首次实现了机器人工具与动作的全自动协同设计,为Franka机械臂等硬件拓展了在复杂环境中的应用边界。


        该研究不仅验证了大模型在物理设计中的潜力,更开创了 “软件定义硬件” 的新范式 —— 未来机器人或可通过自主设计工具,灵活应对家庭、工业等多样化场景的挑战。

        关于BFT白芙堂机器人

        BFT(白芙堂)机器人是智能机器人一站式服务平台,能为客户提供机器人选型、培训、解决方案、在线采购、本地化定制等高性价比的一站式服务。平台产品涵盖协作机器人、工业机器人、移动机器人、SCARA机器人、服务机器人、机器人夹爪、三维机器视觉设备、3D工业相机等十余种品类,实现机器人产业链产品全覆盖,并广泛应用于工业制造、实验室自动化、智慧零售、教育科研等行业。平台已与国内外知名机器人企业达成战略合作,并拥有专业的工程师团队,能为客户提供算法及系统定制、职校教学、科研实验室平台搭建、机器人展厅定制等服务,支持一对一技术支持和二次开发。

        相关产品

        推荐产品