toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,310个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

FineVLA 开源:一句话控制机器人用哪只手、抓哪里

2026/06/23
·toolin小编

港大阿里联合开源 FineVLA 可控 VLA 框架,支持通过语言指定执行臂、接触区域等细节,RoboTwin 仿真成功率 86.8%。

FineVLA 开源:一句话控制机器人用哪只手、抓哪里
FineVLA 开源:一句话控制机器人用哪只手、抓哪里
2026/06/23

FineVLA 开源:一句话控制机器人用哪只手、抓哪里

港大阿里联合开源 FineVLA 可控 VLA 框架,支持通过语言指定执行臂、接触区域等细节,RoboTwin 仿真成功率 86.8%。

FineVLA 是什么核心组件:四个模块构成闭环组件一:FineVLA-Tool —— 从 97 万轨迹到细粒度数据组件二:RoboFine-VLM —— 让 VLM 学会描述机器人怎么动组件三:RoboFine-Bench —— 评测细粒度动作理解组件四:FineVLA-Policy —— 验证细粒度语言的策略收益实际体验:效果数据仿真与真实机器人结果优势边界应用场景
AI产品

现在的机器人模型能听懂「把杯子放进篮子」,但用哪只手?从哪个方向抓?抓杯身还是杯柄?这些决定执行效果的关键细节,现有数据集很少标注。香港大学 XLANG Lab 和阿里巴巴 Qwen 团队联合开源了 FineVLA——一个面向可控 VLA(Vision-Language-Action)策略的开源框架,让机器人不仅能完成任务,还能按照人类指定的方式完成任务。代码、模型、评测基准均已开源。

FineVLA 是什么

把它理解成「让机器人听懂执行细节的语言层」。在图像生成里,文字描述的细节会直接影响结果可控性;机器人策略学习也类似——语言需要约束真实动作过程。同样是把勺子拿起来,不同轨迹可能用左臂或右臂、绕过障碍物或直线移动,但在数据集中往往共享同一条目标级指令。

这会带来监督歧义:模型能学到「最终要成功」,却难以从语言中学到使用哪只手、从哪个方向接近、接触物体哪个部位等执行约束。FineVLA 就是为补上这一层而生。

FineVLA 让「把杯子放进篮子」变成「用左手、从右侧接近、抓杯柄」这样可执行的具体指令。

核心组件:四个模块构成闭环

FineVLA 构建了一个「数据—模型—评测—策略」的完整闭环。

左侧是数据构建链路(10 数据集 → 97 万轨迹 → 4.7 万代表性样本 → 十维标注),右侧是策略学习与评测。

组件一:FineVLA-Tool —— 从 97 万轨迹到细粒度数据

通过四个阶段把异构机器人数据转成高质量细粒度监督:

  • 阶段一 格式统一:从 Bridge V2、BC-Z、RT-1、RoboMIND 等 10 个开源数据集汇总 972,247 条轨迹,统一转成 LeRobot2.1 格式
  • 阶段二 动作规范化:统一时间参考和运动学表示为绝对坐标+归一化四元数旋转,剔除损坏轨迹
  • 阶段三 DTW 聚类去重:基于动态时间规整计算动作轨迹相似度并层次聚类,从 97 万条筛出 47,159 条代表性样本
  • 阶段四 十维细粒度标注:按动作序列、执行体(左/右臂)、目标物体、接触与接近方式、轨迹方向、失败恢复等 10 个维度标注。标注后平均词数从 9.3 增至 96.8(10.4 倍)

组件二:RoboFine-VLM —— 让 VLM 学会描述机器人怎么动

通用 VLM 常漏掉物体歧义区分、接触区域、运动路径等执行细节。团队对 Qwen3.5-VL-397B-A17B 做全参数监督微调,得到 RoboFine-VLM——能输出覆盖 10 个控制维度的步骤级动作描述,作为未来数据扩展的可扩展标注器。

组件三:RoboFine-Bench —— 评测细粒度动作理解

评测基准与训练集严格不重叠,分 VQA 和 Caption 两个轨道,涵盖定位、动作理解、状态推理三个评测轴。

包含 500 段视频、32 种机器人形态、11,631 个原子事实,与训练集严格不重叠。设有两个轨道:

  • VQA 轨道:1030 道问题,沿十个细粒度维度分布
  • Caption 轨道:要求模型生成动作对齐的步骤级描述,由 LLM 评判一致性、覆盖率、反幻觉三项指标

组件四:FineVLA-Policy —— 验证细粒度语言的策略收益

设计三种配置严格隔离「架构」与「数据规模」的影响,每种配置在七种 FG:Raw 指令比例下评估。

实际体验:效果数据

仿真与真实机器人结果

最佳混合策略设置的成绩:

评测环境指标FineVLA对比基线提升
RoboTwin 仿真成功率86.8% / 82.5%基线+15.0 / +11.1
真实双臂机器人得分62.7 / 100Raw-only 49.9+12.8

按可控因素拆分,姿态(+23)、颜色(+18)、接近方向(+18)等维度均有显著提升。

优势

  • 真可控:不再是「能完成」,而是「按你说的方式完成」
  • 数据闭环完整:从异构数据到细粒度标注到评测到策略,每环都开源
  • 评测基准公共可用:RoboFine-Bench 填补了机器人细粒度理解评测的空白

边界

  • 主要在双臂场景验证:单臂、移动操作等形态的迁移效果需自测
  • 依赖标注质量:细粒度标注目前由 Qwen3.5-Plus 生成+人工审核,规模化扩展依赖 RoboFine-VLM 的稳定性

应用场景

  • 具身智能研究:开源代码+模型+基准,可直接作为可控 VLA 的研究基线
  • 工业双臂机器人:需要精确控制执行细节(哪只手、抓哪里)的场景
  • 机器人数据标注:RoboFine-VLM 作为可扩展标注器,能加速新数据集的细粒度标注
  • VLA 模型评测:RoboFine-Bench 是衡量模型「听不听话」的公共标尺

代码、模型、评测基准均已在 GitHub 开源(搜索「FineVLA」)。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
FineVLA 是什么核心组件:四个模块构成闭环组件一:FineVLA-Tool —— 从 97 万轨迹到细粒度数据组件二:RoboFine-VLM —— 让 VLM 学会描述机器人怎么动组件三:RoboFine-Bench —— 评测细粒度动作理解组件四:FineVLA-Policy —— 验证细粒度语言的策略收益实际体验:效果数据仿真与真实机器人结果优势边界应用场景

相关文章

Sakana Fugu:不自己答题,只指挥别的模型干活的编排器
AI产品

Sakana Fugu:不自己答题,只指挥别的模型干活的编排器

Sakana AI 发布 Fugu 系列编排器模型,靠智能调度 GPT、Claude、Gemini 完成任务,性能逼近 Fable 5 与 Mythos Preview。

avatar for toolin小编
toolin小编
3天前
百度开源 Unlimited OCR:500M 激活小模型,一口气读完 40 页不失忆
AI产品

百度开源 Unlimited OCR:500M 激活小模型,一口气读完 40 页不失忆

百度开源 Unlimited OCR,3B 总参数 / 500M 激活的端到端 OCR 模型,刷新 OmniDocBench SOTA,单次推理转录数十页文档不失忆。

avatar for toolin小编
toolin小编
3天前
豆包 Seed-Audio 1.0 实测:一次生成角色对话、音效、BGM
AI产品

豆包 Seed-Audio 1.0 实测:一次生成角色对话、音效、BGM

火山引擎 Seed-Audio 1.0 升级为影视级全要素直出,一段提示词即可生成多角色对话、音效与背景音乐,接近成片级声音。

avatar for toolin小编
toolin小编
2天前