FineVLA 开源：一句话控制机器人用哪只手、抓哪里

现在的机器人模型能听懂「把杯子放进篮子」，但用哪只手？从哪个方向抓？抓杯身还是杯柄？这些决定执行效果的关键细节，现有数据集很少标注。香港大学 XLANG Lab 和阿里巴巴 Qwen 团队联合开源了 FineVLA——一个面向可控 VLA（Vision-Language-Action）策略的开源框架，让机器人不仅能完成任务，还能按照人类指定的方式完成任务。代码、模型、评测基准均已开源。

FineVLA 是什么

把它理解成「让机器人听懂执行细节的语言层」。在图像生成里，文字描述的细节会直接影响结果可控性；机器人策略学习也类似——语言需要约束真实动作过程。同样是把勺子拿起来，不同轨迹可能用左臂或右臂、绕过障碍物或直线移动，但在数据集中往往共享同一条目标级指令。

这会带来监督歧义：模型能学到「最终要成功」，却难以从语言中学到使用哪只手、从哪个方向接近、接触物体哪个部位等执行约束。FineVLA 就是为补上这一层而生。

FineVLA 让「把杯子放进篮子」变成「用左手、从右侧接近、抓杯柄」这样可执行的具体指令。

核心组件：四个模块构成闭环

FineVLA 构建了一个「数据—模型—评测—策略」的完整闭环。

左侧是数据构建链路（10 数据集 → 97 万轨迹 → 4.7 万代表性样本 → 十维标注），右侧是策略学习与评测。

组件一：FineVLA-Tool —— 从 97 万轨迹到细粒度数据

通过四个阶段把异构机器人数据转成高质量细粒度监督：

阶段一格式统一：从 Bridge V2、BC-Z、RT-1、RoboMIND 等 10 个开源数据集汇总 972,247 条轨迹，统一转成 LeRobot2.1 格式
阶段二动作规范化：统一时间参考和运动学表示为绝对坐标+归一化四元数旋转，剔除损坏轨迹
阶段三 DTW 聚类去重：基于动态时间规整计算动作轨迹相似度并层次聚类，从 97 万条筛出 47,159 条代表性样本
阶段四十维细粒度标注：按动作序列、执行体（左/右臂）、目标物体、接触与接近方式、轨迹方向、失败恢复等 10 个维度标注。标注后平均词数从 9.3 增至 96.8（10.4 倍）

组件二：RoboFine-VLM —— 让 VLM 学会描述机器人怎么动

通用 VLM 常漏掉物体歧义区分、接触区域、运动路径等执行细节。团队对 Qwen3.5-VL-397B-A17B 做全参数监督微调，得到 RoboFine-VLM——能输出覆盖 10 个控制维度的步骤级动作描述，作为未来数据扩展的可扩展标注器。

组件三：RoboFine-Bench —— 评测细粒度动作理解

评测基准与训练集严格不重叠，分 VQA 和 Caption 两个轨道，涵盖定位、动作理解、状态推理三个评测轴。

包含 500 段视频、32 种机器人形态、11,631 个原子事实，与训练集严格不重叠。设有两个轨道：

VQA 轨道：1030 道问题，沿十个细粒度维度分布
Caption 轨道：要求模型生成动作对齐的步骤级描述，由 LLM 评判一致性、覆盖率、反幻觉三项指标

评测环境	指标	FineVLA	对比基线	提升
RoboTwin 仿真	成功率	86.8% / 82.5%	基线	+15.0 / +11.1
真实双臂机器人	得分	62.7 / 100	Raw-only 49.9	+12.8

按可控因素拆分，姿态（+23）、颜色（+18）、接近方向（+18）等维度均有显著提升。

优势

真可控：不再是「能完成」，而是「按你说的方式完成」
数据闭环完整：从异构数据到细粒度标注到评测到策略，每环都开源
评测基准公共可用：RoboFine-Bench 填补了机器人细粒度理解评测的空白

边界

主要在双臂场景验证：单臂、移动操作等形态的迁移效果需自测
依赖标注质量：细粒度标注目前由 Qwen3.5-Plus 生成+人工审核，规模化扩展依赖 RoboFine-VLM 的稳定性

应用场景

具身智能研究：开源代码+模型+基准，可直接作为可控 VLA 的研究基线
工业双臂机器人：需要精确控制执行细节（哪只手、抓哪里）的场景
机器人数据标注：RoboFine-VLM 作为可扩展标注器，能加速新数据集的细粒度标注
VLA 模型评测：RoboFine-Bench 是衡量模型「听不听话」的公共标尺

代码、模型、评测基准均已在 GitHub 开源（搜索「FineVLA」）。

阶段一格式统一：从 Bridge V2、BC-Z、RT-1、RoboMIND 等 10 个开源数据集汇总 972,247 条轨迹，统一转成 LeRobot2.1 格式
阶段二动作规范化：统一时间参考和运动学表示为绝对坐标+归一化四元数旋转，剔除损坏轨迹
阶段三 DTW 聚类去重：基于动态时间规整计算动作轨迹相似度并层次聚类，从 97 万条筛出 47,159 条代表性样本
阶段四十维细粒度标注：按动作序列、执行体（左/右臂）、目标物体、接触与接近方式、轨迹方向、失败恢复等 10 个维度标注。标注后平均词数从 9.3 增至 96.8（10.4 倍）

组件二：RoboFine-VLM —— 让 VLM 学会描述机器人怎么动

组件三：RoboFine-Bench —— 评测细粒度动作理解

评测基准与训练集严格不重叠，分 VQA 和 Caption 两个轨道，涵盖定位、动作理解、状态推理三个评测轴。

包含 500 段视频、32 种机器人形态、11,631 个原子事实，与训练集严格不重叠。设有两个轨道：

VQA 轨道：1030 道问题，沿十个细粒度维度分布
Caption 轨道：要求模型生成动作对齐的步骤级描述，由 LLM 评判一致性、覆盖率、反幻觉三项指标

评测环境	指标	FineVLA	对比基线	提升
RoboTwin 仿真	成功率	86.8% / 82.5%	基线	+15.0 / +11.1
真实双臂机器人	得分	62.7 / 100	Raw-only 49.9	+12.8

按可控因素拆分，姿态（+23）、颜色（+18）、接近方向（+18）等维度均有显著提升。

优势

真可控：不再是「能完成」，而是「按你说的方式完成」
数据闭环完整：从异构数据到细粒度标注到评测到策略，每环都开源
评测基准公共可用：RoboFine-Bench 填补了机器人细粒度理解评测的空白

边界

主要在双臂场景验证：单臂、移动操作等形态的迁移效果需自测
依赖标注质量：细粒度标注目前由 Qwen3.5-Plus 生成+人工审核，规模化扩展依赖 RoboFine-VLM 的稳定性

应用场景

具身智能研究：开源代码+模型+基准，可直接作为可控 VLA 的研究基线
工业双臂机器人：需要精确控制执行细节（哪只手、抓哪里）的场景
机器人数据标注：RoboFine-VLM 作为可扩展标注器，能加速新数据集的细粒度标注
VLA 模型评测：RoboFine-Bench 是衡量模型「听不听话」的公共标尺

代码、模型、评测基准均已在 GitHub 开源（搜索「FineVLA」）。

全部

AI教程

AI产品

AI资源

FineVLA 开源：一句话控制机器人用哪只手、抓哪里

FineVLA 开源：一句话控制机器人用哪只手、抓哪里

作者

分类

相关文章

Sakana Fugu：不自己答题，只指挥别的模型干活的编排器

百度开源 Unlimited OCR：500M 激活小模型，一口气读完 40 页不失忆

豆包 Seed-Audio 1.0 实测：一次生成角色对话、音效、BGM

FineVLA 开源：一句话控制机器人用哪只手、抓哪里

FineVLA 开源：一句话控制机器人用哪只手、抓哪里

作者

分类

相关文章

Sakana Fugu：不自己答题，只指挥别的模型干活的编排器

百度开源 Unlimited OCR：500M 激活小模型，一口气读完 40 页不失忆

豆包 Seed-Audio 1.0 实测：一次生成角色对话、音效、BGM