港大阿里联合开源 FineVLA 可控 VLA 框架,支持通过语言指定执行臂、接触区域等细节,RoboTwin 仿真成功率 86.8%。


港大阿里联合开源 FineVLA 可控 VLA 框架,支持通过语言指定执行臂、接触区域等细节,RoboTwin 仿真成功率 86.8%。
现在的机器人模型能听懂「把杯子放进篮子」,但用哪只手?从哪个方向抓?抓杯身还是杯柄?这些决定执行效果的关键细节,现有数据集很少标注。香港大学 XLANG Lab 和阿里巴巴 Qwen 团队联合开源了 FineVLA——一个面向可控 VLA(Vision-Language-Action)策略的开源框架,让机器人不仅能完成任务,还能按照人类指定的方式完成任务。代码、模型、评测基准均已开源。
把它理解成「让机器人听懂执行细节的语言层」。在图像生成里,文字描述的细节会直接影响结果可控性;机器人策略学习也类似——语言需要约束真实动作过程。同样是把勺子拿起来,不同轨迹可能用左臂或右臂、绕过障碍物或直线移动,但在数据集中往往共享同一条目标级指令。
这会带来监督歧义:模型能学到「最终要成功」,却难以从语言中学到使用哪只手、从哪个方向接近、接触物体哪个部位等执行约束。FineVLA 就是为补上这一层而生。
FineVLA 让「把杯子放进篮子」变成「用左手、从右侧接近、抓杯柄」这样可执行的具体指令。
FineVLA 构建了一个「数据—模型—评测—策略」的完整闭环。
左侧是数据构建链路(10 数据集 → 97 万轨迹 → 4.7 万代表性样本 → 十维标注),右侧是策略学习与评测。
通过四个阶段把异构机器人数据转成高质量细粒度监督:
通用 VLM 常漏掉物体歧义区分、接触区域、运动路径等执行细节。团队对 Qwen3.5-VL-397B-A17B 做全参数监督微调,得到 RoboFine-VLM——能输出覆盖 10 个控制维度的步骤级动作描述,作为未来数据扩展的可扩展标注器。
评测基准与训练集严格不重叠,分 VQA 和 Caption 两个轨道,涵盖定位、动作理解、状态推理三个评测轴。
包含 500 段视频、32 种机器人形态、11,631 个原子事实,与训练集严格不重叠。设有两个轨道:
设计三种配置严格隔离「架构」与「数据规模」的影响,每种配置在七种 FG:Raw 指令比例下评估。
最佳混合策略设置的成绩:
| 评测环境 | 指标 | FineVLA | 对比基线 | 提升 |
|---|---|---|---|---|
| RoboTwin 仿真 | 成功率 | 86.8% / 82.5% | 基线 | +15.0 / +11.1 |
| 真实双臂机器人 | 得分 | 62.7 / 100 | Raw-only 49.9 | +12.8 |
按可控因素拆分,姿态(+23)、颜色(+18)、接近方向(+18)等维度均有显著提升。
代码、模型、评测基准均已在 GitHub 开源(搜索「FineVLA」)。

Sakana AI 发布 Fugu 系列编排器模型,靠智能调度 GPT、Claude、Gemini 完成任务,性能逼近 Fable 5 与 Mythos Preview。

百度开源 Unlimited OCR,3B 总参数 / 500M 激活的端到端 OCR 模型,刷新 OmniDocBench SOTA,单次推理转录数十页文档不失忆。

火山引擎 Seed-Audio 1.0 升级为影视级全要素直出,一段提示词即可生成多角色对话、音效与背景音乐,接近成片级声音。