阶跃星辰发布Step 3.7 Flash,400 tokens/秒推理速度,11B激活参数实现Claude Opus 4.6的97%性能,开源可本地部署


阶跃星辰发布Step 3.7 Flash,400 tokens/秒推理速度,11B激活参数实现Claude Opus 4.6的97%性能,开源可本地部署
阶跃星辰(Step)发布了 Step 3.7 Flash,一个面向生产级 Agent 的新一代 Flash 模型。它的核心卖点很直接:400 TPS 的推理速度,单任务成本仅为 Claude Opus 4.6 的 1/9,同时实现 97% 的性能。
这不是又一个小模型刷榜的故事。Step 3.7 Flash 是一个 11B 激活参数的 MoE 模型,已开源,支持 mlx-vlm 在 Apple Silicon 上本地运行。

Step 3.7 Flash 定位为新一代 Agentic 基座模型
Step 3.7 Flash 是阶跃星辰继 Step 3.5 Flash(曾登顶 OpenRouter Trending,OpenClaw 调用量全球第一)之后的最新一代 Flash 模型。
核心规格:
它的设计哲学很有意思:对一个 11B 激活的 Flash 模型来说,把海量视觉知识硬塞进权重是不划算的。阶跃只在权重里保留最核心的推理引擎,把感知边界和世界知识外推到推理阶段,靠极快的速度"多看几眼、多查几遍"来弥补参数量的不足。
把 12 张随手拍的发票(角度歪的、拍糊的,餐饮、电子、差旅全混在一起)丢给 Step 3.7 Flash。它不光认出每张票上的金额、税额、商户名,还能判断哪些字段是报销真正要填的,自动整理成统一表格,一键导出 Excel。
跑通的是"识别 -> 理解 -> 整理 -> 导出"的完整链条。

自动识别发票信息并整理成表格
对着一张 Blender 界面截图问"怎么删除这个方块",模型自动框选界面,读懂大纲列表、工具栏和当前编辑模式,给出具体到每一步的操作路径。能在 Blender 这种信息密度爆炸的 3D 软件里给出可执行的操作建议,意味着它已具备进驻专业工具的能力。
给模型一张密密麻麻的飞机驾驶舱截图,只输入"如何起飞"。它会自动框选驾驶舱区域,识别每个关键仪表的含义,理清操作顺序,一步步演示什么时候推油门、什么时候收起落架。

从"看懂界面"到"教你怎么操作",难度跨越了一个量级
给它一句话:"围绕 2026 人形机器人量产,给我一页能拍板的决策摘要。"它交回来的不是一堆链接,而是一份开头就下判断、中间用表格对比六家公司(特斯拉、Figure、宇树、智元、1X、Agility)的量产进度和风险、结尾给出三条带时间节点的可执行关注点的完整报告。每个数字后面都缀着来源。
给它一张剪映截图,一句"把这段导出成 1080P、30 帧"。它不仅定位了导出按钮的位置,还主动发现当前色彩格式是 1080i(隔行扫描)而非 1080P,提醒你手动修改。甚至注意到时间线上不止一段素材,专门指出"导出的是整个项目,不是单独这一个片段"。
不仅能看懂界面,还能发现用户容易忽略的细节
写完一段前端代码后,Step 3.7 Flash 会自己切到 GUI 里去测试刚生成的页面,看渲染效果、点交互按钮,再根据看到的结果回头改代码。
写代码 -> 看界面 -> 改代码,这套"组合拳"没人教过它,是自己悟出来的。
| 指标 | Step 3.7 Flash | 对比 |
|---|---|---|
| 推理速度 | 400 TPS | 行业顶级 |
| 单任务成本 | Claude Opus 4.6 的 1/9 | 降本 89% |
| 性能对比 | Claude Opus 4.6 的 97% | 差距仅 3% |
| Visual Benchmark (V) | 95.3 | 对标 Kimi K2.6 (96.9) |
| 激活参数 | 11B | MoE 架构 |
API 调用:通过 OpenRouter 或阶跃星辰官方 API 接入。
本地部署:已开源,支持 mlx-vlm 框架。在 128GB 内存的 Apple Silicon 设备上,4-bit 量化版本可运行 32K 上下文。
Q:Step 3.7 Flash 和旗舰模型差距大吗? A:在 Agent 任务上达到 Claude Opus 4.6 的 97% 性能,但成本只有 1/9。对于绝大多数生产场景,这个差距可以接受。
Q:能本地跑吗? A:可以。已开源,支持 mlx-vlm。128GB Apple Silicon 设备上 4-bit 量化可跑 32K 上下文。
Q:和 Step 3.5 Flash 比,提升了什么? A:主要在视觉理解、GUI 操作、Deep Research 和代码生成方面有显著提升,同时保持了 Flash 系列的速度和成本优势。
Q:商业使用有限制吗? A:已开源,具体 License 条款请查看官方 GitHub 仓库。