Step 3.7 Flash实测：400TPS极速推理，Agent任务成本仅为Claude的1/9

阶跃星辰（Step）发布了 Step 3.7 Flash，一个面向生产级 Agent 的新一代 Flash 模型。它的核心卖点很直接：400 TPS 的推理速度，单任务成本仅为 Claude Opus 4.6 的 1/9，同时实现 97% 的性能。

这不是又一个小模型刷榜的故事。Step 3.7 Flash 是一个 11B 激活参数的 MoE 模型，已开源，支持 mlx-vlm 在 Apple Silicon 上本地运行。

Step 3.7 Flash 定位

Step 3.7 Flash 定位为新一代 Agentic 基座模型

Step 3.7 Flash 是什么

Step 3.7 Flash 是阶跃星辰继 Step 3.5 Flash（曾登顶 OpenRouter Trending，OpenClaw 调用量全球第一）之后的最新一代 Flash 模型。

核心规格：

架构：MoE，11B 激活参数
视觉理解：196B + 1.8B ViT
推理速度：400 TPS
已开源：支持 mlx-vlm，在 128GB Apple Silicon 设备上可跑 32K 上下文

它的设计哲学很有意思：对一个 11B 激活的 Flash 模型来说，把海量视觉知识硬塞进权重是不划算的。阶跃只在权重里保留最核心的推理引擎，把感知边界和世界知识外推到推理阶段，靠极快的速度"多看几眼、多查几遍"来弥补参数量的不足。

五个实测场景

场景一：批量处理发票报销

把 12 张随手拍的发票（角度歪的、拍糊的，餐饮、电子、差旅全混在一起）丢给 Step 3.7 Flash。它不光认出每张票上的金额、税额、商户名，还能判断哪些字段是报销真正要填的，自动整理成统一表格，一键导出 Excel。

跑通的是"识别 -> 理解 -> 整理 -> 导出"的完整链条。

发票批量处理

自动识别发票信息并整理成表格

场景二：看懂专业软件界面

对着一张 Blender 界面截图问"怎么删除这个方块"，模型自动框选界面，读懂大纲列表、工具栏和当前编辑模式，给出具体到每一步的操作路径。能在 Blender 这种信息密度爆炸的 3D 软件里给出可执行的操作建议，意味着它已具备进驻专业工具的能力。

场景三：飞机驾驶舱操作指引

给模型一张密密麻麻的飞机驾驶舱截图，只输入"如何起飞"。它会自动框选驾驶舱区域，识别每个关键仪表的含义，理清操作顺序，一步步演示什么时候推油门、什么时候收起落架。

驾驶舱操作指引

从"看懂界面"到"教你怎么操作"，难度跨越了一个量级

场景四：高速 Deep Research

给它一句话："围绕 2026 人形机器人量产，给我一页能拍板的决策摘要。"它交回来的不是一堆链接，而是一份开头就下判断、中间用表格对比六家公司（特斯拉、Figure、宇树、智元、1X、Agility）的量产进度和风险、结尾给出三条带时间节点的可执行关注点的完整报告。每个数字后面都缀着来源。

场景五：GUI 理解与 Computer Use

给它一张剪映截图，一句"把这段导出成 1080P、30 帧"。它不仅定位了导出按钮的位置，还主动发现当前色彩格式是 1080i（隔行扫描）而非 1080P，提醒你手动修改。甚至注意到时间线上不止一段素材，专门指出"导出的是整个项目，不是单独这一个片段"。

不仅能看懂界面，还能发现用户容易忽略的细节

一个有趣的涌现行为

写完一段前端代码后，Step 3.7 Flash 会自己切到 GUI 里去测试刚生成的页面，看渲染效果、点交互按钮，再根据看到的结果回头改代码。

写代码 -> 看界面 -> 改代码，这套"组合拳"没人教过它，是自己悟出来的。

性能数据

指标	Step 3.7 Flash	对比
推理速度	400 TPS	行业顶级
单任务成本	Claude Opus 4.6 的 1/9	降本 89%
性能对比	Claude Opus 4.6 的 97%	差距仅 3%
Visual Benchmark (V)	95.3	对标 Kimi K2.6 (96.9)
激活参数	11B	MoE 架构

海外开发者反馈

有开发者从 Gemini 3.5 Flash 切回 Step 3.7 Flash 后，它一口气找出 7 个以上的 bug
有人表示速度"快得离谱"
支持了 mlx-vlm，在 Apple Silicon 上 4-bit 量化可跑 32K 上下文
有开发者表示第一次认真考虑把它作为其他模型的替代方案

如何使用

API 调用：通过 OpenRouter 或阶跃星辰官方 API 接入。

本地部署：已开源，支持 mlx-vlm 框架。在 128GB 内存的 Apple Silicon 设备上，4-bit 量化版本可运行 32K 上下文。

适合谁用

Agent 开发者：需要低成本、高吞吐的基座模型支撑生产级 Agent 工作流
企业用户：需要批量处理发票、文档、截图等视觉密集型任务
个人开发者：需要本地部署、保护隐私的 AI 模型
Deep Research 场景：需要快速生成决策摘要和信息整合
GUI 自动化：需要让 Agent 理解和操作桌面应用界面

常见问题

Q：Step 3.7 Flash 和旗舰模型差距大吗？ A：在 Agent 任务上达到 Claude Opus 4.6 的 97% 性能，但成本只有 1/9。对于绝大多数生产场景，这个差距可以接受。

Q：能本地跑吗？ A：可以。已开源，支持 mlx-vlm。128GB Apple Silicon 设备上 4-bit 量化可跑 32K 上下文。

Q：和 Step 3.5 Flash 比，提升了什么？ A：主要在视觉理解、GUI 操作、Deep Research 和代码生成方面有显著提升，同时保持了 Flash 系列的速度和成本优势。

Q：商业使用有限制吗？ A：已开源，具体 License 条款请查看官方 GitHub 仓库。

这不是又一个小模型刷榜的故事。Step 3.7 Flash 是一个 11B 激活参数的 MoE 模型，已开源，支持 mlx-vlm 在 Apple Silicon 上本地运行。

Step 3.7 Flash 定位

Step 3.7 Flash 定位为新一代 Agentic 基座模型

Step 3.7 Flash 是什么

Step 3.7 Flash 是阶跃星辰继 Step 3.5 Flash（曾登顶 OpenRouter Trending，OpenClaw 调用量全球第一）之后的最新一代 Flash 模型。

核心规格：

架构：MoE，11B 激活参数
视觉理解：196B + 1.8B ViT
推理速度：400 TPS
已开源：支持 mlx-vlm，在 128GB Apple Silicon 设备上可跑 32K 上下文

五个实测场景

场景一：批量处理发票报销

跑通的是"识别 -> 理解 -> 整理 -> 导出"的完整链条。

发票批量处理

自动识别发票信息并整理成表格

指标	Step 3.7 Flash	对比
推理速度	400 TPS	行业顶级
单任务成本	Claude Opus 4.6 的 1/9	降本 89%
性能对比	Claude Opus 4.6 的 97%	差距仅 3%
Visual Benchmark (V)	95.3	对标 Kimi K2.6 (96.9)
激活参数	11B	MoE 架构

海外开发者反馈

有开发者从 Gemini 3.5 Flash 切回 Step 3.7 Flash 后，它一口气找出 7 个以上的 bug
有人表示速度"快得离谱"
支持了 mlx-vlm，在 Apple Silicon 上 4-bit 量化可跑 32K 上下文
有开发者表示第一次认真考虑把它作为其他模型的替代方案

如何使用

API 调用：通过 OpenRouter 或阶跃星辰官方 API 接入。

本地部署：已开源，支持 mlx-vlm 框架。在 128GB 内存的 Apple Silicon 设备上，4-bit 量化版本可运行 32K 上下文。

适合谁用

Agent 开发者：需要低成本、高吞吐的基座模型支撑生产级 Agent 工作流
企业用户：需要批量处理发票、文档、截图等视觉密集型任务
个人开发者：需要本地部署、保护隐私的 AI 模型
Deep Research 场景：需要快速生成决策摘要和信息整合
GUI 自动化：需要让 Agent 理解和操作桌面应用界面

常见问题

Q：Step 3.7 Flash 和旗舰模型差距大吗？ A：在 Agent 任务上达到 Claude Opus 4.6 的 97% 性能，但成本只有 1/9。对于绝大多数生产场景，这个差距可以接受。

Q：能本地跑吗？ A：可以。已开源，支持 mlx-vlm。128GB Apple Silicon 设备上 4-bit 量化可跑 32K 上下文。

Q：和 Step 3.5 Flash 比，提升了什么？ A：主要在视觉理解、GUI 操作、Deep Research 和代码生成方面有显著提升，同时保持了 Flash 系列的速度和成本优势。

Q：商业使用有限制吗？ A：已开源，具体 License 条款请查看官方 GitHub 仓库。

全部

AI教程

AI产品

AI资源

Step 3.7 Flash实测：400TPS极速推理，Agent任务成本仅为Claude的1/9

Step 3.7 Flash实测：400TPS极速推理，Agent任务成本仅为Claude的1/9

作者

分类

相关文章

阿里 Meoo：说话就能上线的 AI 开发工具

腾讯混元3D世界模型2.0：一句话造出可编辑3D世界

千问表格 Agent：对话生成 Excel 全指南

Step 3.7 Flash实测：400TPS极速推理，Agent任务成本仅为Claude的1/9

Step 3.7 Flash实测：400TPS极速推理，Agent任务成本仅为Claude的1/9

作者

分类

相关文章

阿里 Meoo：说话就能上线的 AI 开发工具

腾讯混元3D世界模型2.0：一句话造出可编辑3D世界

千问表格 Agent：对话生成 Excel 全指南