toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,194个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Step 3.7 Flash实测:400TPS极速推理,Agent任务成本仅为Claude的1/9

2026/06/01
·toolin小编

阶跃星辰发布Step 3.7 Flash,400 tokens/秒推理速度,11B激活参数实现Claude Opus 4.6的97%性能,开源可本地部署

Step 3.7 Flash实测:400TPS极速推理,Agent任务成本仅为Claude的1/9
Step 3.7 Flash实测:400TPS极速推理,Agent任务成本仅为Claude的1/9
2026/06/01

Step 3.7 Flash实测:400TPS极速推理,Agent任务成本仅为Claude的1/9

阶跃星辰发布Step 3.7 Flash,400 tokens/秒推理速度,11B激活参数实现Claude Opus 4.6的97%性能,开源可本地部署

Step 3.7 Flash 是什么五个实测场景场景一:批量处理发票报销场景二:看懂专业软件界面场景三:飞机驾驶舱操作指引场景四:高速 Deep Research场景五:GUI 理解与 Computer Use一个有趣的涌现行为性能数据海外开发者反馈如何使用适合谁用常见问题
AI产品

阶跃星辰(Step)发布了 Step 3.7 Flash,一个面向生产级 Agent 的新一代 Flash 模型。它的核心卖点很直接:400 TPS 的推理速度,单任务成本仅为 Claude Opus 4.6 的 1/9,同时实现 97% 的性能。

这不是又一个小模型刷榜的故事。Step 3.7 Flash 是一个 11B 激活参数的 MoE 模型,已开源,支持 mlx-vlm 在 Apple Silicon 上本地运行。

Step 3.7 Flash 定位

Step 3.7 Flash 定位为新一代 Agentic 基座模型

Step 3.7 Flash 是什么

Step 3.7 Flash 是阶跃星辰继 Step 3.5 Flash(曾登顶 OpenRouter Trending,OpenClaw 调用量全球第一)之后的最新一代 Flash 模型。

核心规格:

  • 架构:MoE,11B 激活参数
  • 视觉理解:196B + 1.8B ViT
  • 推理速度:400 TPS
  • 已开源:支持 mlx-vlm,在 128GB Apple Silicon 设备上可跑 32K 上下文

它的设计哲学很有意思:对一个 11B 激活的 Flash 模型来说,把海量视觉知识硬塞进权重是不划算的。阶跃只在权重里保留最核心的推理引擎,把感知边界和世界知识外推到推理阶段,靠极快的速度"多看几眼、多查几遍"来弥补参数量的不足。

五个实测场景

场景一:批量处理发票报销

把 12 张随手拍的发票(角度歪的、拍糊的,餐饮、电子、差旅全混在一起)丢给 Step 3.7 Flash。它不光认出每张票上的金额、税额、商户名,还能判断哪些字段是报销真正要填的,自动整理成统一表格,一键导出 Excel。

跑通的是"识别 -> 理解 -> 整理 -> 导出"的完整链条。

发票批量处理

自动识别发票信息并整理成表格

场景二:看懂专业软件界面

对着一张 Blender 界面截图问"怎么删除这个方块",模型自动框选界面,读懂大纲列表、工具栏和当前编辑模式,给出具体到每一步的操作路径。能在 Blender 这种信息密度爆炸的 3D 软件里给出可执行的操作建议,意味着它已具备进驻专业工具的能力。

场景三:飞机驾驶舱操作指引

给模型一张密密麻麻的飞机驾驶舱截图,只输入"如何起飞"。它会自动框选驾驶舱区域,识别每个关键仪表的含义,理清操作顺序,一步步演示什么时候推油门、什么时候收起落架。

驾驶舱操作指引

从"看懂界面"到"教你怎么操作",难度跨越了一个量级

场景四:高速 Deep Research

给它一句话:"围绕 2026 人形机器人量产,给我一页能拍板的决策摘要。"它交回来的不是一堆链接,而是一份开头就下判断、中间用表格对比六家公司(特斯拉、Figure、宇树、智元、1X、Agility)的量产进度和风险、结尾给出三条带时间节点的可执行关注点的完整报告。每个数字后面都缀着来源。

场景五:GUI 理解与 Computer Use

给它一张剪映截图,一句"把这段导出成 1080P、30 帧"。它不仅定位了导出按钮的位置,还主动发现当前色彩格式是 1080i(隔行扫描)而非 1080P,提醒你手动修改。甚至注意到时间线上不止一段素材,专门指出"导出的是整个项目,不是单独这一个片段"。

不仅能看懂界面,还能发现用户容易忽略的细节

一个有趣的涌现行为

写完一段前端代码后,Step 3.7 Flash 会自己切到 GUI 里去测试刚生成的页面,看渲染效果、点交互按钮,再根据看到的结果回头改代码。

写代码 -> 看界面 -> 改代码,这套"组合拳"没人教过它,是自己悟出来的。

性能数据

指标Step 3.7 Flash对比
推理速度400 TPS行业顶级
单任务成本Claude Opus 4.6 的 1/9降本 89%
性能对比Claude Opus 4.6 的 97%差距仅 3%
Visual Benchmark (V)95.3对标 Kimi K2.6 (96.9)
激活参数11BMoE 架构

海外开发者反馈

  • 有开发者从 Gemini 3.5 Flash 切回 Step 3.7 Flash 后,它一口气找出 7 个以上的 bug
  • 有人表示速度"快得离谱"
  • 支持了 mlx-vlm,在 Apple Silicon 上 4-bit 量化可跑 32K 上下文
  • 有开发者表示第一次认真考虑把它作为其他模型的替代方案

如何使用

API 调用:通过 OpenRouter 或阶跃星辰官方 API 接入。

本地部署:已开源,支持 mlx-vlm 框架。在 128GB 内存的 Apple Silicon 设备上,4-bit 量化版本可运行 32K 上下文。

适合谁用

  • Agent 开发者:需要低成本、高吞吐的基座模型支撑生产级 Agent 工作流
  • 企业用户:需要批量处理发票、文档、截图等视觉密集型任务
  • 个人开发者:需要本地部署、保护隐私的 AI 模型
  • Deep Research 场景:需要快速生成决策摘要和信息整合
  • GUI 自动化:需要让 Agent 理解和操作桌面应用界面

常见问题

Q:Step 3.7 Flash 和旗舰模型差距大吗? A:在 Agent 任务上达到 Claude Opus 4.6 的 97% 性能,但成本只有 1/9。对于绝大多数生产场景,这个差距可以接受。

Q:能本地跑吗? A:可以。已开源,支持 mlx-vlm。128GB Apple Silicon 设备上 4-bit 量化可跑 32K 上下文。

Q:和 Step 3.5 Flash 比,提升了什么? A:主要在视觉理解、GUI 操作、Deep Research 和代码生成方面有显著提升,同时保持了 Flash 系列的速度和成本优势。

Q:商业使用有限制吗? A:已开源,具体 License 条款请查看官方 GitHub 仓库。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
Step 3.7 Flash 是什么五个实测场景场景一:批量处理发票报销场景二:看懂专业软件界面场景三:飞机驾驶舱操作指引场景四:高速 Deep Research场景五:GUI 理解与 Computer Use一个有趣的涌现行为性能数据海外开发者反馈如何使用适合谁用常见问题

相关文章

ClawGym:Agent训练评测一体化开源框架
AI产品

ClawGym:Agent训练评测一体化开源框架

人大开源Claw Agent数据+训练+评测全链条框架,13.5K可执行任务,支持沙盒并行强化学习

avatar for toolin小编
toolin小编
2天前
Step 3.7 Flash接入Claude Code实测指南
AI教程

Step 3.7 Flash接入Claude Code实测指南

阶跃开源Flash模型实测接入Claude Code,用复杂Agent工作流验证国产模型能否顶上闭源基座

avatar for toolin小编
toolin小编
2天前
Syll:清华开源多模态全交互智能体框架
AI产品

Syll:清华开源多模态全交互智能体框架

支持GUI、CLI、MCP三种操作方式,通过示教自动生成可复用技能,本地部署保护数据隐私

avatar for toolin小编
toolin小编
2天前