toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,209个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Step 3.7 Flash:409 tok/s的Agent效率模型

2026/06/05
·toolin小编

阶跃星辰新模型输出速度达409 tokens/s,单任务成本为Claude Opus 4.6的1/9,编程能力达其97%,专为Agent高频调用场景设计。

Step 3.7 Flash:409 tok/s的Agent效率模型
Step 3.7 Flash:409 tok/s的Agent效率模型
2026/06/05

Step 3.7 Flash:409 tok/s的Agent效率模型

阶跃星辰新模型输出速度达409 tokens/s,单任务成本为Claude Opus 4.6的1/9,编程能力达其97%,专为Agent高频调用场景设计。

Step 3.7 Flash 是什么速度和成本意味着什么实测场景多模态理解工具编排:报销单整理多 Agent 集群:40 人产品评测团缓存命中率:工程实力的体现如何使用适合谁用
AI产品

当 Agent 成为主流落地形态,模型竞争的关键不再是"谁更聪明",而是"谁能在单位成本下把更多任务又快又稳地跑完"。阶跃星辰的 Step 3.7 Flash 就是为这个赛点而生的。

Step 3.7 Flash 是什么

Step 3.7 Flash 是阶跃星辰最新发布的 Agent 效率模型,在 Artificial Analysis(AA 榜)上拿下了多个第一:

  • 输出速度:409 tokens/s,主流模型第一(作为对比,GPT-5.3 约 70 tok/s)
  • 端到端响应:7.1 秒完成规定测评任务
  • 智能效率:在保持极高输出效率的同时,提供具备实际价值的任务能力
  • 速度价格比:进入 AA 榜最具吸引力的象限

速度和成本意味着什么

在 Agent 场景里,一个任务需要调用几十次模型。每次慢两秒、贵一点,几十次累积下来,延迟和成本都会让你头疼。

Step 3.7 Flash 的定价:每百万输入 token 0.2 美元、输出 token 1.15 美元。单任务成本约为 Claude Opus 4.6 的 1/9,但编程能力做到了它的 97%。

有开发者把 Step 3.7 Flash 和几个主流模型放在一起测,结果 3.7 Flash 跑出了 2123 tok/s,一骑绝尘。在 NVFP4 设置下,极限吞吐甚至顶到了 6000 tok/s。

多模型速度对比

实测场景

多模态理解

上传一张灵巧手图片,Step 3.7 Flash 能结合外观细节快速确认产品型号,并自动联网搜索全维度参数,整理成结构化表格。

工具编排:报销单整理

把一文件夹的发票丢给 Step 3.7 Flash(通过 OpenClaw),不到 60 秒就生成了一份报销 Excel 和给财务的说明文档,逐一核对内容无误。

多 Agent 集群:40 人产品评测团

让 Step 3.7 Flash 生成 40 个差异化虚拟用户,对外卖 App 的 5 个新功能做投票排序。40 个 Agent 全部有效返回,没有角色混淆或格式跑偏。最终投票结果清晰,人群分层也合理。

多Agent集群

缓存命中率:工程实力的体现

有开发者统计了 OpenRouter 上 60 多个服务商的 398 个核心数据,整理出"缓存命中率排行榜"。阶跃以 86.1% 排进 S 档、位列全球第二,仅次于 DeepSeek。

缓存命中率高意味着推理系统工程做得好。在 Agent、RAG 等长任务场景里,重复的上下文前缀能被高效复用,直接换来更低成本、更高吞吐。

如何使用

  • 在线体验:https://chat.stepfun.com/chats/new
  • API 调用:通过 OpenRouter 接入
  • 本地部署:已在 HuggingFace 上开源

适合谁用

  • Agent 开发者:高频调用场景下的性价比首选
  • 企业用户:长任务、多轮交互场景中的成本控制
  • 工具编排应用:需要模型同时具备速度和准确性的场景

Step 3.7 Flash 的核心价值不在单轮问答的"聪明程度",而在于 Agent 工作流中的"完成效率"。如果你的项目需要模型被反复调用、长时间运行,这个模型值得认真评估。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
Step 3.7 Flash 是什么速度和成本意味着什么实测场景多模态理解工具编排:报销单整理多 Agent 集群:40 人产品评测团缓存命中率:工程实力的体现如何使用适合谁用

相关文章

Hermes Desktop:开源智能体走上电脑桌面
AI产品

Hermes Desktop:开源智能体走上电脑桌面

Nous Research推出桌面端开源智能体Hermes Desktop,覆盖macOS/Windows/Linux,复用CLI智能体的全部技能和记忆,点鼠标就能用。

avatar for toolin小编
toolin小编
15小时前
Codex 从安装到实战:给非程序员的完整上手指南
AI教程

Codex 从安装到实战:给非程序员的完整上手指南

从零开始掌握 OpenAI Codex 桌面版,涵盖安装配置、界面解读、项目创建、技能与插件使用,以及手机远程控制的保姆级教程

avatar for toolin小编
toolin小编
1天前
Gemma 4 12B:16G笔记本跑多模态AI模型
AI产品

Gemma 4 12B:16G笔记本跑多模态AI模型

谷歌发布120亿参数开源多模态模型,支持文本、图像、音频输入,仅需9GB显存即可在笔记本本地运行,Apache 2.0协议。

avatar for toolin小编
toolin小编
15小时前