Step 3.7 Flash接入Claude Code实测指南

阶跃星辰开源了 Step 3.7 Flash，Apache 2.0 协议，主打"agent 效率"——在真实工作流里又快又稳地把整条链路跑完。官方文档明确列出它能直接接入 Claude Code、Cline、Roo Code 等主流 agent 工具。这篇文章记录了一次完整的实测：把 Step 3.7 Flash 作为底模驱动 Claude Code，跑两个高复杂度的 agent 工作流，看它到底行不行。

Step 3.7 Flash 是什么

Step 3.7 Flash 是阶跃星辰 2025 年 5 月底发布并开源的 Flash 模型：

架构：稀疏 MoE（Mixture of Experts），体量不小但每次只激活最相关的一小队"专家"
速度：最高生成速度每秒 400 token，上下文 256K
协议：Apache 2.0，GitHub、HuggingFace、ModelScope 均可下载
定位：不是"最聪明"，而是"在 agent 任务里又快又稳"

Step 3.7 Flash benchmark对比

在 SWE-Bench、ClawEval 等 agent 类基准上，它拿到的是同体量里相当能打的成绩。真正的卖点不是分数最高，是用更小的激活参数、更快的速度，把这个水平稳定交付出来。

接入 Claude Code 的方法

阶跃官方文档列出了它支持的工具列表：

阶跃官方文档列出的工具列表

配置步骤

注册阶跃控制台，获取 API Key
配置 Claude Code 路由：通过 CCR（模型路由）将 step-3.7-flash 接入 Claude Code
配置启动命令：设置一个 stepfun 命令，启动 Step 3.7 Flash 驱动的 Claude Code
处理联网搜索：换底模后 Claude Code 原生搜索不可用，需要改接 Tavily 的 MCP 工具

# 参考配置示意（具体参数以阶跃官方文档为准）
# 在 Claude Code 的模型配置中添加 step-3.7-flash 路由
# 具体接入方式参考阶跃官网的 harness 文档

终端中 Claude Code 跑着 step-3.7-flash

提示：阶跃官网把每个工具（Claude Code、Cline 等）的接入方式都写了详细说明。如果不想自己配，可以试着把接入文档丢给任何一个国产电脑端 agent，让它帮你配。

实测结果

测试一：女娲（深度调研 + 人物 Skill 生成）

任务目标：蒸馏一个 AI 领域的投资视角 Skill。

执行过程：

确认人选后，一口气开了 6 个子 agent 并行调研（著作、访谈、风格、批评、决策记录、最新动态）
6 个 agent 中最慢的跑了 22 分钟，Step 3.7 Flash 全程管住并行状态，没有混淆结果
所有 agent 回来后，主动停下来展示调研质量摘要，等待确认才继续
提炼出 6 个核心思维模型、8 条决策启发式，一次性生成可运行的 Skill
自己启动独立评审 agent 挑毛病，按评审意见补了触发词、事实核查等细节

女娲执行过程

测试二：达尔文 2.0（多评委 Skill 优化）

任务目标：用达尔文 2.0 优化一个脱口秀 Skill。

执行过程：

建 git 分支，设计测试用例，跑一轮基线评分
定位最弱维度后开始迭代：每轮都重新启动两个独立的全新评委 agent 盲评
改完就 commit，涨分不够就回滚
涨幅收窄后早停机制自动触发

达尔文2.0执行过程

成本参考

按阶跃控制台定价：

输入：每百万 token 1.35 元
输出：每百万 token 8.1 元

属于 Flash 级别的定价，适合高频调用的 agent 工作流。

结论

实测中 Step 3.7 Flash 展现出两个关键特质：

该走的全程一步没省：不会因为任务复杂就跳过步骤，6 个并行 agent + 多轮评审都完整执行
该停下来问的地方老老实实停住：该确认的不擅自做主，该汇报的主动汇报

它不是完美无瑕的——中间有少量编辑操作报错（更多是本地工具环境的问题），模型退回去换个方式重试就过了。但作为一个开源 Flash 模型，在复杂 agent 工作流中表现出和订阅版 Claude Code 类似的执行效果，已经超出了预期。

获取方式

阶跃官网：https://platform.stepfun.com/
GitHub：搜索 Step-3.7-Flash
HuggingFace：搜索 step-3.7-flash

如果你在用 Claude Code、Codex 这类工具，但对成本有顾虑，一个能接进现有工作流、开源、又能把整条链路稳稳跑完的模型，确实值得一试。

Step 3.7 Flash 是什么

Step 3.7 Flash 是阶跃星辰 2025 年 5 月底发布并开源的 Flash 模型：

架构：稀疏 MoE（Mixture of Experts），体量不小但每次只激活最相关的一小队"专家"
速度：最高生成速度每秒 400 token，上下文 256K
协议：Apache 2.0，GitHub、HuggingFace、ModelScope 均可下载
定位：不是"最聪明"，而是"在 agent 任务里又快又稳"

Step 3.7 Flash benchmark对比

接入 Claude Code 的方法

阶跃官方文档列出了它支持的工具列表：

阶跃官方文档列出的工具列表

配置步骤

注册阶跃控制台，获取 API Key
配置 Claude Code 路由：通过 CCR（模型路由）将 step-3.7-flash 接入 Claude Code
配置启动命令：设置一个 stepfun 命令，启动 Step 3.7 Flash 驱动的 Claude Code
处理联网搜索：换底模后 Claude Code 原生搜索不可用，需要改接 Tavily 的 MCP 工具

# 参考配置示意（具体参数以阶跃官方文档为准）
# 在 Claude Code 的模型配置中添加 step-3.7-flash 路由
# 具体接入方式参考阶跃官网的 harness 文档

终端中 Claude Code 跑着 step-3.7-flash

提示：阶跃官网把每个工具（Claude Code、Cline 等）的接入方式都写了详细说明。如果不想自己配，可以试着把接入文档丢给任何一个国产电脑端 agent，让它帮你配。

实测结果

测试一：女娲（深度调研 + 人物 Skill 生成）

任务目标：蒸馏一个 AI 领域的投资视角 Skill。

执行过程：

确认人选后，一口气开了 6 个子 agent 并行调研（著作、访谈、风格、批评、决策记录、最新动态）
6 个 agent 中最慢的跑了 22 分钟，Step 3.7 Flash 全程管住并行状态，没有混淆结果
所有 agent 回来后，主动停下来展示调研质量摘要，等待确认才继续
提炼出 6 个核心思维模型、8 条决策启发式，一次性生成可运行的 Skill
自己启动独立评审 agent 挑毛病，按评审意见补了触发词、事实核查等细节

女娲执行过程

测试二：达尔文 2.0（多评委 Skill 优化）

任务目标：用达尔文 2.0 优化一个脱口秀 Skill。

执行过程：

建 git 分支，设计测试用例，跑一轮基线评分
定位最弱维度后开始迭代：每轮都重新启动两个独立的全新评委 agent 盲评
改完就 commit，涨分不够就回滚
涨幅收窄后早停机制自动触发

达尔文2.0执行过程

成本参考

按阶跃控制台定价：

输入：每百万 token 1.35 元
输出：每百万 token 8.1 元

属于 Flash 级别的定价，适合高频调用的 agent 工作流。

结论

实测中 Step 3.7 Flash 展现出两个关键特质：

该走的全程一步没省：不会因为任务复杂就跳过步骤，6 个并行 agent + 多轮评审都完整执行
该停下来问的地方老老实实停住：该确认的不擅自做主，该汇报的主动汇报

获取方式

阶跃官网：https://platform.stepfun.com/
GitHub：搜索 Step-3.7-Flash
HuggingFace：搜索 step-3.7-flash

如果你在用 Claude Code、Codex 这类工具，但对成本有顾虑，一个能接进现有工作流、开源、又能把整条链路稳稳跑完的模型，确实值得一试。

全部

AI教程

AI产品

AI资源

Step 3.7 Flash接入Claude Code实测指南

Step 3.7 Flash接入Claude Code实测指南

Step 3.7 Flash 是什么

接入 Claude Code 的方法

配置步骤

实测结果

测试一：女娲（深度调研 + 人物 Skill 生成）

测试二：达尔文 2.0（多评委 Skill 优化）

成本参考

结论

获取方式

作者

分类

相关文章

Google Workspace CLI：让 AI Agent 一条命令接管邮箱、云盘和日历

影眸 Hyper3D Rodin Gen-2.5：3D 生成进入「思考时代」

小米 MiMo-V2.5-Pro-UltraSpeed：1T 模型跑出 1000 tokens/s

Step 3.7 Flash接入Claude Code实测指南

Step 3.7 Flash接入Claude Code实测指南

Step 3.7 Flash 是什么

接入 Claude Code 的方法

配置步骤

实测结果

测试一：女娲（深度调研 + 人物 Skill 生成）

测试二：达尔文 2.0（多评委 Skill 优化）

成本参考

结论

获取方式

作者

分类

相关文章

Google Workspace CLI：让 AI Agent 一条命令接管邮箱、云盘和日历

影眸 Hyper3D Rodin Gen-2.5：3D 生成进入「思考时代」

小米 MiMo-V2.5-Pro-UltraSpeed：1T 模型跑出 1000 tokens/s