Sakana Fugu：不自己答题，只指挥别的模型干活的编排器

过去我们习惯问"哪个模型最强"。Sakana AI 提出的新问题是：如何让多个尖端模型协同起来更强。6 月 22 日，这家由 Transformer 论文第五作者 Llion Jones 联合创办的日本 AI 独角兽发布了 Sakana Fugu 系列编排器模型——它不自己回答问题，而是判断该把任务派给哪个模型，再综合出答案。

它适合需要"按任务选最优模型"的开发者、想避免绑定单一供应商的企业，以及对多智能体编排感兴趣的研究者。

Sakana Fugu 系列：用多个"小鱼"汇聚成一条"大河豚"

Sakana Fugu 是什么

Fugu（河豚）在官方动画里的隐喻很直接：用多个"小鱼"汇聚成一条"大河豚"这种美味食材。对应到模型层面就是——

不训练更强的基座去解题，而是训练一个"总指挥"，让它学会何时该用哪个模型
Fugu 本身是一个专门用于理解"何时委派任务、Agent 之间如何通信、如何把工作整合为可靠答案"的语言模型
这条路线建立在此前团队关于学习模型编排的研究上，包括 ICLR 2026 论文 Trinity 和 Conductor

Sakana AI 在博客中提出，编排模型将会超越传统大模型成为新的前沿方向。理由是：复杂任务需要的专业知识远超单一模型的能力边界，发挥模型最佳性能需要集体智慧。

核心机制：四大指挥动作

技术报告把 Fugu 的工作机制拆成四步：

1. 识别问题类型 判断用户问题是代码、数学、推理、信息检索、科学分析还是多模态任务。这一步决定了后续整个派活逻辑的起点。

2. 选择合适的 worker 模型 不同模型在不同任务上表现差异很大。Fugu 的训练目标之一就是学会"什么问题上该调用什么模型"。报告特别提到：即使在同一类任务内部（比如竞赛性质的编程），不同模型也可能分别擅长直接实现、制定解题计划或组合多种算法思路——Fugu 需要把这些细微差异也纳入决策。

3. 设计 Agent 工作流 对复杂问题，Fugu Ultra 会生成完整的 agentic workflow，包括任务拆分、子任务分配、上下文共享策略以及最终答案合成，全部可以在模型内部以自然语言完成。

4. 根据反馈优化 Fugu 的训练不止监督微调，还包括进化算法和强化学习，用真实任务结果反向优化编排策略。

两个版本：日常 vs 高难度

版本	定位	编排方式	适合场景
Fugu	日常使用，性能与延迟平衡	轻量选择机制，快速判断 worker	高频、对响应速度敏感
Fugu-Ultra	质量优先	复杂编排，多 Agent 协作 + 综合	复杂代码、数学推理、科学问题、多步规划

两者的共同点是与模型无关的完全模块化：Fugu 不需要访问 worker 模型的权重，甚至不需要它们开源。新模型发布后可以直接加入 worker 模型池，用户可以根据成本、隐私、合规等需求定制可用模型列表。

跑分：三项基准超越 Fable 5 与 Mythos Preview

技术报告列出了 Fugu 系列在覆盖编程、推理、科学、Agent 能力四个维度的八个基准测试上的表现。

Fugu 在三项基准测试中超越 Mythos Preview 和 Fable 5

报告显示，Fugu 模型仅通过智能调度，就在三项基准测试中超越了 Mythos Preview 和 Fable 5。

跨领域的适应性也很直观：

Terminal Bench（终端工程任务）测试中，Fugu 和 Fugu Ultra 调用模型的峰值都集中于该测试中表现顶尖的 GPT-5.5
GPQA Diamond（研究生级科学推理）测试中，Gemini-3.1-Pro 是领先模型，两款 Fugu 模型都把调度核心围绕 Gemini 展开

换句话说，Fugu 不是去替代 GPT、Claude、Gemini，而是把它们的能力组合起来。

几个有意思的实验

技术报告附录里有三个能直观展示编排能力的实验：

一次性魔方求解器：要求模型一次性写出 Python 标准库实现的魔方求解程序，并在 300 个乱序魔方上测试。Fugu 和 Fugu-Ultra 都成功解出全部魔方——Fugu-Ultra 平均步数更短，Fugu 运行速度更快。

盲棋测试：模型在看不到棋盘、没有合法走法列表、没有 FEN 的情况下，只根据历史走法继续下棋，主要测试是否能长期维护内部状态。在代表性对局中，Fugu 战胜了多个基线模型和限制强度的 Stockfish。

在线股票交易：模型只能看到过去和当前的匿名市场数据，不能偷看未来价格，需要逐周做买入、持有或卖出决策。Fugu-Ultra 在五次运行中取得更高平均收益。

还有网友用 Fugu-Ultra 测试了一些让很多模型崩溃的经典坑——"strawberry 里有几个 r"、"5.11 比 5.1 大吗"、经典洗车问题——三个都答对了。

资源与体验地址

技术报告：https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf
体验地址：https://sakana.ai/fugu

应用场景与注意事项

适合谁用：

想按任务类型自动选最优模型、降低单家依赖的开发者
关注"AI 主权"、担心出口管制断供的企业
研究多智能体协作、模型编排方向的研究者

需要注意的坑：

成本和延迟更高：多模型编排天然比单模型贵、慢，Fugu-Ultra 的深度协作模式尤其明显
错误归因复杂：最终答案出错时，很难分清是路由、worker 模型还是综合过程的问题
编排器本身有偏差风险：如果它错误判断任务类型，或过度依赖某个模型，会削弱整体表现

💡 提示：Fugu 提出的方向是把"AI 竞争"从"单一模型能力"扩展到"系统组织能力"——谁更会调度模型、使用工具、设计工作流、整合反馈，谁就拥有更强大的能力。这条路线很有潜力，但真正落地仍需要大量工程验证。技术报告中的测试结果来自厂商，实际能力还要看真实开发者的使用体验。

它适合需要"按任务选最优模型"的开发者、想避免绑定单一供应商的企业，以及对多智能体编排感兴趣的研究者。

Sakana Fugu 系列：用多个"小鱼"汇聚成一条"大河豚"

Sakana Fugu 是什么

Fugu（河豚）在官方动画里的隐喻很直接：用多个"小鱼"汇聚成一条"大河豚"这种美味食材。对应到模型层面就是——

不训练更强的基座去解题，而是训练一个"总指挥"，让它学会何时该用哪个模型
Fugu 本身是一个专门用于理解"何时委派任务、Agent 之间如何通信、如何把工作整合为可靠答案"的语言模型
这条路线建立在此前团队关于学习模型编排的研究上，包括 ICLR 2026 论文 Trinity 和 Conductor

核心机制：四大指挥动作

技术报告把 Fugu 的工作机制拆成四步：

1. 识别问题类型 判断用户问题是代码、数学、推理、信息检索、科学分析还是多模态任务。这一步决定了后续整个派活逻辑的起点。

4. 根据反馈优化 Fugu 的训练不止监督微调，还包括进化算法和强化学习，用真实任务结果反向优化编排策略。

两个版本：日常 vs 高难度

版本	定位	编排方式	适合场景
Fugu	日常使用，性能与延迟平衡	轻量选择机制，快速判断 worker	高频、对响应速度敏感
Fugu-Ultra	质量优先	复杂编排，多 Agent 协作 + 综合	复杂代码、数学推理、科学问题、多步规划

跑分：三项基准超越 Fable 5 与 Mythos Preview

技术报告列出了 Fugu 系列在覆盖编程、推理、科学、Agent 能力四个维度的八个基准测试上的表现。

Fugu 在三项基准测试中超越 Mythos Preview 和 Fable 5

报告显示，Fugu 模型仅通过智能调度，就在三项基准测试中超越了 Mythos Preview 和 Fable 5。

跨领域的适应性也很直观：

Terminal Bench（终端工程任务）测试中，Fugu 和 Fugu Ultra 调用模型的峰值都集中于该测试中表现顶尖的 GPT-5.5
GPQA Diamond（研究生级科学推理）测试中，Gemini-3.1-Pro 是领先模型，两款 Fugu 模型都把调度核心围绕 Gemini 展开

换句话说，Fugu 不是去替代 GPT、Claude、Gemini，而是把它们的能力组合起来。

几个有意思的实验

技术报告附录里有三个能直观展示编排能力的实验：

还有网友用 Fugu-Ultra 测试了一些让很多模型崩溃的经典坑——"strawberry 里有几个 r"、"5.11 比 5.1 大吗"、经典洗车问题——三个都答对了。

资源与体验地址

技术报告：https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf
体验地址：https://sakana.ai/fugu

应用场景与注意事项

适合谁用：

想按任务类型自动选最优模型、降低单家依赖的开发者
关注"AI 主权"、担心出口管制断供的企业
研究多智能体协作、模型编排方向的研究者

需要注意的坑：

成本和延迟更高：多模型编排天然比单模型贵、慢，Fugu-Ultra 的深度协作模式尤其明显
错误归因复杂：最终答案出错时，很难分清是路由、worker 模型还是综合过程的问题
编排器本身有偏差风险：如果它错误判断任务类型，或过度依赖某个模型，会削弱整体表现

💡 提示：Fugu 提出的方向是把"AI 竞争"从"单一模型能力"扩展到"系统组织能力"——谁更会调度模型、使用工具、设计工作流、整合反馈，谁就拥有更强大的能力。这条路线很有潜力，但真正落地仍需要大量工程验证。技术报告中的测试结果来自厂商，实际能力还要看真实开发者的使用体验。

全部

AI教程

AI产品

AI资源

Sakana Fugu：不自己答题，只指挥别的模型干活的编排器

Sakana Fugu：不自己答题，只指挥别的模型干活的编排器

Sakana Fugu 是什么

核心机制：四大指挥动作

两个版本：日常 vs 高难度

跑分：三项基准超越 Fable 5 与 Mythos Preview

几个有意思的实验

资源与体验地址

应用场景与注意事项

作者

分类

相关文章

OpenAI Codex 开源模式：一行配置接入本地模型

教育部「阳光志愿」AI 助手：免费生成志愿填报方案

阿里 HappyHorse 1.1 实测：油腻感退了，1080P 还降价 25%

Sakana Fugu：不自己答题，只指挥别的模型干活的编排器

Sakana Fugu：不自己答题，只指挥别的模型干活的编排器

Sakana Fugu 是什么

核心机制：四大指挥动作

两个版本：日常 vs 高难度

跑分：三项基准超越 Fable 5 与 Mythos Preview

几个有意思的实验

资源与体验地址

应用场景与注意事项

作者

分类

相关文章

OpenAI Codex 开源模式：一行配置接入本地模型

教育部「阳光志愿」AI 助手：免费生成志愿填报方案

阿里 HappyHorse 1.1 实测：油腻感退了，1080P 还降价 25%