toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,299个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Sakana Fugu:不自己答题,只指挥别的模型干活的编排器

2026/06/22
·toolin小编

Sakana AI 发布 Fugu 系列编排器模型,靠智能调度 GPT、Claude、Gemini 完成任务,性能逼近 Fable 5 与 Mythos Preview。

Sakana Fugu:不自己答题,只指挥别的模型干活的编排器
Sakana Fugu:不自己答题,只指挥别的模型干活的编排器
2026/06/22

Sakana Fugu:不自己答题,只指挥别的模型干活的编排器

Sakana AI 发布 Fugu 系列编排器模型,靠智能调度 GPT、Claude、Gemini 完成任务,性能逼近 Fable 5 与 Mythos Preview。

Sakana Fugu 是什么核心机制:四大指挥动作两个版本:日常 vs 高难度跑分:三项基准超越 Fable 5 与 Mythos Preview几个有意思的实验资源与体验地址应用场景与注意事项
AI产品

过去我们习惯问"哪个模型最强"。Sakana AI 提出的新问题是:如何让多个尖端模型协同起来更强。6 月 22 日,这家由 Transformer 论文第五作者 Llion Jones 联合创办的日本 AI 独角兽发布了 Sakana Fugu 系列编排器模型——它不自己回答问题,而是判断该把任务派给哪个模型,再综合出答案。

它适合需要"按任务选最优模型"的开发者、想避免绑定单一供应商的企业,以及对多智能体编排感兴趣的研究者。

Sakana Fugu 系列:用多个"小鱼"汇聚成一条"大河豚"

Sakana Fugu 是什么

Fugu(河豚)在官方动画里的隐喻很直接:用多个"小鱼"汇聚成一条"大河豚"这种美味食材。对应到模型层面就是——

  • 不训练更强的基座去解题,而是训练一个"总指挥",让它学会何时该用哪个模型
  • Fugu 本身是一个专门用于理解"何时委派任务、Agent 之间如何通信、如何把工作整合为可靠答案"的语言模型
  • 这条路线建立在此前团队关于学习模型编排的研究上,包括 ICLR 2026 论文 Trinity 和 Conductor

Sakana AI 在博客中提出,编排模型将会超越传统大模型成为新的前沿方向。理由是:复杂任务需要的专业知识远超单一模型的能力边界,发挥模型最佳性能需要集体智慧。

核心机制:四大指挥动作

技术报告把 Fugu 的工作机制拆成四步:

1. 识别问题类型 判断用户问题是代码、数学、推理、信息检索、科学分析还是多模态任务。这一步决定了后续整个派活逻辑的起点。

2. 选择合适的 worker 模型 不同模型在不同任务上表现差异很大。Fugu 的训练目标之一就是学会"什么问题上该调用什么模型"。报告特别提到:即使在同一类任务内部(比如竞赛性质的编程),不同模型也可能分别擅长直接实现、制定解题计划或组合多种算法思路——Fugu 需要把这些细微差异也纳入决策。

3. 设计 Agent 工作流 对复杂问题,Fugu Ultra 会生成完整的 agentic workflow,包括任务拆分、子任务分配、上下文共享策略以及最终答案合成,全部可以在模型内部以自然语言完成。

4. 根据反馈优化 Fugu 的训练不止监督微调,还包括进化算法和强化学习,用真实任务结果反向优化编排策略。

两个版本:日常 vs 高难度

版本定位编排方式适合场景
Fugu日常使用,性能与延迟平衡轻量选择机制,快速判断 worker高频、对响应速度敏感
Fugu-Ultra质量优先复杂编排,多 Agent 协作 + 综合复杂代码、数学推理、科学问题、多步规划

两者的共同点是与模型无关的完全模块化:Fugu 不需要访问 worker 模型的权重,甚至不需要它们开源。新模型发布后可以直接加入 worker 模型池,用户可以根据成本、隐私、合规等需求定制可用模型列表。

跑分:三项基准超越 Fable 5 与 Mythos Preview

技术报告列出了 Fugu 系列在覆盖编程、推理、科学、Agent 能力四个维度的八个基准测试上的表现。

Fugu 在三项基准测试中超越 Mythos Preview 和 Fable 5

报告显示,Fugu 模型仅通过智能调度,就在三项基准测试中超越了 Mythos Preview 和 Fable 5。

跨领域的适应性也很直观:

  • Terminal Bench(终端工程任务)测试中,Fugu 和 Fugu Ultra 调用模型的峰值都集中于该测试中表现顶尖的 GPT-5.5
  • GPQA Diamond(研究生级科学推理)测试中,Gemini-3.1-Pro 是领先模型,两款 Fugu 模型都把调度核心围绕 Gemini 展开

换句话说,Fugu 不是去替代 GPT、Claude、Gemini,而是把它们的能力组合起来。

几个有意思的实验

技术报告附录里有三个能直观展示编排能力的实验:

一次性魔方求解器:要求模型一次性写出 Python 标准库实现的魔方求解程序,并在 300 个乱序魔方上测试。Fugu 和 Fugu-Ultra 都成功解出全部魔方——Fugu-Ultra 平均步数更短,Fugu 运行速度更快。

盲棋测试:模型在看不到棋盘、没有合法走法列表、没有 FEN 的情况下,只根据历史走法继续下棋,主要测试是否能长期维护内部状态。在代表性对局中,Fugu 战胜了多个基线模型和限制强度的 Stockfish。

在线股票交易:模型只能看到过去和当前的匿名市场数据,不能偷看未来价格,需要逐周做买入、持有或卖出决策。Fugu-Ultra 在五次运行中取得更高平均收益。

还有网友用 Fugu-Ultra 测试了一些让很多模型崩溃的经典坑——"strawberry 里有几个 r"、"5.11 比 5.1 大吗"、经典洗车问题——三个都答对了。

资源与体验地址

  • 技术报告:https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf
  • 体验地址:https://sakana.ai/fugu

应用场景与注意事项

适合谁用:

  • 想按任务类型自动选最优模型、降低单家依赖的开发者
  • 关注"AI 主权"、担心出口管制断供的企业
  • 研究多智能体协作、模型编排方向的研究者

需要注意的坑:

  • 成本和延迟更高:多模型编排天然比单模型贵、慢,Fugu-Ultra 的深度协作模式尤其明显
  • 错误归因复杂:最终答案出错时,很难分清是路由、worker 模型还是综合过程的问题
  • 编排器本身有偏差风险:如果它错误判断任务类型,或过度依赖某个模型,会削弱整体表现

💡 提示:Fugu 提出的方向是把"AI 竞争"从"单一模型能力"扩展到"系统组织能力"——谁更会调度模型、使用工具、设计工作流、整合反馈,谁就拥有更强大的能力。这条路线很有潜力,但真正落地仍需要大量工程验证。技术报告中的测试结果来自厂商,实际能力还要看真实开发者的使用体验。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
Sakana Fugu 是什么核心机制:四大指挥动作两个版本:日常 vs 高难度跑分:三项基准超越 Fable 5 与 Mythos Preview几个有意思的实验资源与体验地址应用场景与注意事项

相关文章

OpenAI Codex 开源模式:一行配置接入本地模型
AI产品

OpenAI Codex 开源模式:一行配置接入本地模型

Codex 新增 OSS 模式,支持 Ollama、LM Studio 等本地模型服务,实现离线运行与成本控制

avatar for toolin小编
toolin小编
2天前
教育部「阳光志愿」AI 助手:免费生成志愿填报方案
AI产品

教育部「阳光志愿」AI 助手:免费生成志愿填报方案

教育部官方升级「阳光志愿」系统,AI 助手「智慧小招」24 小时在线,基于官方数据免费提供冲稳保志愿方案

avatar for toolin小编
toolin小编
2天前
阿里 HappyHorse 1.1 实测:油腻感退了,1080P 还降价 25%
AI产品

阿里 HappyHorse 1.1 实测:油腻感退了,1080P 还降价 25%

阿里发布视频生成模型 HappyHorse 1.1,五大维度升级,1080P 每秒 1.2 元降为 0.9 元,附实测对比与体验地址。

avatar for toolin小编
toolin小编
1天前