Sakana AI 发布 Fugu 系列编排器模型,靠智能调度 GPT、Claude、Gemini 完成任务,性能逼近 Fable 5 与 Mythos Preview。


Sakana AI 发布 Fugu 系列编排器模型,靠智能调度 GPT、Claude、Gemini 完成任务,性能逼近 Fable 5 与 Mythos Preview。
过去我们习惯问"哪个模型最强"。Sakana AI 提出的新问题是:如何让多个尖端模型协同起来更强。6 月 22 日,这家由 Transformer 论文第五作者 Llion Jones 联合创办的日本 AI 独角兽发布了 Sakana Fugu 系列编排器模型——它不自己回答问题,而是判断该把任务派给哪个模型,再综合出答案。
它适合需要"按任务选最优模型"的开发者、想避免绑定单一供应商的企业,以及对多智能体编排感兴趣的研究者。

Fugu(河豚)在官方动画里的隐喻很直接:用多个"小鱼"汇聚成一条"大河豚"这种美味食材。对应到模型层面就是——
Sakana AI 在博客中提出,编排模型将会超越传统大模型成为新的前沿方向。理由是:复杂任务需要的专业知识远超单一模型的能力边界,发挥模型最佳性能需要集体智慧。
技术报告把 Fugu 的工作机制拆成四步:
1. 识别问题类型 判断用户问题是代码、数学、推理、信息检索、科学分析还是多模态任务。这一步决定了后续整个派活逻辑的起点。
2. 选择合适的 worker 模型 不同模型在不同任务上表现差异很大。Fugu 的训练目标之一就是学会"什么问题上该调用什么模型"。报告特别提到:即使在同一类任务内部(比如竞赛性质的编程),不同模型也可能分别擅长直接实现、制定解题计划或组合多种算法思路——Fugu 需要把这些细微差异也纳入决策。
3. 设计 Agent 工作流 对复杂问题,Fugu Ultra 会生成完整的 agentic workflow,包括任务拆分、子任务分配、上下文共享策略以及最终答案合成,全部可以在模型内部以自然语言完成。
4. 根据反馈优化 Fugu 的训练不止监督微调,还包括进化算法和强化学习,用真实任务结果反向优化编排策略。
| 版本 | 定位 | 编排方式 | 适合场景 |
|---|---|---|---|
| Fugu | 日常使用,性能与延迟平衡 | 轻量选择机制,快速判断 worker | 高频、对响应速度敏感 |
| Fugu-Ultra | 质量优先 | 复杂编排,多 Agent 协作 + 综合 | 复杂代码、数学推理、科学问题、多步规划 |
两者的共同点是与模型无关的完全模块化:Fugu 不需要访问 worker 模型的权重,甚至不需要它们开源。新模型发布后可以直接加入 worker 模型池,用户可以根据成本、隐私、合规等需求定制可用模型列表。
技术报告列出了 Fugu 系列在覆盖编程、推理、科学、Agent 能力四个维度的八个基准测试上的表现。

报告显示,Fugu 模型仅通过智能调度,就在三项基准测试中超越了 Mythos Preview 和 Fable 5。
跨领域的适应性也很直观:
换句话说,Fugu 不是去替代 GPT、Claude、Gemini,而是把它们的能力组合起来。
技术报告附录里有三个能直观展示编排能力的实验:
一次性魔方求解器:要求模型一次性写出 Python 标准库实现的魔方求解程序,并在 300 个乱序魔方上测试。Fugu 和 Fugu-Ultra 都成功解出全部魔方——Fugu-Ultra 平均步数更短,Fugu 运行速度更快。
盲棋测试:模型在看不到棋盘、没有合法走法列表、没有 FEN 的情况下,只根据历史走法继续下棋,主要测试是否能长期维护内部状态。在代表性对局中,Fugu 战胜了多个基线模型和限制强度的 Stockfish。
在线股票交易:模型只能看到过去和当前的匿名市场数据,不能偷看未来价格,需要逐周做买入、持有或卖出决策。Fugu-Ultra 在五次运行中取得更高平均收益。
还有网友用 Fugu-Ultra 测试了一些让很多模型崩溃的经典坑——"strawberry 里有几个 r"、"5.11 比 5.1 大吗"、经典洗车问题——三个都答对了。
适合谁用:
需要注意的坑:
💡 提示:Fugu 提出的方向是把"AI 竞争"从"单一模型能力"扩展到"系统组织能力"——谁更会调度模型、使用工具、设计工作流、整合反馈,谁就拥有更强大的能力。这条路线很有潜力,但真正落地仍需要大量工程验证。技术报告中的测试结果来自厂商,实际能力还要看真实开发者的使用体验。

Codex 新增 OSS 模式,支持 Ollama、LM Studio 等本地模型服务,实现离线运行与成本控制

教育部官方升级「阳光志愿」系统,AI 助手「智慧小招」24 小时在线,基于官方数据免费提供冲稳保志愿方案

阿里发布视频生成模型 HappyHorse 1.1,五大维度升级,1080P 每秒 1.2 元降为 0.9 元,附实测对比与体验地址。