toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,185个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

SkillOpt:像训练神经网络一样训练Agent技能文档

2026/05/31
·toolin小编

微软开源的文本空间优化框架,让Agent的技能文档自动进化,52项评测全部达到最优。

SkillOpt:像训练神经网络一样训练Agent技能文档
SkillOpt:像训练神经网络一样训练Agent技能文档
2026/05/31

SkillOpt:像训练神经网络一样训练Agent技能文档

微软开源的文本空间优化框架,让Agent的技能文档自动进化,52项评测全部达到最优。

SkillOpt 是什么训练循环:四个核心步骤第一步:Rollout(前向传播)第二步:Reflect(反向传播)第三步:Edit(参数更新)第四步:Gate(验证门控)两个精巧的训练技巧文本学习率Rejected-Edit Buffer(负反馈记忆)评测结果:52项全面领先迁移能力:一次训练,多处部署怎么用适合谁用
AI产品

你有没有发现,写Agent技能文档(CLAUDE.md、Codex skill文件、system prompt)本质上就是一场手工试错?写一版,跑几个任务,效果不好再改,改完再跑。微软开源的 SkillOpt 把这个过程自动化了——它把技能文档当作「可训练参数」,用类似训练神经网络的循环来优化你的Agent技能文档。

在7个模型、6个基准测试、3种执行环境的全部52个评测组合中,SkillOpt训练出的技能文档全部达到最优或并列最优。GitHub上线一周收获3.3k star。

SkillOpt 是什么

SkillOpt 是微软开源的文本空间优化框架。核心思路:不训练模型权重,只训练那份指导Agent行为的自然语言技能文档。把技能文档当成Agent的「外部权重」,既然内部权重可以用梯度下降来优化,外部权重也应该有一套系统化的训练方法。

Image

关键资源:

  • 官网:https://microsoft.github.io/SkillOpt/
  • GitHub:https://github.com/microsoft/SkillOpt
  • 论文:https://arxiv.org/abs/2605.23904

训练循环:四个核心步骤

SkillOpt 的训练循环直接对标深度学习的「前向传播-反向传播-参数更新」,但在文本空间中执行。

Image

第一步:Rollout(前向传播)

冻结的目标模型拿着当前版本的技能文档去执行一批任务,记录完整的执行轨迹——包括消息、工具调用、验证反馈和最终得分。这一步产出的是「证据」,相当于神经网络的前向传播结果。

第二步:Reflect(反向传播)

一个独立的优化器模型分析这批执行轨迹。关键设计:失败案例和成功案例被分开反思。失败的minibatch用来发现「哪些操作规则需要修正」,成功的minibatch用来确认「哪些现有规则在起作用,不能动」。这相当于计算「文本空间的梯度」。

第三步:Edit(参数更新)

优化器模型基于反思结果,提出对技能文档的结构化编辑操作:添加新规则(add)、删除失效规则(delete)、替换需要修正的规则(replace)。

第四步:Gate(验证门控)

候选的新技能文档必须在一个held-out验证集上跑一遍,只有性能严格提升时才被接受。这防止过拟合,确保每次更新都是真正的改进。

整个循环跑多个epoch,每个epoch内跑多个step,和训练神经网络的节奏完全一致。

两个精巧的训练技巧

文本学习率

训练神经网络时,学习率太大会导致灾难性遗忘。SkillOpt在文本空间遇到完全相同的问题——一次编辑改动太大,可能把之前学到的有效规则覆盖掉。

解决方案是「文本学习率」:每一步允许的编辑操作数量有上限,默认 lr=4,即每步最多4个add/delete/replace操作。消融实验验证了这个设计的必要性:去掉学习率约束后,SearchQA性能从87.1%降到84.6%,SpreadsheetBench从77.5%降到75.7%。

Rejected-Edit Buffer(负反馈记忆)

当一个编辑提案被验证门控拒绝时,它不会被简单丢弃,而是进入一个缓冲区。优化器在后续的反思阶段可以看到这些「失败的尝试」,避免重复提出类似的无效编辑。这相当于给优化器提供了负梯度信息。去掉这个缓冲区后,SpreadsheetBench从77.5%骤降到72.9%。

Image

评测结果:52项全面领先

SkillOpt的评测覆盖面相当全面:

  • 目标模型:GPT-5.5、GPT-5.4、GPT-5.4-mini、GPT-5.4-nano、GPT-5.2、Qwen3.5-4B、Qwen3.6-35B-A3B
  • 基准测试:SearchQA(问答)、SpreadsheetBench(代码生成)、OfficeQA(工具增强问答)、DocVQA(文档视觉问答)、LiveMathematicianBench(数学推理)、ALFWorld(具身智能体)
  • 执行环境:直接对话、OpenAI Codex、Anthropic Claude Code

Image

几个亮点数据:

模型 + 环境基准提升幅度
GPT-5.5 直接对话SpreadsheetBench+38.9
GPT-5.5 直接对话OfficeQA+39.0
GPT-5.4-nano(最小模型)DocVQA+49.4
GPT-5.5 + CodexSpreadsheetBench+57.5
GPT-5.5 + Claude CodeSpreadsheetBench+58.3

小模型的提升幅度反而更大——一份好的操作手册,对新手的帮助远大于对专家。

迁移能力:一次训练,多处部署

SkillOpt训练出的技能文档表现出很强的迁移能力:

  • 跨模型迁移:在GPT-5.4上训练的LiveMath技能,直接迁移到GPT-5.4-nano上使用,提升15.2分
  • 跨环境迁移:在Codex环境中训练的SpreadsheetBench技能,直接迁移到Claude Code环境中使用,提升31.8分
  • 自优化:即使用GPT-5.4-nano同时作为目标模型和优化器(自己优化自己),SpreadsheetBench仍然提升了10.4分

部署极简:最终只需要一个 best_skill.md 文件,不需要优化器模型、不需要记忆模块、不需要任何额外的推理开销。

怎么用

SkillOpt 的使用流程可以概括为以下几步:

  1. 准备目标模型和任务集:选择你要优化的Agent模型(如GPT-5.4),准备一组带验证函数的任务
  2. 编写初始技能文档:可以是简单的手动草稿,甚至可以是空文档
  3. 配置优化器模型:选择一个模型作为优化器(通常选择比你目标模型更强的模型)
  4. 设置训练参数:包括文本学习率(默认lr=4)、epoch数量、每epoch的step数量
  5. 启动训练循环:运行 Rollout -> Reflect -> Edit -> Gate 循环
  6. 获取最终技能文档:训练完成后,输出 best_skill.md,直接部署到你的Agent中

详细使用方法请参考 GitHub 仓库中的文档和示例。

适合谁用

  • Agent开发者:正在维护CLAUDE.md、Codex skill文件等Agent配置文件的开发者
  • Prompt工程师:需要系统化优化长文档prompt的从业者
  • AI应用团队:希望在不更换底层模型的情况下提升Agent表现

SkillOpt 告诉我们一个关键洞察:Agent的一切都是可以自我学习的,包括指导它行为的技能文档本身。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
SkillOpt 是什么训练循环:四个核心步骤第一步:Rollout(前向传播)第二步:Reflect(反向传播)第三步:Edit(参数更新)第四步:Gate(验证门控)两个精巧的训练技巧文本学习率Rejected-Edit Buffer(负反馈记忆)评测结果:52项全面领先迁移能力:一次训练,多处部署怎么用适合谁用

相关文章

Codex Computer Use登陆Windows实操指南
AI教程

Codex Computer Use登陆Windows实操指南

OpenAI Codex正式支持Windows电脑操作,附完整开启步骤、限制说明和手机远程控制方法

avatar for toolin小编
toolin小编
1天前
Step 3.7 Flash接入Claude Code实测指南
AI教程

Step 3.7 Flash接入Claude Code实测指南

阶跃开源Flash模型实测接入Claude Code,用复杂Agent工作流验证国产模型能否顶上闭源基座

avatar for toolin小编
toolin小编
1天前
Syll:清华开源多模态全交互智能体框架
AI产品

Syll:清华开源多模态全交互智能体框架

支持GUI、CLI、MCP三种操作方式,通过示教自动生成可复用技能,本地部署保护数据隐私

avatar for toolin小编
toolin小编
1天前