SkillOpt：像训练神经网络一样训练Agent技能文档

你有没有发现，写Agent技能文档（CLAUDE.md、Codex skill文件、system prompt）本质上就是一场手工试错？写一版，跑几个任务，效果不好再改，改完再跑。微软开源的 SkillOpt 把这个过程自动化了——它把技能文档当作「可训练参数」，用类似训练神经网络的循环来优化你的Agent技能文档。

在7个模型、6个基准测试、3种执行环境的全部52个评测组合中，SkillOpt训练出的技能文档全部达到最优或并列最优。GitHub上线一周收获3.3k star。

SkillOpt 是什么

SkillOpt 是微软开源的文本空间优化框架。核心思路：不训练模型权重，只训练那份指导Agent行为的自然语言技能文档。把技能文档当成Agent的「外部权重」，既然内部权重可以用梯度下降来优化，外部权重也应该有一套系统化的训练方法。

关键资源：

官网：https://microsoft.github.io/SkillOpt/
GitHub：https://github.com/microsoft/SkillOpt
论文：https://arxiv.org/abs/2605.23904

目标模型：GPT-5.5、GPT-5.4、GPT-5.4-mini、GPT-5.4-nano、GPT-5.2、Qwen3.5-4B、Qwen3.6-35B-A3B
基准测试：SearchQA（问答）、SpreadsheetBench（代码生成）、OfficeQA（工具增强问答）、DocVQA（文档视觉问答）、LiveMathematicianBench（数学推理）、ALFWorld（具身智能体）
执行环境：直接对话、OpenAI Codex、Anthropic Claude Code

几个亮点数据：

模型 + 环境	基准	提升幅度
GPT-5.5 直接对话	SpreadsheetBench	+38.9
GPT-5.5 直接对话	OfficeQA	+39.0
GPT-5.4-nano（最小模型）	DocVQA	+49.4
GPT-5.5 + Codex	SpreadsheetBench	+57.5
GPT-5.5 + Claude Code	SpreadsheetBench	+58.3

小模型的提升幅度反而更大——一份好的操作手册，对新手的帮助远大于对专家。

迁移能力：一次训练，多处部署

SkillOpt训练出的技能文档表现出很强的迁移能力：

跨模型迁移：在GPT-5.4上训练的LiveMath技能，直接迁移到GPT-5.4-nano上使用，提升15.2分
跨环境迁移：在Codex环境中训练的SpreadsheetBench技能，直接迁移到Claude Code环境中使用，提升31.8分
自优化：即使用GPT-5.4-nano同时作为目标模型和优化器（自己优化自己），SpreadsheetBench仍然提升了10.4分

部署极简：最终只需要一个 best_skill.md 文件，不需要优化器模型、不需要记忆模块、不需要任何额外的推理开销。

怎么用

SkillOpt 的使用流程可以概括为以下几步：

准备目标模型和任务集：选择你要优化的Agent模型（如GPT-5.4），准备一组带验证函数的任务
编写初始技能文档：可以是简单的手动草稿，甚至可以是空文档
配置优化器模型：选择一个模型作为优化器（通常选择比你目标模型更强的模型）
设置训练参数：包括文本学习率（默认lr=4）、epoch数量、每epoch的step数量
启动训练循环：运行 Rollout -> Reflect -> Edit -> Gate 循环
获取最终技能文档：训练完成后，输出 best_skill.md，直接部署到你的Agent中

详细使用方法请参考 GitHub 仓库中的文档和示例。

适合谁用

Agent开发者：正在维护CLAUDE.md、Codex skill文件等Agent配置文件的开发者
Prompt工程师：需要系统化优化长文档prompt的从业者
AI应用团队：希望在不更换底层模型的情况下提升Agent表现

SkillOpt 告诉我们一个关键洞察：Agent的一切都是可以自我学习的，包括指导它行为的技能文档本身。

在7个模型、6个基准测试、3种执行环境的全部52个评测组合中，SkillOpt训练出的技能文档全部达到最优或并列最优。GitHub上线一周收获3.3k star。

SkillOpt 是什么

关键资源：

官网：https://microsoft.github.io/SkillOpt/
GitHub：https://github.com/microsoft/SkillOpt
论文：https://arxiv.org/abs/2605.23904

目标模型：GPT-5.5、GPT-5.4、GPT-5.4-mini、GPT-5.4-nano、GPT-5.2、Qwen3.5-4B、Qwen3.6-35B-A3B
基准测试：SearchQA（问答）、SpreadsheetBench（代码生成）、OfficeQA（工具增强问答）、DocVQA（文档视觉问答）、LiveMathematicianBench（数学推理）、ALFWorld（具身智能体）
执行环境：直接对话、OpenAI Codex、Anthropic Claude Code

几个亮点数据：

模型 + 环境	基准	提升幅度
GPT-5.5 直接对话	SpreadsheetBench	+38.9
GPT-5.5 直接对话	OfficeQA	+39.0
GPT-5.4-nano（最小模型）	DocVQA	+49.4
GPT-5.5 + Codex	SpreadsheetBench	+57.5
GPT-5.5 + Claude Code	SpreadsheetBench	+58.3

小模型的提升幅度反而更大——一份好的操作手册，对新手的帮助远大于对专家。

迁移能力：一次训练，多处部署

SkillOpt训练出的技能文档表现出很强的迁移能力：

跨模型迁移：在GPT-5.4上训练的LiveMath技能，直接迁移到GPT-5.4-nano上使用，提升15.2分
跨环境迁移：在Codex环境中训练的SpreadsheetBench技能，直接迁移到Claude Code环境中使用，提升31.8分
自优化：即使用GPT-5.4-nano同时作为目标模型和优化器（自己优化自己），SpreadsheetBench仍然提升了10.4分

部署极简：最终只需要一个 best_skill.md 文件，不需要优化器模型、不需要记忆模块、不需要任何额外的推理开销。

怎么用

SkillOpt 的使用流程可以概括为以下几步：

准备目标模型和任务集：选择你要优化的Agent模型（如GPT-5.4），准备一组带验证函数的任务
编写初始技能文档：可以是简单的手动草稿，甚至可以是空文档
配置优化器模型：选择一个模型作为优化器（通常选择比你目标模型更强的模型）
设置训练参数：包括文本学习率（默认lr=4）、epoch数量、每epoch的step数量
启动训练循环：运行 Rollout -> Reflect -> Edit -> Gate 循环
获取最终技能文档：训练完成后，输出 best_skill.md，直接部署到你的Agent中

详细使用方法请参考 GitHub 仓库中的文档和示例。

适合谁用

Agent开发者：正在维护CLAUDE.md、Codex skill文件等Agent配置文件的开发者
Prompt工程师：需要系统化优化长文档prompt的从业者
AI应用团队：希望在不更换底层模型的情况下提升Agent表现

SkillOpt 告诉我们一个关键洞察：Agent的一切都是可以自我学习的，包括指导它行为的技能文档本身。

全部

AI教程

AI产品

AI资源

SkillOpt：像训练神经网络一样训练Agent技能文档

SkillOpt：像训练神经网络一样训练Agent技能文档

作者

分类

相关文章

全球首个应用开发 Skill：让 AI Agent 一句话生成可上线的商用应用

阿里「悟空」发布：全球首个企业级AI原生工作平台，钉钉8亿用户的AI迁徙

6个开源OpenClaw技能实战：GLM-5-Turbo龙虾模型深度测评

SkillOpt：像训练神经网络一样训练Agent技能文档

SkillOpt：像训练神经网络一样训练Agent技能文档

作者

分类

相关文章

全球首个应用开发 Skill：让 AI Agent 一句话生成可上线的商用应用

阿里「悟空」发布：全球首个企业级AI原生工作平台，钉钉8亿用户的AI迁徙

6个开源OpenClaw技能实战：GLM-5-Turbo龙虾模型深度测评