Darwin Skill 2.0：让你的 AI 技能自我进化

toolin.ai

提交AI工具提交

如果你维护过多个 AI Skill 或 Prompt，一定知道人工审稿有多痛苦：每个 Skill 都要通读、找问题、改完再读，人力上根本不可持续。但放任不管，Skill 会慢慢「漂移」，效果越来越差。

darwin-skill 2.0 是一个开源的 Skill 自动优化工具。它做的事情很简单：给你的 Skill 打分、提改进方案、改完再打分，分数没涨就回滚。整个流程像生物进化，一代代变异、选择、淘汰，留下来的都是更强的版本。

开源地址：https://github.com/alchaincyf/darwin-skill
协议：MIT

从 1.0 到 2.0：微软两篇论文改变了什么

1.0 时代跑了一个月，平均涨 13.5 分，0 次回滚。看起来不错，但作者意识到 0 回滚不完全代表算法精准——评分标准定得多严，结果就有多严。

转折点是 2025 年 5 月 22 日微软研究院同一天挂出的两篇论文：

SkillLens（arXiv 2605.23899）：研究 Skill 应该怎么被评估。核心发现——让单个 AI 给 Skill 打分的准确率只有 46.4%，比扔硬币还差。但在评分标准里加三个关键维度后，准确率能升到 73.8%。
SkillOpt（arXiv 2605.23904）：研究 Skill 应该怎么被优化。核心思想——把 Skill 文档当成神经网络的「外部可训练状态」，通过反向传播来优化。

2.0 直接吸收了这两篇论文的精华，做了四项核心升级。

2.0 的四项核心升级

1. 评分标准从 8 维升级到 9 维

直接吸收 SkillLens 论文里把准确率从 46.4% 拉到 73.8% 的「药方」：

失败模式编码：必须写出「如果 X 发生就做 Y；否则做 Z」的明确分支，不能只写正确流程
可执行具体性：明文禁止「建议」「可以考虑」「视情况而定」等软化措辞，出现三处以上扣分
高风险行动黑名单：Skill 必须有独立的「绝对不要做什么」章节

2. 多评委独立审查

不再依赖单个 AI 评委。每轮启动两个独立评委（彼此不知道对方存在），共识分数才算数。下一轮启动两个全新评委，避免锚定效应。

如果分数进入平台期（单轮涨幅 < 1 分），早停机制自动停手。

3. Human in the Loop 人工卡口

这是达尔文跟 SkillOpt 最大的区别。SkillOpt 是 benchmark-driven 的全自动流程，适合企业级场景。但对个人开发者，benchmark 本身就难定义——「我自己读着顺不顺」这种主观维度没法塞进自动循环。

达尔文 2.0 在每个阶段都设了显性的人工介入点：

第一阶段：自动跑评委打分，人工审报告决定改什么
第二阶段：自动改最低维度，CHECKPOINT 强制暂停等用户确认
第三阶段：启动新评委重评，涨幅低于阈值强制停手

4. 反例黑名单

新增 8 条来自 40 次实战优化的反模式，包括：同一个 AI 又改又评、用 git reset --hard 当回滚手段、为凑分塞冗余、跳过测试直接评分、一轮改多个维度等。

达尔文 2.0 工作流

实测效果

用一个 368 行的真实 Skill（huashu-gpt-image）做测试：

阶段	分数	变化
基线	80.8	两个独立评委共识
Round 1	91.5	+10.7，只改了失败模式
Round 2	91.65	+0.15，早停触发

关键发现：只改了「失败模式」一维，「工作流」那一维居然从 7.5 跳到 9.0——因为失败模式要求写出明确分支，写出来后流程自动变清晰。这叫「维度相关簇」。

规模化验证

用 2.0 扫了整个 Skill 库，总共近 30 个 Skill。每个都跑两轮独立评委、9 维评分、validation-gated 回滚：

steve-jobs-perspective：64 -> 94（+30，单轮搞定）
huashu-weread-advisor：80+ -> 91.4
darwin-skill 自身：86.05 -> 92.7（自指评估）
多个内容类 Skill 全部进入 90+

平均涨幅 +15 分。每个 Skill 的优化都有完整 git commit 链可回溯。

批量优化战果

怎么用

把仓库链接丢给你的 Agent，让它帮你安装：

帮我安装这个 Skill：https://github.com/alchaincyf/darwin-skill

然后在 Agent 里说「跑达尔文优化 XX skill」即可。跑一轮基线评估 + 一轮优化大约 15-30 分钟，主要时间在等评委 Agent 返回。

适合谁

维护多个 Skill / Prompt 的开发者
对 Prompt 质量有要求但没时间逐个审阅的团队
想让 AI 工具产出更稳定的个人创作者

全部

AI教程

AI产品

AI资源

Darwin Skill 2.0：让你的 AI 技能自我进化

Darwin Skill 2.0：让你的 AI 技能自我进化

作者

分类

相关文章

告别 Docker：北大开源 SWE-MiniSandbox，让 AI Agent 训练成本降至 5%

微信正式接入 OpenClaw：2 步配置你的专属 AI 助手

ClawGuard Auditor：给OpenClaw装上安全防护罩

从 1.0 到 2.0：微软两篇论文改变了什么

2.0 的四项核心升级

1. 评分标准从 8 维升级到 9 维

2. 多评委独立审查

3. Human in the Loop 人工卡口

4. 反例黑名单

实测效果

规模化验证

怎么用

适合谁