toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,194个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Darwin Skill 2.0:让你的 AI 技能自我进化

2026/05/28
·toolin小编

darwin-skill 2.0 是一个开源的 Skill/Prompt 自动优化工具,吸收了微软两篇论文精华,用多评委独立审查 + 人工卡口机制帮你把 AI 技能文档从 80 分拉到 90 分以上。

Darwin Skill 2.0:让你的 AI 技能自我进化
Darwin Skill 2.0:让你的 AI 技能自我进化
2026/05/28

Darwin Skill 2.0:让你的 AI 技能自我进化

darwin-skill 2.0 是一个开源的 Skill/Prompt 自动优化工具,吸收了微软两篇论文精华,用多评委独立审查 + 人工卡口机制帮你把 AI 技能文档从 80 分拉到 90 分以上。

从 1.0 到 2.0:微软两篇论文改变了什么2.0 的四项核心升级1. 评分标准从 8 维升级到 9 维2. 多评委独立审查3. Human in the Loop 人工卡口4. 反例黑名单实测效果规模化验证怎么用适合谁
AI产品

如果你维护过多个 AI Skill 或 Prompt,一定知道人工审稿有多痛苦:每个 Skill 都要通读、找问题、改完再读,人力上根本不可持续。但放任不管,Skill 会慢慢「漂移」,效果越来越差。

darwin-skill 2.0 是一个开源的 Skill 自动优化工具。它做的事情很简单:给你的 Skill 打分、提改进方案、改完再打分,分数没涨就回滚。整个流程像生物进化,一代代变异、选择、淘汰,留下来的都是更强的版本。

  • 开源地址:https://github.com/alchaincyf/darwin-skill
  • 协议:MIT

从 1.0 到 2.0:微软两篇论文改变了什么

1.0 时代跑了一个月,平均涨 13.5 分,0 次回滚。看起来不错,但作者意识到 0 回滚不完全代表算法精准——评分标准定得多严,结果就有多严。

转折点是 2025 年 5 月 22 日微软研究院同一天挂出的两篇论文:

  • SkillLens(arXiv 2605.23899):研究 Skill 应该怎么被评估。核心发现——让单个 AI 给 Skill 打分的准确率只有 46.4%,比扔硬币还差。但在评分标准里加三个关键维度后,准确率能升到 73.8%。
  • SkillOpt(arXiv 2605.23904):研究 Skill 应该怎么被优化。核心思想——把 Skill 文档当成神经网络的「外部可训练状态」,通过反向传播来优化。

2.0 直接吸收了这两篇论文的精华,做了四项核心升级。

2.0 的四项核心升级

1. 评分标准从 8 维升级到 9 维

直接吸收 SkillLens 论文里把准确率从 46.4% 拉到 73.8% 的「药方」:

  • 失败模式编码:必须写出「如果 X 发生就做 Y;否则做 Z」的明确分支,不能只写正确流程
  • 可执行具体性:明文禁止「建议」「可以考虑」「视情况而定」等软化措辞,出现三处以上扣分
  • 高风险行动黑名单:Skill 必须有独立的「绝对不要做什么」章节

2. 多评委独立审查

不再依赖单个 AI 评委。每轮启动两个独立评委(彼此不知道对方存在),共识分数才算数。下一轮启动两个全新评委,避免锚定效应。

如果分数进入平台期(单轮涨幅 < 1 分),早停机制自动停手。

3. Human in the Loop 人工卡口

这是达尔文跟 SkillOpt 最大的区别。SkillOpt 是 benchmark-driven 的全自动流程,适合企业级场景。但对个人开发者,benchmark 本身就难定义——「我自己读着顺不顺」这种主观维度没法塞进自动循环。

达尔文 2.0 在每个阶段都设了显性的人工介入点:

  • 第一阶段:自动跑评委打分,人工审报告决定改什么
  • 第二阶段:自动改最低维度,CHECKPOINT 强制暂停等用户确认
  • 第三阶段:启动新评委重评,涨幅低于阈值强制停手

4. 反例黑名单

新增 8 条来自 40 次实战优化的反模式,包括:同一个 AI 又改又评、用 git reset --hard 当回滚手段、为凑分塞冗余、跳过测试直接评分、一轮改多个维度等。

达尔文 2.0 工作流

实测效果

用一个 368 行的真实 Skill(huashu-gpt-image)做测试:

阶段分数变化
基线80.8两个独立评委共识
Round 191.5+10.7,只改了失败模式
Round 291.65+0.15,早停触发

关键发现:只改了「失败模式」一维,「工作流」那一维居然从 7.5 跳到 9.0——因为失败模式要求写出明确分支,写出来后流程自动变清晰。这叫「维度相关簇」。

规模化验证

用 2.0 扫了整个 Skill 库,总共近 30 个 Skill。每个都跑两轮独立评委、9 维评分、validation-gated 回滚:

  • steve-jobs-perspective:64 -> 94(+30,单轮搞定)
  • huashu-weread-advisor:80+ -> 91.4
  • darwin-skill 自身:86.05 -> 92.7(自指评估)
  • 多个内容类 Skill 全部进入 90+

平均涨幅 +15 分。每个 Skill 的优化都有完整 git commit 链可回溯。

批量优化战果

怎么用

把仓库链接丢给你的 Agent,让它帮你安装:

帮我安装这个 Skill:https://github.com/alchaincyf/darwin-skill

然后在 Agent 里说「跑达尔文优化 XX skill」即可。跑一轮基线评估 + 一轮优化大约 15-30 分钟,主要时间在等评委 Agent 返回。

适合谁

  • 维护多个 Skill / Prompt 的开发者
  • 对 Prompt 质量有要求但没时间逐个审阅的团队
  • 想让 AI 工具产出更稳定的个人创作者
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
从 1.0 到 2.0:微软两篇论文改变了什么2.0 的四项核心升级1. 评分标准从 8 维升级到 9 维2. 多评委独立审查3. Human in the Loop 人工卡口4. 反例黑名单实测效果规模化验证怎么用适合谁

相关文章

NVIDIA RTX Spark:英伟达重新定义AI PC,128G统一内存本地跑120B模型
AI产品

NVIDIA RTX Spark:英伟达重新定义AI PC,128G统一内存本地跑120B模型

英伟达发布RTX Spark消费级AI芯片,128GB统一内存、1 PFLOP算力,可在14mm笔记本上本地运行120B大模型,Windows生态迎来AI PC时代

avatar for toolin小编
toolin小编
1天前
Gamma-World:开源多智能体世界模型
AI产品

Gamma-World:开源多智能体世界模型

NVIDIA联合清华开源多智能体世界模型,双人训练直接泛化到四人,支持零样本多人场景实时推演

avatar for toolin小编
toolin小编
2天前
Agnes AI 全模态API免费开放:文本+图片+视频一站式调用
AI产品

Agnes AI 全模态API免费开放:文本+图片+视频一站式调用

全球AI Lab排名第9的Agnes AI宣布无限期免费开放文本、图片、视频三款核心模型API,开发者零成本调用全模态能力

avatar for toolin小编
toolin小编
1天前