toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具992个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

CodeTracer:精准定位AI代码Agent失败根源的开源框架

2026/04/25
·toolin小编

南大快手联合提出CodeTracer框架,无需重训即可自动定位Coding Agent失败节点,F1分数比基线提升近30个百分点。

CodeTracer:精准定位AI代码Agent失败根源的开源框架
CodeTracer:精准定位AI代码Agent失败根源的开源框架
2026/04/25

CodeTracer:精准定位AI代码Agent失败根源的开源框架

南大快手联合提出CodeTracer框架,无需重训即可自动定位Coding Agent失败节点,F1分数比基线提升近30个百分点。

问题是什么CodeTracer 怎么工作模块一:进化式日志提取(Extraction Agent)模块二:层级轨迹树(Structuring Agent)模块三:精准定位与反思回放关键发现框架复杂度与成功率无关成功率在早中期快速饱和核心问题:证据-行动鸿沟实验数据谁应该关注
AI产品

当AI代码Agent执行任务失败时,你往往不知道它在哪一步出了错。现有评测只看最终的成功或失败,对过程中每一步决策的对错一无所知。CodeTracer解决了这个问题——它是一个无需重新训练的轨迹追溯框架,能自动定位Agent的失败节点并将诊断信息反馈回去。

  • 代码地址:https://github.com/NJU-LINK/CodeTracer
  • 论文地址:https://arxiv.org/abs/2604.11641

问题是什么

随着SWE-Agent、OpenHands等代码Agent的能力越来越强,执行轨迹也愈发冗长——一次完整流程往往包含数百至上千个步骤。当Agent失败时,开发者面临三个核心痛点:

  1. 错误链隐蔽:早期一次错误判断逐级传导,引发连锁失败,但缺乏步骤级的诊断能力
  2. 无效循环陷阱:Agent陷入错误假设后反复循环,消耗大量Token却无法纠偏
  3. 诊断难以规模化:现有方法依赖人工逐行核查,无法应对数千条轨迹的规模化分析

CodeTracer 怎么工作

整个框架由三个紧密协作的核心模块组成:

模块一:进化式日志提取(Extraction Agent)

不同Agent框架的日志格式互不兼容。CodeTracer的策略是"探索-适配-复用":先自动扫描运行目录识别日志结构,然后在注册表中查找匹配的解析器。若无匹配项,自动生成新解析器并注册入库,供后续同类格式复用。

Image

模块二:层级轨迹树(Structuring Agent)

将扁平的执行序列转化为层级轨迹状态树,区分两类步骤:

  • 探索步骤:只读取、搜索环境而不修改代码状态
  • 状态变更步骤:对代码库产生实际修改,触发状态跳转生成新节点

每个节点附加意图与结果摘要,整棵树成为压缩版的导航索引。

Image

模块三:精准定位与反思回放

Trace Agent沿轨迹树遍历检索,输出三项诊断结果:

  1. 失败责任阶段(Failure-Responsible Stage)
  2. 错误相关步骤集合(Error-Relevant Steps)
  3. 支撑诊断结论的精简证据集(Evidence Set)

诊断信号可作为前置提示注入原Agent,驱动其在相同资源约束下重新执行——即"反思回放"机制。诊断消耗的Token不计入回放预算,保证对比公平。

关键发现

框架复杂度与成功率无关

对SWE-Agent、MiniSWE-Agent、OpenHands、Terminus 2四大框架的测试显示:过度复杂的编排设计只带来更长执行链和更高Token成本,却无法带来能力突破。决定成功率上限的核心是底层模型的推理能力。

成功率在早中期快速饱和

从5到300次迭代的全面扫描显示:迭代至约35%-40%最长长度时成功率快速上升,中后期曲线趋于饱和。当Agent早期就形成错误假设时,额外迭代只会空耗资源。

核心问题:证据-行动鸿沟

失败轨迹中无效步骤占比约40%,接近成功轨迹(22%)的两倍。这说明Agent失败并非找不到关键信息,而是无法将有效证据转化为正确决策。

实验数据

在CodeTraceBench上的测试结果:

  • F1分数从16%-19%(纯LLM基线)提升至46%-48%(完整CodeTracer)
  • Token消耗明显下降
  • 所有骨干模型的Pass@1均有显著提升,诊断本身的额外Token消耗仅为5k-8k

不同模型的诊断风格:

  • GPT-5:精确率最高(45.0%),Token开销最低
  • Claude Sonnet 4:召回率最高(54.9%),适合高严谨度场景
  • DeepSeek-V3.2:精度与召回均衡,整体最稳健

谁应该关注

  • Agent开发者:需要调试和优化代码Agent的执行过程
  • 工程团队:使用SWE-Agent、Claude Code等工具,希望定位失败根因
  • 研究者:研究Agent行为模式和失败规律
  • 即插即用,无需重新训练模型,可直接集成到现有Agent框架中
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
问题是什么CodeTracer 怎么工作模块一:进化式日志提取(Extraction Agent)模块二:层级轨迹树(Structuring Agent)模块三:精准定位与反思回放关键发现框架复杂度与成功率无关成功率在早中期快速饱和核心问题:证据-行动鸿沟实验数据谁应该关注

相关文章

DeepSeek V4 实测:Agent 编程能力跃升,API 定价与上手指南
AI产品

DeepSeek V4 实测:Agent 编程能力跃升,API 定价与上手指南

DeepSeek V4 开源发布,1.6T 参数、百万上下文,Agent 编程能力接近 Opus 4.6,附 API 定价、实测案例与上手地址

avatar for toolin小编
toolin小编
2天前
DeepSeek-V4与GPT-5.5实测:同日发布的两大模型谁更强
AI产品

DeepSeek-V4与GPT-5.5实测:同日发布的两大模型谁更强

DeepSeek-V4与GPT-5.5同一天发布,开源对闭源的正面硬刚。推理、编程、长文本实测对比,帮你快速判断该用哪个。

avatar for toolin小编
toolin小编
1天前
guizang-ppt-skill:用 AI 做杂志级 PPT 的开源工具
AI教程

guizang-ppt-skill:用 AI 做杂志级 PPT 的开源工具

开源 PPT Skill 内置 10 种页面布局、5 套主题色,输出单文件 HTML,双击浏览器即看,附安装和使用教程

avatar for toolin小编
toolin小编
2天前