CodeTracer：精准定位AI代码Agent失败根源的开源框架

当AI代码Agent执行任务失败时，你往往不知道它在哪一步出了错。现有评测只看最终的成功或失败，对过程中每一步决策的对错一无所知。CodeTracer解决了这个问题——它是一个无需重新训练的轨迹追溯框架，能自动定位Agent的失败节点并将诊断信息反馈回去。

代码地址：https://github.com/NJU-LINK/CodeTracer
论文地址：https://arxiv.org/abs/2604.11641

问题是什么

随着SWE-Agent、OpenHands等代码Agent的能力越来越强，执行轨迹也愈发冗长——一次完整流程往往包含数百至上千个步骤。当Agent失败时，开发者面临三个核心痛点：

错误链隐蔽：早期一次错误判断逐级传导，引发连锁失败，但缺乏步骤级的诊断能力
无效循环陷阱：Agent陷入错误假设后反复循环，消耗大量Token却无法纠偏
诊断难以规模化：现有方法依赖人工逐行核查，无法应对数千条轨迹的规模化分析

CodeTracer 怎么工作

整个框架由三个紧密协作的核心模块组成：

模块一：进化式日志提取（Extraction Agent）

不同Agent框架的日志格式互不兼容。CodeTracer的策略是"探索-适配-复用"：先自动扫描运行目录识别日志结构，然后在注册表中查找匹配的解析器。若无匹配项，自动生成新解析器并注册入库，供后续同类格式复用。

模块二：层级轨迹树（Structuring Agent）

将扁平的执行序列转化为层级轨迹状态树，区分两类步骤：

探索步骤：只读取、搜索环境而不修改代码状态
状态变更步骤：对代码库产生实际修改，触发状态跳转生成新节点

每个节点附加意图与结果摘要，整棵树成为压缩版的导航索引。

模块三：精准定位与反思回放

Trace Agent沿轨迹树遍历检索，输出三项诊断结果：

失败责任阶段（Failure-Responsible Stage）
错误相关步骤集合（Error-Relevant Steps）
支撑诊断结论的精简证据集（Evidence Set）

诊断信号可作为前置提示注入原Agent，驱动其在相同资源约束下重新执行——即"反思回放"机制。诊断消耗的Token不计入回放预算，保证对比公平。

F1分数从16%-19%（纯LLM基线）提升至46%-48%（完整CodeTracer）
Token消耗明显下降
所有骨干模型的Pass@1均有显著提升，诊断本身的额外Token消耗仅为5k-8k

不同模型的诊断风格：

GPT-5：精确率最高（45.0%），Token开销最低
Claude Sonnet 4：召回率最高（54.9%），适合高严谨度场景
DeepSeek-V3.2：精度与召回均衡，整体最稳健

谁应该关注

Agent开发者：需要调试和优化代码Agent的执行过程
工程团队：使用SWE-Agent、Claude Code等工具，希望定位失败根因
研究者：研究Agent行为模式和失败规律
即插即用，无需重新训练模型，可直接集成到现有Agent框架中

代码地址：https://github.com/NJU-LINK/CodeTracer
论文地址：https://arxiv.org/abs/2604.11641

问题是什么

错误链隐蔽：早期一次错误判断逐级传导，引发连锁失败，但缺乏步骤级的诊断能力
无效循环陷阱：Agent陷入错误假设后反复循环，消耗大量Token却无法纠偏
诊断难以规模化：现有方法依赖人工逐行核查，无法应对数千条轨迹的规模化分析

探索步骤：只读取、搜索环境而不修改代码状态
状态变更步骤：对代码库产生实际修改，触发状态跳转生成新节点

每个节点附加意图与结果摘要，整棵树成为压缩版的导航索引。

模块三：精准定位与反思回放

Trace Agent沿轨迹树遍历检索，输出三项诊断结果：

失败责任阶段（Failure-Responsible Stage）
错误相关步骤集合（Error-Relevant Steps）
支撑诊断结论的精简证据集（Evidence Set）

诊断信号可作为前置提示注入原Agent，驱动其在相同资源约束下重新执行——即"反思回放"机制。诊断消耗的Token不计入回放预算，保证对比公平。

F1分数从16%-19%（纯LLM基线）提升至46%-48%（完整CodeTracer）
Token消耗明显下降
所有骨干模型的Pass@1均有显著提升，诊断本身的额外Token消耗仅为5k-8k

不同模型的诊断风格：

GPT-5：精确率最高（45.0%），Token开销最低
Claude Sonnet 4：召回率最高（54.9%），适合高严谨度场景
DeepSeek-V3.2：精度与召回均衡，整体最稳健

谁应该关注

Agent开发者：需要调试和优化代码Agent的执行过程
工程团队：使用SWE-Agent、Claude Code等工具，希望定位失败根因
研究者：研究Agent行为模式和失败规律
即插即用，无需重新训练模型，可直接集成到现有Agent框架中

全部

AI教程

AI产品

AI资源

CodeTracer：精准定位AI代码Agent失败根源的开源框架

CodeTracer：精准定位AI代码Agent失败根源的开源框架

作者

分类

相关文章

DeepSeek V4 实测：Agent 编程能力跃升，API 定价与上手指南

DeepSeek-V4与GPT-5.5实测：同日发布的两大模型谁更强

guizang-ppt-skill：用 AI 做杂志级 PPT 的开源工具

CodeTracer：精准定位AI代码Agent失败根源的开源框架

CodeTracer：精准定位AI代码Agent失败根源的开源框架

作者

分类

相关文章

DeepSeek V4 实测：Agent 编程能力跃升，API 定价与上手指南

DeepSeek-V4与GPT-5.5实测：同日发布的两大模型谁更强

guizang-ppt-skill：用 AI 做杂志级 PPT 的开源工具