FuseSearch：40亿参数小模型如何碾压商用大模型的代码定位能力

在 AI 编程的实际应用中，超过 50% 的计算资源消耗在代码搜索与定位环节。蚂蚁集团的 FuseSearch-4B 提出了一个反直觉的解决方案：不需要堆参数，只需要让模型学会"什么时候该搜多少"。这个仅 40 亿参数的开源模型，在 SWE-bench Verified 上达到了 84.7% 的文件级 F1，匹配 Claude Haiku 4.5 的定位能力。

问题：为什么代码定位这么贵

当 AI 编程 Agent 在一个几十万行代码的大型项目中寻找该改哪个文件、哪个函数时，现有方案有两个流派的痛点：

单步串行搜索：每一轮只能调用一个工具逐步缩小范围，轮次消耗惊人
无脑并行：固定每轮调用 8 个工具，会产生超过 34.9% 的冗余调用，引入噪声信号

核心矛盾在于：并行少了信息不够用，并行多了浪费资源。FuseSearch 的洞察是——关键不在于并行多少，而在于什么时候该多并行、什么时候该少并行。

FuseSearch整体架构

FuseSearch只使用三个只读工具：glob找文件、grep搜内容、read_file读细节。

核心创新

三把"瑞士军刀"

FuseSearch 的工具箱极其克制，只有三个只读工具：

glob：按文件名模式查找文件
grep：在文件内容中搜索
read_file：读取文件细节

零依赖，拿来就能用。不需要代码知识图谱，不需要语法解析器。语言无关，Python 和 Java 仓库都能用。

用"信息增益"量化搜索质量

论文首次提出**工具效率（Tool Efficiency）**指标：

信息增益 = 新发现的代码实体数 / 总返回的代码实体数

效率越高说明每次搜索都在探索新区域；效率越低说明在做重复劳动。这个指标直接把"搜索质量"变成了可量化的训练目标。

FuseSearch训练策略

两阶段训练

阶段一：监督微调（SFT）

从 233 个高质量 GitHub 仓库中提取约 21,000 个 issue-patch 对，用 Kimi-K2-Instruct 生成搜索轨迹。双重筛选标准：定位准确率 >= 0.8，工具效率 >= 0.5。最终从约 24,000 条候选中精选出约 6,000 条高质量数据。

阶段二：强化学习（RL）

奖励函数设计极为精妙：

奖励 = 0.8 x 定位准确率 + 0.2 x (定位准确率 x 工具效率)

注意那个乘积项：只有"找得准"且"搜得不浪费"同时满足才能拿到额外奖励。如果定位完全错误，无论效率多高奖励都是零——模型不能"高效地犯错"。

训练结果：先撒网再收网

经过 RL 训练，模型自动学会了一种"老司机"式的自适应搜索模式：

初始阶段：广撒网，高并行度快速覆盖代码库
中期阶段：逐步收窄，针对线索深入搜索
后期阶段：精准验证，低并行度确认关键位置

这种"先广度、后深度"的模式完全是模型从奖励信号中自己学出来的，没有任何人工规则。

实验数据

核心指标（SWE-bench Verified，386个实例）

指标	FuseSearch-4B	vs. 之前方法
文件级 F1	84.7%	准确率翻倍
速度	快 93.6%	速度快 16 倍
Token 消耗	降低 68.9%	省了近 70%

论文标题：FuseSearch: Learning Adaptive Parallel Execution for Efficient Code Localization
收录会议：ACL 2026 Findings
作者单位：蚂蚁集团
论文链接：https://github.com/sxthunder/FuseSearch
部署成本：零依赖，三个只读工具，可即时部署到任意代码仓库

适用场景

AI 编程 Agent 开发者：需要降低代码搜索的 Token 消耗和延迟
企业级代码修复：对成本和延迟敏感的工业级场景
本地部署需求：4B 参数可在消费级 GPU 上运行

问题：为什么代码定位这么贵

当 AI 编程 Agent 在一个几十万行代码的大型项目中寻找该改哪个文件、哪个函数时，现有方案有两个流派的痛点：

单步串行搜索：每一轮只能调用一个工具逐步缩小范围，轮次消耗惊人
无脑并行：固定每轮调用 8 个工具，会产生超过 34.9% 的冗余调用，引入噪声信号

核心矛盾在于：并行少了信息不够用，并行多了浪费资源。FuseSearch 的洞察是——关键不在于并行多少，而在于什么时候该多并行、什么时候该少并行。

FuseSearch整体架构

FuseSearch只使用三个只读工具：glob找文件、grep搜内容、read_file读细节。

核心创新

三把"瑞士军刀"

FuseSearch 的工具箱极其克制，只有三个只读工具：

glob：按文件名模式查找文件
grep：在文件内容中搜索
read_file：读取文件细节

零依赖，拿来就能用。不需要代码知识图谱，不需要语法解析器。语言无关，Python 和 Java 仓库都能用。

用"信息增益"量化搜索质量

论文首次提出**工具效率（Tool Efficiency）**指标：

信息增益 = 新发现的代码实体数 / 总返回的代码实体数

效率越高说明每次搜索都在探索新区域；效率越低说明在做重复劳动。这个指标直接把"搜索质量"变成了可量化的训练目标。

FuseSearch训练策略

两阶段训练

阶段一：监督微调（SFT）

阶段二：强化学习（RL）

奖励函数设计极为精妙：

奖励 = 0.8 x 定位准确率 + 0.2 x (定位准确率 x 工具效率)

注意那个乘积项：只有"找得准"且"搜得不浪费"同时满足才能拿到额外奖励。如果定位完全错误，无论效率多高奖励都是零——模型不能"高效地犯错"。

训练结果：先撒网再收网

经过 RL 训练，模型自动学会了一种"老司机"式的自适应搜索模式：

初始阶段：广撒网，高并行度快速覆盖代码库
中期阶段：逐步收窄，针对线索深入搜索
后期阶段：精准验证，低并行度确认关键位置

这种"先广度、后深度"的模式完全是模型从奖励信号中自己学出来的，没有任何人工规则。

实验数据

核心指标（SWE-bench Verified，386个实例）

指标	FuseSearch-4B	vs. 之前方法
文件级 F1	84.7%	准确率翻倍
速度	快 93.6%	速度快 16 倍
Token 消耗	降低 68.9%	省了近 70%

论文标题：FuseSearch: Learning Adaptive Parallel Execution for Efficient Code Localization
收录会议：ACL 2026 Findings
作者单位：蚂蚁集团
论文链接：https://github.com/sxthunder/FuseSearch
部署成本：零依赖，三个只读工具，可即时部署到任意代码仓库

适用场景

AI 编程 Agent 开发者：需要降低代码搜索的 Token 消耗和延迟
企业级代码修复：对成本和延迟敏感的工业级场景
本地部署需求：4B 参数可在消费级 GPU 上运行

全部

AI教程

AI产品

AI资源

FuseSearch：40亿参数小模型如何碾压商用大模型的代码定位能力

FuseSearch：40亿参数小模型如何碾压商用大模型的代码定位能力

作者

分类

相关文章

CloudQ + AndonQ：用对话管理多云的轻量级 AI 助手

VoxCPM 2：开源2B语音模型，30种语言9种方言

wechat-cli：用命令行管理微信聊天记录

FuseSearch：40亿参数小模型如何碾压商用大模型的代码定位能力

FuseSearch：40亿参数小模型如何碾压商用大模型的代码定位能力

作者

分类

相关文章

CloudQ + AndonQ：用对话管理多云的轻量级 AI 助手

VoxCPM 2：开源2B语音模型，30种语言9种方言

wechat-cli：用命令行管理微信聊天记录