toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,291个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

FuseSearch:40亿参数小模型如何碾压商用大模型的代码定位能力

2026/06/14
·toolin小编

蚂蚁集团ACL 2026新作FuseSearch-4B,通过自适应并行搜索策略,在代码定位任务上匹配Claude Haiku 4.5,速度快93.6%,Token省68.9%

FuseSearch:40亿参数小模型如何碾压商用大模型的代码定位能力
FuseSearch:40亿参数小模型如何碾压商用大模型的代码定位能力
2026/06/14

FuseSearch:40亿参数小模型如何碾压商用大模型的代码定位能力

蚂蚁集团ACL 2026新作FuseSearch-4B,通过自适应并行搜索策略,在代码定位任务上匹配Claude Haiku 4.5,速度快93.6%,Token省68.9%

问题:为什么代码定位这么贵核心创新三把"瑞士军刀"用"信息增益"量化搜索质量两阶段训练训练结果:先撒网再收网实验数据核心指标(SWE-bench Verified,386个实例)对比商用闭源大模型接入下游 Agent实用信息适用场景
AI产品

在 AI 编程的实际应用中,超过 50% 的计算资源消耗在代码搜索与定位环节。蚂蚁集团的 FuseSearch-4B 提出了一个反直觉的解决方案:不需要堆参数,只需要让模型学会"什么时候该搜多少"。这个仅 40 亿参数的开源模型,在 SWE-bench Verified 上达到了 84.7% 的文件级 F1,匹配 Claude Haiku 4.5 的定位能力。

问题:为什么代码定位这么贵

当 AI 编程 Agent 在一个几十万行代码的大型项目中寻找该改哪个文件、哪个函数时,现有方案有两个流派的痛点:

  • 单步串行搜索:每一轮只能调用一个工具逐步缩小范围,轮次消耗惊人
  • 无脑并行:固定每轮调用 8 个工具,会产生超过 34.9% 的冗余调用,引入噪声信号

核心矛盾在于:并行少了信息不够用,并行多了浪费资源。FuseSearch 的洞察是——关键不在于并行多少,而在于什么时候该多并行、什么时候该少并行。

FuseSearch整体架构

FuseSearch只使用三个只读工具:glob找文件、grep搜内容、read_file读细节。

核心创新

三把"瑞士军刀"

FuseSearch 的工具箱极其克制,只有三个只读工具:

  • glob:按文件名模式查找文件
  • grep:在文件内容中搜索
  • read_file:读取文件细节

零依赖,拿来就能用。不需要代码知识图谱,不需要语法解析器。语言无关,Python 和 Java 仓库都能用。

用"信息增益"量化搜索质量

论文首次提出**工具效率(Tool Efficiency)**指标:

信息增益 = 新发现的代码实体数 / 总返回的代码实体数

效率越高说明每次搜索都在探索新区域;效率越低说明在做重复劳动。这个指标直接把"搜索质量"变成了可量化的训练目标。

FuseSearch训练策略

两阶段训练

阶段一:监督微调(SFT)

从 233 个高质量 GitHub 仓库中提取约 21,000 个 issue-patch 对,用 Kimi-K2-Instruct 生成搜索轨迹。双重筛选标准:定位准确率 >= 0.8,工具效率 >= 0.5。最终从约 24,000 条候选中精选出约 6,000 条高质量数据。

阶段二:强化学习(RL)

奖励函数设计极为精妙:

奖励 = 0.8 x 定位准确率 + 0.2 x (定位准确率 x 工具效率)

注意那个乘积项:只有"找得准"且"搜得不浪费"同时满足才能拿到额外奖励。如果定位完全错误,无论效率多高奖励都是零——模型不能"高效地犯错"。

训练结果:先撒网再收网

经过 RL 训练,模型自动学会了一种"老司机"式的自适应搜索模式:

  • 初始阶段:广撒网,高并行度快速覆盖代码库
  • 中期阶段:逐步收窄,针对线索深入搜索
  • 后期阶段:精准验证,低并行度确认关键位置

这种"先广度、后深度"的模式完全是模型从奖励信号中自己学出来的,没有任何人工规则。

实验数据

核心指标(SWE-bench Verified,386个实例)

指标FuseSearch-4Bvs. 之前方法
文件级 F184.7%准确率翻倍
速度快 93.6%速度快 16 倍
Token 消耗降低 68.9%省了近 70%

对比商用闭源大模型

一个可以本地部署的 4B 开源小模型,定位能力与 Claude Haiku 4.5 持平,同时更快、更省。

接入下游 Agent

把 FuseSearch-4B 作为 Kimi-K2-Instruct 的"前置搜索引擎",不影响修复效果,直接把成本砍掉近一半。

实用信息

  • 论文标题:FuseSearch: Learning Adaptive Parallel Execution for Efficient Code Localization
  • 收录会议:ACL 2026 Findings
  • 作者单位:蚂蚁集团
  • 论文链接:https://github.com/sxthunder/FuseSearch
  • 部署成本:零依赖,三个只读工具,可即时部署到任意代码仓库

适用场景

  • AI 编程 Agent 开发者:需要降低代码搜索的 Token 消耗和延迟
  • 企业级代码修复:对成本和延迟敏感的工业级场景
  • 本地部署需求:4B 参数可在消费级 GPU 上运行
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
问题:为什么代码定位这么贵核心创新三把"瑞士军刀"用"信息增益"量化搜索质量两阶段训练训练结果:先撒网再收网实验数据核心指标(SWE-bench Verified,386个实例)对比商用闭源大模型接入下游 Agent实用信息适用场景

相关文章

XtraGPT:基于全文上下文的 AI 论文修改工具
AI产品

XtraGPT:基于全文上下文的 AI 论文修改工具

ACL 2026 论文,用 20 条学术写作标准和全文上下文建模,把 AI 论文修改从泛泛润色变成可控的定向修订

avatar for toolin小编
toolin小编
1天前
OpenRouter Fusion教程:三模型组合平替Fable 5,成本砍半
AI教程

OpenRouter Fusion教程:三模型组合平替Fable 5,成本砍半

OpenRouter的Fusion多模型融合方案,通过Kimi K2.6+DeepSeek V4 Pro+Gemini 3 Flash组合,在DRACO基准上性能追平Fable 5,成本仅为其50%

avatar for toolin小编
toolin小编
3天前
让 AI Agent 自动接单赚钱:ClawHunt 实操指南
AI教程

让 AI Agent 自动接单赚钱:ClawHunt 实操指南

从部署 Agent 到自动竞标任务,完整拆解 AI Agent 在 ClawHunt 平台上接活赚钱的全流程

avatar for toolin小编
toolin小编
1天前