
OpenResearcher 提供完整开源的深度研究轨迹合成流水线,9.7 万条长程训练数据免费可用,微调后 30B 模型在 BrowseComp-Plus 达到 54.8% 准确率,超越多个主流闭源模型。
训练一个能真正「搜索 → 浏览 → 推理」的深度研究 Agent,最大的瓶颈不是模型本身,而是缺乏高质量的长程研究轨迹数据。Texas A&M、Waterloo、UC San Diego 等机构联合推出的 OpenResearcher,是目前第一个完全开源、可本地复现的深度研究轨迹合成流水线,合成数据已被 NVIDIA 采用于基座模型训练。
OpenResearcher 不是一个直接使用的研究工具,而是一条训练深度研究 Agent 的数据合成流水线。它解决的问题是:如何在不依赖昂贵在线 API 的情况下,批量生成包含 100+ 轮工具调用的长程研究轨迹,用于微调小参数量模型。
核心思路:一次性抓取在线语料构建包含 1500 万篇候选文档的本地搜索引擎,由教师模型在完全离线环境中调用 search、open、find 三种工具合成研究轨迹。

OpenResearcher 30B 在参数量/性能比维度上显著领先所有对比模型。
传统方案每次失败的搜索路径都消耗 API 配额,大规模合成意味着数万美元开支。OpenResearcher 将所有文档本地化,教师模型在离线环境中完成全部合成,成本大幅降低。
Agent 在合成过程中只使用三种原子工具,结构简洁易于迁移:
search:在本地语料库中检索相关文档open:打开并读取指定文档全文find:在文档内精准定位特定信息现有开源数据集多为 2-5 轮浅层交互,无法覆盖真实深度研究场景。OpenResearcher 的轨迹平均工具调用次数远超现有数据集,是训练长程推理能力的关键差异点。

飞书开源 lark-cli,覆盖 11 大业务域、200+ 命令,支持 Claude Code、Cursor 等主流 AI 工具直接调用飞书能力,Star 数已达 5.5k

即梦推出 CLI 工具,支持在小龙虾、Claude Code 等智能体中通过自然语言直接调用 Seedance 2.0 生成视频和图片,无需 API 配置

通义千问 Qwen3.5-Omni 正式发布,支持文本、图片、音视频原生输入。实测具备超强的视觉代码理解能力,可实时解读论文并生成对应代码。