OpenSquilla：给Agent加上token省钱中间层

如果你在做 AI Agent 产品，token 账单大概率已经让你头疼了。Agent 比聊天机器人费 token 得多——一次任务背后可能跑十几步，每一步都在烧钱。而且不是每一步都需要最强的模型，分类、摘要、格式整理这些简单任务，用旗舰模型就是浪费。

OpenSquilla 是一个开源的 Agent Harness 框架，它在 Agent 应用和大模型之间加了一层"运行中枢"，核心目标只有一个：让 Agent 少花不该花的 token，同时让它越用越懂用户。

GitHub: https://github.com/opensquilla/opensquilla

关键区别在于：这个路由不是静态规则表，而是一个可以根据任务反馈持续优化的参数化模型。哪些任务成功了、哪些地方烧 token、哪些模型性价比更高，这些信号会回流到路由中，不断训练它。

据团队数据，OpenSquilla 的智能路由比 OpenRouter 路由精度高 4.4 个百分点，成本低 75%。

第二层：上下文管理——别让模型读废话

很多 Agent 系统会把 Skill 描述、工具说明、历史记忆、网页内容一股脑塞进 prompt。模型每调用一次都要重新读一遍，用不到的 token 也照样计费。

OpenSquilla 的做法：

按需加载 Skill：一次任务只注入可能用到的 Skill，不把几十个 Skill 的说明全部塞进去
精准召回记忆：从本地数据库检索相关片段，而非整段搬入
预处理工具结果：裁掉网页 HTML 中的标签、样式、导航栏、广告等无关内容

据团队数据，上下文管理可额外带来约 20% 到 50% 的成本降低。

第三层：MetaSkill——让 Agent 自己组织能力

Skill 越多，Agent 理论上越强。但真实使用中，用户开始不知道该怎么组合这些 Skill。写一篇文章，要先查资料、核事实、学风格、写初稿、审校——每一步都有 Skill，但谁来编排顺序？

OpenSquilla 的 MetaSkill 机制让用户只需要说目标，AI 自动拆步骤、选 Skill 组合、安排依赖关系。每个步骤独享一段上下文，避免互相干扰。

第四层：自进化——把用户偏好训进 Harness

用户第一次让 Agent 做任务，往往要改好几轮。问题是改完了下次还犯同样的错，经验没有沉淀。

OpenSquilla 会回看整个交互过程：用户补了哪些条件、纠正了哪些偏差、最终认可了什么结果，然后把这些信息沉淀进 Skill 或工作流。下次遇到类似任务，Agent 不必从零开始。

用户少纠正一次 = 系统少跑一轮 = 少烧一轮 token。

适用场景

Agent 产品团队：token 毛利低于 30% 的团队，需要系统化降低调用成本
多模型混合调用：已经在使用多个模型但缺乏统一路由方案的团队
复杂工作流编排：Agent 涉及多步骤、多 Skill 组合的场景
用户留存优化：希望 Agent 能记住用户偏好、减少重复指导

提示: OpenSquilla 的路由模型是本地运行的集成树模型，不需要额外调用大模型 API，本身不产生额外的 token 开销。

GitHub: https://github.com/opensquilla/opensquilla

按需加载 Skill：一次任务只注入可能用到的 Skill，不把几十个 Skill 的说明全部塞进去
精准召回记忆：从本地数据库检索相关片段，而非整段搬入
预处理工具结果：裁掉网页 HTML 中的标签、样式、导航栏、广告等无关内容

据团队数据，上下文管理可额外带来约 20% 到 50% 的成本降低。

Agent 产品团队：token 毛利低于 30% 的团队，需要系统化降低调用成本
多模型混合调用：已经在使用多个模型但缺乏统一路由方案的团队
复杂工作流编排：Agent 涉及多步骤、多 Skill 组合的场景
用户留存优化：希望 Agent 能记住用户偏好、减少重复指导

提示: OpenSquilla 的路由模型是本地运行的集成树模型，不需要额外调用大模型 API，本身不产生额外的 token 开销。

全部

AI教程

AI产品

AI资源

OpenSquilla：给Agent加上token省钱中间层

OpenSquilla：给Agent加上token省钱中间层

OpenSquilla 是什么

四层核心机制

第一层：智能路由——调对模型省对钱

第二层：上下文管理——别让模型读废话

第三层：MetaSkill——让 Agent 自己组织能力

第四层：自进化——把用户偏好训进 Harness

适用场景

作者

分类

相关文章

微信「小微」灰度实测：12 个入口把 AI 塞进信息流

百度搭子 DuMate 实操指南：从安装到自动化办公

DeNovoSWE：首个长程 Doc2Repo 训练集，让 Code Agent 学会造仓库

OpenSquilla：给Agent加上token省钱中间层

OpenSquilla：给Agent加上token省钱中间层

OpenSquilla 是什么

四层核心机制

第一层：智能路由——调对模型省对钱

第二层：上下文管理——别让模型读废话

第三层：MetaSkill——让 Agent 自己组织能力

第四层：自进化——把用户偏好训进 Harness

适用场景

作者

分类

相关文章

微信「小微」灰度实测：12 个入口把 AI 塞进信息流

百度搭子 DuMate 实操指南：从安装到自动化办公

DeNovoSWE：首个长程 Doc2Repo 训练集，让 Code Agent 学会造仓库