
GitHub 2万Star爆火的caveman插件,通过精简AI输出风格节省Token消耗,支持Claude Code和Codex,三档压缩强度按需切换。
如果你用 Claude Code 或 Codex 做开发,大概率遇到过这个痛点:你只想要两行代码,AI 却给你写了五个自然段的「正则历史散文」。caveman 这个插件就是来解决这个问题的 -- 它让 AI 像洞穴人一样说话,删掉所有不影响技术含义的客套话,声称可以节省约 75% 的输出 Token。
caveman 是一个同时适配 Claude Code 和 Codex 的 Skill/插件,GitHub Star 已突破 2 万。它的核心思路很简单:让 AI Agent 用最精简的方式输出技术内容,不牺牲准确性,只砍废话。

caveman 的 GitHub Star 增长曲线,在 Hacker News 爆火后从几十飙升至 2 万。
caveman 基于 Claude Code 的 Skill 机制运行。安装非常简单,一行命令搞定:
npx skills add JuliusBrussee/caveman安装完成后,在 Claude Code 中触发以下任意关键词即可启用:
caveman modetalk like cavemanuse cavemanless tokensbe brief/caveman(斜杠命令)caveman 支持三种压缩级别,按需选择:
适合需要专业、简洁输出的场景。
「连接池会复用已经打开的数据库连接,而不是每次请求都新建一个,从而避免重复握手开销。」
典型 caveman 风格,砍掉虚词。
「连接池复用已打开的DB连接。不是每个请求都新建。省掉握手开销。」
极致压缩,用缩写替代常见术语。
「连接池=复用DB连接。跳过握手->高并发更快。」
以下是一个 Bug 修复场景的输出对比:
普通模式:
当然!我很乐意帮你。你遇到的问题,很可能是由认证中间件中的 Token 过期判断逻辑引起的。具体来说,判断条件使用了小于号而不是小于等于号...
caveman 模式:
Bug在认证中间件。Token过期判断用了
<,没用<=。改这里:
代码块和报错信息不会被修改,只压缩自然语言描述。
caveman 的 SKILL.md 定义了具体的压缩策略:
在决定使用前,有几个重要的局限性需要了解:
1. 只压缩可见输出,不压缩思考过程
作者本人已在 Hacker News 上澄清:caveman 不影响 hidden reasoning tokens 和 thinking tokens。模型在后台的推理过程不会因此变短,它只压缩最终说出来的部分。
2. Skill 本身消耗上下文
加载 caveman 这个 Skill 会占用一定的上下文预算(Anthropic 官方文档有说明)。所以端到端的真实成本节省,未必等于 README 里的「75%」。
3. 75% 的数据来源
作者提供了 benchmark 脚本和若干任务的 Token 对比(区间从 22% 到 87%,平均 65%),但作者本人也说明这只是初步测试,不是严格的基准测试。
Token 节省对比数据,不同任务的节省比例差异较大。
两篇相关论文为「简洁输出未必伤害性能」提供了背景:
但这两篇研究的是通用的简洁提示策略,并非针对 caveman 的专项评测。
caveman 适合以下场景:
不适合的场景:
caveman 能火,本质上是一个信号:开发者已经受够了 AI 的冗长输出。当用户宁愿让 AI 像「山顶洞人」一样说话,也不愿继续为冗余 Token 买单时,这说明「克制」应该成为 AI 工具的基础能力。

零配置、全模态、本地运行的开源知识图谱工具,token 消耗降低 71.5 倍,无需向量数据库,pip 一键安装。

OpenClaw 最密集功能更新:直接调用 11 家视频生成商出片,/dreaming 命令让 AI 模拟睡眠巩固记忆,支持简体中文界面。

Google 将 Gemini 植入 Android 系统底层,让它从聊天机器人变成主动规划的系统管家。月费 $19.99,能自动管理日程、邮件、出行安排,但也有权限和隐私方面的隐忧。