toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具927个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Claude Code 省 Token 实操指南

2026/04/14
·toolin小编

掌握提示缓存机制、会话管理策略和六条核心规则,让你的 Claude Code 配额用得更久、花得更值。

Claude Code 省 Token 实操指南
Claude Code 省 Token 实操指南
2026/04/14

Claude Code 省 Token 实操指南

掌握提示缓存机制、会话管理策略和六条核心规则,让你的 Claude Code 配额用得更久、花得更值。

提示缓存:省 Token 的核心三个反直觉的省钱策略缓存还热的时候,继续聊比开新会话便宜复杂任务一次做对,比来回改三轮更省长内容给路径,别往对话里贴继续聊还是开新会话:一张决策表1M 上下文窗口:慎用六条核心操作规则一、用 Sonnet 做日常工作二、别在会话中间换模型三、精简 CLAUDE.md,控制技能数量四、命令行优先,MCP 其次五、先花一点 Token 做计划六、用 permissions.deny 限制阅读范围委派任务减少主会话消耗总结
AI教程

Claude Code 配额烧得太快?Max 用户一周的额度有人两天就用完,一个会话的真实成本超过 134 美元。问题往往不在用量大,而在于你不了解背后的缓存机制。这篇文章帮你搞清楚 Token 是怎么花的,以及怎么做才能省。

提示缓存:省 Token 的核心

大语言模型每次收到你的消息,都要从头"读"一遍完整的输入内容。在 Claude Code 里,输入内容通常包括系统指令、工具定义、CLAUDE.md 项目规则、对话历史和新消息。前两部分在同一个会话里几乎不变,但模型每次都要重新"读"。

提示缓存做的事情很简单:第一次算完后把中间结果存下来,下次遇到相同的输入前缀,直接用存好的结果,跳过重复计算。读取缓存的成本只有重新计算的十分之一。

但缓存有两个前提条件:

  • 缓存只对"前缀"有效:必须从头开始、一字不差地匹配。你在第一页改了一个字,整个缓存全部失效。
  • 缓存有存活时间:主智能体的缓存窗口是 1 小时,子智能体是 5 分钟。每次缓存命中都会刷新计时器。

提示缓存示意

缓存命中的位置和命中率直接决定了你的 Token 开销

三个反直觉的省钱策略

理解缓存之后,有些"常识"要翻过来。

缓存还热的时候,继续聊比开新会话便宜

Claude Code 每次新会话启动,都要重新加载系统提示、工具定义、CLAUDE.md、项目配置。这些"基础设施"大约 5 万 Token。频繁 /clear 等于反复为这些不变的内容付全价写入费。

而在活跃会话里,这些内容一直在缓存中,每次只付十分之一的价格。

复杂任务一次做对,比来回改三轮更省

关掉扩展思考确实能在单次请求里省 Token。但一个复杂的重构任务,开着扩展思考一次搞定,和关掉之后来回改三轮,后者更贵的概率很大。因为每多一轮对话,整个上下文都要重新发送一次。

简单任务反过来,把 /effort 调低或者在 /config 里关掉思考模式,效果立竿见影。

长内容给路径,别往对话里贴

不要把 10000 行日志复制粘贴到对话里让 Claude 自己找错误,直接把日志文件路径发给它。Claude Code 会自己用 grep 之类的工具去检索需要的信息,只把相关内容拉进上下文。

记住: 最便宜的 Token,永远是根本没进上下文的 Token。

输入质量决定Token消耗

控制输入质量比控制输出长度更有效

继续聊还是开新会话:一张决策表

这可能是 Claude Code 省 Token 最关键的一个判断。很多人的默认习惯是"做完就清",实际上最省的默认习惯应该反过来:能继续就继续,开新会话是有条件触发的操作。

继续当前会话的条件:

  • 任务没变,还在调同一个 bug、写同一个模块
  • 距离上一条消息不超过 1 小时,缓存还活着
  • 上下文里的内容对当前工作仍然有用

开新会话的条件:

  • 任务换了,两件事的上下文完全不同
  • 闲置超过 1 小时,缓存大概率已经过期
  • 上下文被不相关内容塞满,噪音太多

一句话总结:缓存还热、任务没换,继续聊。缓存过期、任务切换、上下文噪音太多,果断重开。

一个会话只做一件事的工作方式,几乎不会触发配额问题

1M 上下文窗口:慎用

从 2026 年 3 月起,Max、Team、Enterprise 计划默认使用 Opus 4.6 的 1M 上下文窗口。Anthropic 取消了长上下文的 2 倍价格溢价,但 1M 上下文正在成为很多人配额见底的头号原因。

问题出在缓存失效的代价上。你用 1M 上下文积累了一个很长的会话,中间离开电脑超过 1 小时,回来继续聊,1M Token 的缓存全部过期,一条消息就要触发全量重建。

大多数日常会话在 80-120K 上下文时就会触发压缩,根本用不到 200K,更别说 1M。

如果你想禁用 1M 上下文,在 ~/.claude/settings.json 中添加:

{
  "env": {
    "CLAUDE_CODE_DISABLE_1M_CONTEXT": "1"
  }
}

如果你想设置自动压缩上下文的阈值:

{
  "env": {
    "CLAUDE_CODE_AUTO_COMPACT_WINDOW": "200000"
  }
}

上下文接近 20 万 Token 时自动压缩摘要化,既保留上下文连续性,又防止成本失控。

六条核心操作规则

一、用 Sonnet 做日常工作

Opus 的输入成本大约是 Sonnet 的 1.7 倍,消耗 Token 的速度大约是 Sonnet 的两倍。大多数编码任务 Sonnet 就够了,Opus 留给复杂架构决策和多步推理。在 Claude Code 里输入 /model 切换。

二、别在会话中间换模型

提示缓存按模型隔离。你在 Opus 上积累了 10 万 Token 的缓存,切到 Sonnet 问个简单问题,Sonnet 要从零建立自己的缓存。需要用轻量模型的场景,用子智能体而非切换主模型。

三、精简 CLAUDE.md,控制技能数量

CLAUDE.md 的内容会注入到每一次请求里。官方建议控制在 200 行以内,只保留真正长期有效的规则。技能也不是越多越好,没在用的 MCP 服务也记得关掉。

一个小技巧:在 CLAUDE.md 里用 HTML 注释写维护者备注,Claude 注入上下文前会把注释剥掉,不花 Token。

四、命令行优先,MCP 其次

GitHub 的 gh 命令行工具比 GitHub MCP 服务器消耗的 Token 少得多。能用命令行解决的事,别装 MCP。

五、先花一点 Token 做计划

复杂任务先进入计划模式,让 Claude 先探索代码、提出方案,再进入实施。真正昂贵的是方向错了以后重扫代码、重写实现、重跑测试。

六、用 permissions.deny 限制阅读范围

在 .claude/settings.json 中用 permissions.deny 严格限制模型可读取的范围:

{
  "permissions": {
    "deny": [
      "Read(./.env)",
      "Read(./.env.)",
      "Read(./secrets/)",
      "Read(./node_modules/)",
      "Read(./build)"
    ]
  }
}

从源头减少不必要的文件读取,避免 Token 浪费

委派任务减少主会话消耗

子智能体:Claude Code 的子智能体有独立上下文,完成后只返回简短摘要给主会话。代码审查、跑测试、查文档这些工作的详细输出不会留在主会话里,后续每条消息都不用为这些内容付费。

Codex 插件:如果你同时有 OpenAI 订阅,社区里有人用以下命令把部分任务分出去:

claude mcp add codex -- npx -y @openai/codex-plugin-cc

适合委派的:结构化的 bug 修复、代码审查、写测试。留给 Claude Code 的:架构设计、跨文件重构、需要理解整个代码库的复杂工作。

总结

省 Token 的核心思路就一句话:让缓存尽可能多地被命中,让上下文尽可能少地装无关内容。

开新会话是手段,理解了提示缓存之后你会发现,"在活跃会话里继续工作"才是默认策略,"开新会话"是特定条件触发的优化操作。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI教程
提示缓存:省 Token 的核心三个反直觉的省钱策略缓存还热的时候,继续聊比开新会话便宜复杂任务一次做对,比来回改三轮更省长内容给路径,别往对话里贴继续聊还是开新会话:一张决策表1M 上下文窗口:慎用六条核心操作规则一、用 Sonnet 做日常工作二、别在会话中间换模型三、精简 CLAUDE.md,控制技能数量四、命令行优先,MCP 其次五、先花一点 Token 做计划六、用 permissions.deny 限制阅读范围委派任务减少主会话消耗总结

相关文章

用 CLAUDE.md 规则体系让 Agent 高效协作
AI教程

用 CLAUDE.md 规则体系让 Agent 高效协作

通过全局和项目级 CLAUDE.md 文件建立约束体系,让 Claude Code 等 Agent 工具在开发项目中保持一致的行为规范和代码质量。

avatar for toolin小编
toolin小编
1天前
Chrome上线Gemini Skills:提示词一键复用
AI产品

Chrome上线Gemini Skills:提示词一键复用

谷歌Chrome推出Gemini Skills功能,可一键保存复用提示词,内置50+现成技能,支持多标签页读取与跨设备同步,完全免费。

avatar for toolin小编
toolin小编
1天前
阿里Meoo秒悟:零代码AI开发工具实测
AI产品

阿里Meoo秒悟:零代码AI开发工具实测

阿里ATH事业群发布首款AI开发工具Meoo,支持自然语言生成完整可部署项目,集成千问/Kimi/GLM/MiniMax四大模型,免费用户每月5000积分。

avatar for toolin小编
toolin小编
1天前