如果你用过国产大模型的 API,账单上大概见过一个词:缓存命中率。很多人只看模型的"标价"——输入多少钱一百万 Token,输出多少钱一百万 Token——然后发现实际费用和预期差了好几倍。问题就出在命中率上。
命中率是怎么回事
大模型处理你的请求时,需要先做一次"预填充"(Prefill)——把整个 Prompt 过一遍,计算出注意力所需的 KV 缓存。这一步计算量很大,尤其是当你的 Prompt 包含长系统指令、大量参考文档或者代码库的时候。
但如果你下次发送的请求,前缀和之前一样(比如同样的系统提示词、同样的上下文模板,只是用户问题变了),服务器可以跳过重复计算,直接复用之前算好的 KV 缓存。命中了缓存的部分,按折扣价计费。
命中率就是你请求中命中缓存的 Token 占总输入 Token 的比例。
举个例子。你发了一条 10,000 Token 的请求,其中 9,000 Token 的系统提示词和上下文之前已经处理过。这 9,000 Token 走缓存价,剩下 1,000 Token 走全价。你的命中率就是 90%。
它和价格的关系比你想象的大
各家大模型对缓存命中部分的定价差异很大。Anthropic 最激进,缓存部分是原价的 1 折。OpenAI 保守一些,给 5 折。国产模型里,DeepSeek 的缓存命中价是原价的 1/10,GLM-5.1 大约 1.8 折。
这意味着什么?0% 命中率和 90% 命中率,实际输入成本可以相差 3 到 5 倍。
我算一笔账。假设某模型标准输入价 1 元/M Token,缓存命中价 0.1 元/M Token:
- 命中率 0%:每次输入 1 元/M Token
- 命中率 50%:每次输入 0.55 元/M Token(省了 45%)
- 命中率 90%:每次输入 0.19 元/M Token(省了 81%)
这就是为什么有些人用同一个模型,成本只有别人的几分之一。他们的 Prompt 结构做得好,命中率打满了。
怎么提高命中率
核心原则只有一个:固定的东西放前面,变化的东西放后面。
你的系统提示词、指令模板、参考文档、代码库——这些内容通常不会每次请求都变。把它们放在 Prompt 的开头。用户的实际问题、变量参数这些每次都不同的内容,放在最后。这样即使问题在变,前面大段的 KV 缓存仍然可以复用。
阿里云的百炼平台支持设置最多 4 个缓存标记,可以给 Prompt 的不同部分分别创建缓存块。火山引擎的 Coding Plan 也提供类似的精细化控制。
不过别指望 100% 命中。缓存有生命周期(TTL),长时间不用的会被清理掉。高并发的时候,缓存也可能被挤出去。各厂商的清理策略不透明,命中率可能突然掉下来,成本就跟着涨。
国产四大旗舰模型的命中率定价对比
2026 年二季度,四家国产大模型集中更新。我整理了它们最新的缓存定价数据:
DeepSeek V4(2026-04-24)
继续扮演"价格屠夫"的角色。V4 系列分两个版本:
- V4-Pro:总参数 1.6T,激活 49B
- V4-Flash:总参数 284B,激活 13B
两个版本都支持 100 万 Token 上下文。V4-Flash 的缓存命中价低至 ¥0.02/M Token,几乎是白送。V4-Pro 的缓存命中价是 ¥1.00/M Token。4 月 25 日起 V4-Pro 还开了限时 2.5 折。实测下来,DeepSeek 的缓存命中率极高,实际成本远低于标价。
GLM-5.1 智谱(2026-03-27)
约 754B 参数(MoE 架构),202K 上下文。四家里最实在的是它把缓存折扣写在了明面上:
| 标准价 | 缓存命中价 | 折扣 | |
|---|---|---|---|
| 输入 | $1.40/M | $0.26/M | ~1.8 折 |
| 输出 | $4.40/M | - | - |
缓存命中部分约为标准输入价的 1.8 折,是四家中唯一明确公开缓存折扣比例的。GLM-5.1 还验证了 8 小时持续自主工作的能力,SWE-BenchPro 得分 58.4,超过了 Claude Opus 4.6。
Kimi K2.6 月之暗面(2026-04-20)
1T 总参数、32B 激活参数(MoE),256K 上下文。K2.6 的 API 定价比 K2.5 涨了 58%——输入从 $0.60/M 涨到 $0.95/M,输出从 $3.00/M 涨到 $4.00/M。涨是涨了,但在各家里绝对值还是偏低的。
Kimi 的优势不在单价,在于它的 Mooncake 架构实测能做到 93.7% 的缓存命中率(基于 K2.5 的公开数据)。算下来实际输入成本约为标价的 2.6 折。SWE-BenchPro 上超越了 GPT-5.4 和 Claude Opus 4.6,还能不间断编码 13 小时。
Qwen 3.7-Max 阿里(2026-05-20)
5 月 20 日阿里云峰会刚发布,万亿参数旗舰。Arena AI 盲测国产第一(全球第 13),能自主完成 35 小时超长任务。API 即将上线百炼平台,具体的缓存定价还没公布。参考前代 Qwen 3.6 Plus 约 ¥2/M Token 的水平,估计不会偏离太远。值得关注的是发布后有没有新品优惠。
四家汇总表
| 模型 | 参数量 | 上下文 | 标准输入 | 缓存命中价 | 缓存折扣 |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | 1.6T/49B | 1M | 限时2.5折 | ¥1.00/M | ~1折 |
| DeepSeek V4-Flash | 284B/13B | 1M | - | ¥0.02/M | 极低 |
| GLM-5.1 | 754B MoE | 202K | $1.40/M | $0.26/M | ~1.8折 |
| Kimi K2.6 | 1T/32B | 256K | $0.95/M | 未公布 | 实测93.7%命中 |
| Qwen 3.7-Max | 万亿级 | 1M | 待公布 | 待公布 | 待公布 |
说句实在话
选模型别光看标价。DeepSeek 的标价已经够低了,再配上超高命中率,实际成本可以低到你不敢相信。GLM-5.1 的缓存折扣透明,适合能预测重复请求的场景。Kimi 靠 Mooncake 架构把命中率拉到 93.7%,实际均价是标价的 2.6 折。Qwen 3.7 刚发布,缓存政策还没出来,但阿里一贯走性价比路线,应该不会差。
真正能省钱的操作,是把你的 Prompt 设计好。固定前缀,可变后缀。这比纠结选哪家模型更直接有效。