大模型的"命中率"到底是什么?它决定了 API 的实际费用

如果你用过国产大模型的 API,账单上大概见过一个词:缓存命中率。很多人只看模型的"标价"——输入多少钱一百万 Token,输出多少钱一百万 Token——然后发现实际费用和预期差了好几倍。问题就出在命中率上。

命中率是怎么回事

大模型处理你的请求时,需要先做一次"预填充"(Prefill)——把整个 Prompt 过一遍,计算出注意力所需的 KV 缓存。这一步计算量很大,尤其是当你的 Prompt 包含长系统指令、大量参考文档或者代码库的时候。

但如果你下次发送的请求,前缀和之前一样(比如同样的系统提示词、同样的上下文模板,只是用户问题变了),服务器可以跳过重复计算,直接复用之前算好的 KV 缓存。命中了缓存的部分,按折扣价计费。

命中率就是你请求中命中缓存的 Token 占总输入 Token 的比例。

举个例子。你发了一条 10,000 Token 的请求,其中 9,000 Token 的系统提示词和上下文之前已经处理过。这 9,000 Token 走缓存价,剩下 1,000 Token 走全价。你的命中率就是 90%。

它和价格的关系比你想象的大

各家大模型对缓存命中部分的定价差异很大。Anthropic 最激进,缓存部分是原价的 1 折。OpenAI 保守一些,给 5 折。国产模型里,DeepSeek 的缓存命中价是原价的 1/10,GLM-5.1 大约 1.8 折。

这意味着什么?0% 命中率和 90% 命中率,实际输入成本可以相差 3 到 5 倍。

我算一笔账。假设某模型标准输入价 1 元/M Token,缓存命中价 0.1 元/M Token:

  • 命中率 0%:每次输入 1 元/M Token
  • 命中率 50%:每次输入 0.55 元/M Token(省了 45%)
  • 命中率 90%:每次输入 0.19 元/M Token(省了 81%)

这就是为什么有些人用同一个模型,成本只有别人的几分之一。他们的 Prompt 结构做得好,命中率打满了。

注意:第一次请求(冷启动)一定是不命中缓存的,要付全价。命中率是靠重复请求累积起来的。

怎么提高命中率

核心原则只有一个:固定的东西放前面,变化的东西放后面。

你的系统提示词、指令模板、参考文档、代码库——这些内容通常不会每次请求都变。把它们放在 Prompt 的开头。用户的实际问题、变量参数这些每次都不同的内容,放在最后。这样即使问题在变,前面大段的 KV 缓存仍然可以复用。

阿里云的百炼平台支持设置最多 4 个缓存标记,可以给 Prompt 的不同部分分别创建缓存块。火山引擎的 Coding Plan 也提供类似的精细化控制。

不过别指望 100% 命中。缓存有生命周期(TTL),长时间不用的会被清理掉。高并发的时候,缓存也可能被挤出去。各厂商的清理策略不透明,命中率可能突然掉下来,成本就跟着涨。

国产四大旗舰模型的命中率定价对比

2026 年二季度,四家国产大模型集中更新。我整理了它们最新的缓存定价数据:

DeepSeek V4(2026-04-24)

继续扮演"价格屠夫"的角色。V4 系列分两个版本:

  • V4-Pro:总参数 1.6T,激活 49B
  • V4-Flash:总参数 284B,激活 13B

两个版本都支持 100 万 Token 上下文。V4-Flash 的缓存命中价低至 ¥0.02/M Token,几乎是白送。V4-Pro 的缓存命中价是 ¥1.00/M Token。4 月 25 日起 V4-Pro 还开了限时 2.5 折。实测下来,DeepSeek 的缓存命中率极高,实际成本远低于标价。

GLM-5.1 智谱(2026-03-27)

约 754B 参数(MoE 架构),202K 上下文。四家里最实在的是它把缓存折扣写在了明面上:

  标准价 缓存命中价 折扣
输入 $1.40/M $0.26/M ~1.8 折
输出 $4.40/M - -

缓存命中部分约为标准输入价的 1.8 折,是四家中唯一明确公开缓存折扣比例的。GLM-5.1 还验证了 8 小时持续自主工作的能力,SWE-BenchPro 得分 58.4,超过了 Claude Opus 4.6。

Kimi K2.6 月之暗面(2026-04-20)

1T 总参数、32B 激活参数(MoE),256K 上下文。K2.6 的 API 定价比 K2.5 涨了 58%——输入从 $0.60/M 涨到 $0.95/M,输出从 $3.00/M 涨到 $4.00/M。涨是涨了,但在各家里绝对值还是偏低的。

Kimi 的优势不在单价,在于它的 Mooncake 架构实测能做到 93.7% 的缓存命中率(基于 K2.5 的公开数据)。算下来实际输入成本约为标价的 2.6 折。SWE-BenchPro 上超越了 GPT-5.4 和 Claude Opus 4.6,还能不间断编码 13 小时。

Qwen 3.7-Max 阿里(2026-05-20)

5 月 20 日阿里云峰会刚发布,万亿参数旗舰。Arena AI 盲测国产第一(全球第 13),能自主完成 35 小时超长任务。API 即将上线百炼平台,具体的缓存定价还没公布。参考前代 Qwen 3.6 Plus 约 ¥2/M Token 的水平,估计不会偏离太远。值得关注的是发布后有没有新品优惠。

四家汇总表

模型 参数量 上下文 标准输入 缓存命中价 缓存折扣
DeepSeek V4-Pro 1.6T/49B 1M 限时2.5折 ¥1.00/M ~1折
DeepSeek V4-Flash 284B/13B 1M - ¥0.02/M 极低
GLM-5.1 754B MoE 202K $1.40/M $0.26/M ~1.8折
Kimi K2.6 1T/32B 256K $0.95/M 未公布 实测93.7%命中
Qwen 3.7-Max 万亿级 1M 待公布 待公布 待公布

说句实在话

选模型别光看标价。DeepSeek 的标价已经够低了,再配上超高命中率,实际成本可以低到你不敢相信。GLM-5.1 的缓存折扣透明,适合能预测重复请求的场景。Kimi 靠 Mooncake 架构把命中率拉到 93.7%,实际均价是标价的 2.6 折。Qwen 3.7 刚发布,缓存政策还没出来,但阿里一贯走性价比路线,应该不会差。

真正能省钱的操作,是把你的 Prompt 设计好。固定前缀,可变后缀。这比纠结选哪家模型更直接有效。