大模型的"命中率"到底是什么？它决定了 API 的实际费用_综合开发

如果你用过国产大模型的 API，账单上大概见过一个词：缓存命中率。很多人只看模型的"标价"——输入多少钱一百万 Token，输出多少钱一百万 Token——然后发现实际费用和预期差了好几倍。问题就出在命中率上。

命中率是怎么回事

大模型处理你的请求时，需要先做一次"预填充"（Prefill）——把整个 Prompt 过一遍，计算出注意力所需的 KV 缓存。这一步计算量很大，尤其是当你的 Prompt 包含长系统指令、大量参考文档或者代码库的时候。

但如果你下次发送的请求，前缀和之前一样（比如同样的系统提示词、同样的上下文模板，只是用户问题变了），服务器可以跳过重复计算，直接复用之前算好的 KV 缓存。命中了缓存的部分，按折扣价计费。

命中率就是你请求中命中缓存的 Token 占总输入 Token 的比例。

举个例子。你发了一条 10,000 Token 的请求，其中 9,000 Token 的系统提示词和上下文之前已经处理过。这 9,000 Token 走缓存价，剩下 1,000 Token 走全价。你的命中率就是 90%。

它和价格的关系比你想象的大

各家大模型对缓存命中部分的定价差异很大。Anthropic 最激进，缓存部分是原价的 1 折。OpenAI 保守一些，给 5 折。国产模型里，DeepSeek 的缓存命中价是原价的 1/10，GLM-5.1 大约 1.8 折。

这意味着什么？0% 命中率和 90% 命中率，实际输入成本可以相差 3 到 5 倍。

我算一笔账。假设某模型标准输入价 1 元/M Token，缓存命中价 0.1 元/M Token：

命中率 0%：每次输入 1 元/M Token
命中率 50%：每次输入 0.55 元/M Token（省了 45%）
命中率 90%：每次输入 0.19 元/M Token（省了 81%）

这就是为什么有些人用同一个模型，成本只有别人的几分之一。他们的 Prompt 结构做得好，命中率打满了。

注意：第一次请求（冷启动）一定是不命中缓存的，要付全价。命中率是靠重复请求累积起来的。

怎么提高命中率

核心原则只有一个：固定的东西放前面，变化的东西放后面。

你的系统提示词、指令模板、参考文档、代码库——这些内容通常不会每次请求都变。把它们放在 Prompt 的开头。用户的实际问题、变量参数这些每次都不同的内容，放在最后。这样即使问题在变，前面大段的 KV 缓存仍然可以复用。

阿里云的百炼平台支持设置最多 4 个缓存标记，可以给 Prompt 的不同部分分别创建缓存块。火山引擎的 Coding Plan 也提供类似的精细化控制。

不过别指望 100% 命中。缓存有生命周期（TTL），长时间不用的会被清理掉。高并发的时候，缓存也可能被挤出去。各厂商的清理策略不透明，命中率可能突然掉下来，成本就跟着涨。

国产四大旗舰模型的命中率定价对比

2026 年二季度，四家国产大模型集中更新。我整理了它们最新的缓存定价数据：

DeepSeek V4（2026-04-24）

继续扮演"价格屠夫"的角色。V4 系列分两个版本：

V4-Pro：总参数 1.6T，激活 49B
V4-Flash：总参数 284B，激活 13B

两个版本都支持 100 万 Token 上下文。V4-Flash 的缓存命中价低至 ¥0.02/M Token，几乎是白送。V4-Pro 的缓存命中价是 ¥1.00/M Token。4 月 25 日起 V4-Pro 还开了限时 2.5 折。实测下来，DeepSeek 的缓存命中率极高，实际成本远低于标价。

GLM-5.1 智谱（2026-03-27）

约 754B 参数（MoE 架构），202K 上下文。四家里最实在的是它把缓存折扣写在了明面上：

	标准价	缓存命中价	折扣
输入	$1.40/M	$0.26/M	~1.8 折
输出	$4.40/M	-	-

缓存命中部分约为标准输入价的 1.8 折，是四家中唯一明确公开缓存折扣比例的。GLM-5.1 还验证了 8 小时持续自主工作的能力，SWE-BenchPro 得分 58.4，超过了 Claude Opus 4.6。

Kimi K2.6 月之暗面（2026-04-20）

1T 总参数、32B 激活参数（MoE），256K 上下文。K2.6 的 API 定价比 K2.5 涨了 58%——输入从 $0.60/M 涨到 $0.95/M，输出从 $3.00/M 涨到 $4.00/M。涨是涨了，但在各家里绝对值还是偏低的。

Kimi 的优势不在单价，在于它的 Mooncake 架构实测能做到 93.7% 的缓存命中率（基于 K2.5 的公开数据）。算下来实际输入成本约为标价的 2.6 折。SWE-BenchPro 上超越了 GPT-5.4 和 Claude Opus 4.6，还能不间断编码 13 小时。

Qwen 3.7-Max 阿里（2026-05-20）

5 月 20 日阿里云峰会刚发布，万亿参数旗舰。Arena AI 盲测国产第一（全球第 13），能自主完成 35 小时超长任务。API 即将上线百炼平台，具体的缓存定价还没公布。参考前代 Qwen 3.6 Plus 约 ¥2/M Token 的水平，估计不会偏离太远。值得关注的是发布后有没有新品优惠。

四家汇总表

模型	参数量	上下文	标准输入	缓存命中价	缓存折扣
DeepSeek V4-Pro	1.6T/49B	1M	限时2.5折	¥1.00/M	~1折
DeepSeek V4-Flash	284B/13B	1M	-	¥0.02/M	极低
GLM-5.1	754B MoE	202K	$1.40/M	$0.26/M	~1.8折
Kimi K2.6	1T/32B	256K	$0.95/M	未公布	实测93.7%命中
Qwen 3.7-Max	万亿级	1M	待公布	待公布	待公布

说句实在话

选模型别光看标价。DeepSeek 的标价已经够低了，再配上超高命中率，实际成本可以低到你不敢相信。GLM-5.1 的缓存折扣透明，适合能预测重复请求的场景。Kimi 靠 Mooncake 架构把命中率拉到 93.7%，实际均价是标价的 2.6 折。Qwen 3.7 刚发布，缓存政策还没出来，但阿里一贯走性价比路线，应该不会差。

真正能省钱的操作，是把你的 Prompt 设计好。固定前缀，可变后缀。这比纠结选哪家模型更直接有效。

大模型的"命中率"到底是什么？它决定了 API 的实际费用