GLM-5.1高速版本发布,输出速度每秒可达 400 tokens

GLM-5.1-HighSpeed 是智谱 GLM-5.1 的高速版本,模型名是 glm-5.1-highspeed。它不是一个为了跑得快而缩小能力的轻量模型,而是在保留 GLM-5.1 综合能力和 Coding 能力的基础上,把推理速度和响应延迟做了专门优化。

官方给出的核心数字是:输出速度可达 400 tokens/s。这个速度主要面向实时交互场景,比如 Coding Agent、交互式应用生成、实时工具调用、实时语音和商业决策辅助。简单说,它适合那种“慢一秒都影响体验”的应用。

GLM-5.1高速版本发布,输出速度每秒可达 400 tokens

主要参数

根据智谱官方文档:

模型定位 高速旗舰模型
输入模态 文本
输出模态 文本
上下文窗口 200K
最大输出 Tokens 128K
输出速度 400 tokens/s
开放范围 智谱 BigModel 开放平台部分企业客户定向开放

价格方面,参考的两个链接里没有给出明确单价。能确认的是:它目前不是面向所有用户公开开放的通用模型,而是面向部分企业客户提供。

它快在哪里

GLM-5.1-HighSpeed 的提速不是只靠换更小模型。官方说它在三个层面做了优化:

  1. 推理引擎层:针对 GLM-5.1 的架构重写核心推理路径,提高单卡吞吐。
  2. 调度系统层:用动态批处理、请求合并、KV 缓存调度优化,降低高并发时的尾延迟。
  3. 基础设施层:围绕推理集群、网络链路和负载均衡做协同优化,让 400 tokens/s 更接近生产可用能力,而不是实验室峰值。

IT之家的报道里还提到 TileRT 的思路:把运行时的动态调度尽量前移到编译期,用常驻 GPU 的 persistent Engine Kernel 来减少 host 调度、访存和同步开销。这个细节对普通用户不一定重要,但它解释了为什么这个版本强调“系统级优化”,而不只是参数层面的升级。

适合什么场景

GLM-5.1-HighSpeed 最适合低延迟、高频调用的任务。

比如 Coding Agent。复杂编程任务通常不是一次调用就结束,而是拆成多轮:读代码、规划、改文件、跑测试、继续修。每一轮慢一点,整条链路就会明显变慢。400 tokens/s 的意义就在这里,它能让 Agent 更像实时协作工具,而不是一个需要不断等待的后台服务。

它也适合实时语音、在线客服、交互式产品原型生成、实时数据分析和工具调用密集型应用。只要你的产品体验依赖“马上有反馈”,这个模型就有价值。

和 GLM-5.1 的关系

可以把 GLM-5.1-HighSpeed 理解成 GLM-5.1 的低延迟版本。

它的重点不是替代普通版 GLM-5.1,而是服务不同场景:普通版更像标准旗舰模型,高速版则把响应速度放到更高优先级,同时尽量保留旗舰模型的综合能力和 Coding 能力。官方的说法是,它面向实时 Coding 与 Agent 交互。

一句话总结

GLM-5.1-HighSpeed 是智谱把 GLM-5.1 做成“高速生产版”的一次尝试:200K 上下文、128K 最大输出、400 tokens/s 输出速度,主要给企业客户做低延迟 Agent、AI 编程和实时交互应用。它真正值得关注的地方,不是又多了一个模型名,而是旗舰级模型开始朝“能实时协作”这个方向靠近。