MiMo-V2.5-Pro UltraSpeed 跑到 1000 tokens/s,获取申请试用地址

小米在6月8日发了一个东西:MiMo-V2.5-Pro UltraSpeed。跟推理系统团队TileRT合作,在万亿参数(1T)的模型上把生成速度推到了1000 tokens/s,峰值能到1200。

这个数字意味着什么?你跟它对话,它回你的速度比你打字还快。你让它写一个贪吃蛇游戏,10秒出完整代码。你让它复刻一个macOS界面,1分钟搞定。

MiMo-V2.5-Pro UltraSpeed 跑到 1000 tokens/s,获取申请试用地址

快到一定程度,用法会变

如果只是"更快的打字机",那不值得单独写一篇文章。1000 tps有意思的地方在于,快到一定程度之后,AI的用法会变。

以前你问模型一个难题,它想半天给你一个答案,对不对全靠运气。现在同样的时间里,模型可以同时跑几十条推理路径,自己验证,自己纠错,最后把最好的那个给你。速度变成了思考深度的杠杆,跑得越快,想得越深。

小米自己演示了两个demo:10秒搭一个贪吃蛇游戏,1分钟复刻一个macOS界面。代码不是一段段蹦出来的,是整屏整屏地刷。开发者的体验从"等AI"变成了"跟AI实时协作"。

具体谁会用

1. 用AI写代码的开发者

如果你用Claude Code、Cursor、Copilot这类工具,你一定体验过这种痛苦:写一个复杂函数,AI生成到一半你已经想好下一步了,但它还在慢慢吐。你只能干等着,思路断了。

1000 tps下这个问题基本消失。代码生成速度跟得上你的思考节奏。写一个完整的React组件,从等十几秒变成两三秒。写一个后端API,从等半分钟变成几秒钟。一天下来省的时间很可观。

而且不只是"快"。速度快了之后,AI可以在相同时间里做更多验证。比如你让它写一段排序算法,以前它给你一个版本你就得自己去测。现在它可以在生成的同时跑多个版本,自动挑性能最好的那个给你。

2. 做AI产品的团队

如果你在做AI客服、AI助手、AI销售这类面向用户的产品,延迟是用户留存的生死线。

研究反复证明,用户对对话式AI的忍耐极限大概在2秒。超过2秒,用户会觉得"这个AI很笨",即使它最终给出了正确答案。200 tps的模型,生成一段100字的回复大概要5-8秒,用户早就走了。1000 tps同样长度的回复只要1-2秒,体感完全不同。

具体场景:

AI客服。用户问"我的订单什么时候到",2秒内给出物流信息和预计到达时间。以前要做到这点只能用小模型或者预设模板,现在万亿参数模型也能实时回。

AI销售。用户在浏览商品页面,AI助手实时回答问题、推荐搭配、处理异议。响应速度直接决定转化率。

AI会议助手。实时转录、实时翻译、实时生成摘要。以前这些功能要么延迟高,要么用小模型质量差。1000 tps让大模型也能实时参与会议。

3. 需要实时决策的业务

有些场景不是"等得起等不起"的问题,是"慢一秒就亏钱"。

量化交易。高频策略需要毫秒级响应,模型要在极短时间内分析市场信号并输出交易决策。以前只能用规则引擎或者小模型,大模型太慢。1000 tps让万亿参数模型第一次有机会进入这个领域。

实时反欺诈。用户刷卡的瞬间,系统要判断这笔交易是否有风险。以前的方案是规则引擎+小模型级联,漏检率高。现在可以直接用大模型做判断,准确率和速度都能兼顾。

智能竞价。广告实时竞价的窗口通常在100毫秒以内,模型要在这个时间内完成用户画像分析、出价策略计算和创意匹配。1000 tps让这个流程有可能用大模型来跑。

4. 复杂推理任务

数学证明、逻辑推理、代码审查这类任务,答案的质量取决于模型"想"了多少遍。

以前你只能等模型慢慢想一个答案。现在1000 tps下,同样的时间模型可以跑几十条推理路径,每条路径独立验证,最后把最靠谱的那个给你。这叫Best-of-N或者Tree Search,以前受限于速度做不了,现在可以了。

举个例子:一道复杂数学题,以前模型花10秒想出一个答案,对的概率60%。现在同样10秒,模型跑了30条路径,互相验证,对的概率能拉到90%以上。速度直接转化成了智能。

怎么用

方式一:API接入(适合企业和开发者)

这是正经拿来用的路子。

去platform.xiaomimimo.com/ultraspeed提交申请。需要填企业信息、开发者信息、业务场景说明。小米会优先审批有真实业务需求的企业和开发者,纯好奇尝鲜的可能排不上。

审批通过后拿到API key,接口跟标准MiMo API兼容,改一下endpoint就能用。价格是MiMo-V2.5-Pro的3倍,但输出速度是10倍,算下来每个有效token的成本反而更低。

注意:Token Plan(按量计费套餐)不支持UltraSpeed,只有API调用方式。

方式二:在线体验(适合尝鲜)

想先感受一下"万亿参数模型秒回"是什么体验,去ultraspeed.xiaomimimo.com。

试用期内免费。但有限制:每个账号每天最多排队10次,每次对话最长30分钟,闲置超过5分钟自动断开。毕竟高速推理资源有限,不可能无限敞开用。

适合的场景:试试让它写个复杂点的代码,感受一下生成速度。或者问它一个需要多步推理的问题,看看它是不是真的比普通模型想得更深。

方式三:本地部署(适合有GPU资源的团队)

小米已经在HuggingFace上开源了MiMo-V2.5-Pro-FP4-DFlash的checkpoint,地址是huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash。

包含FP4量化权重和DFlash模型参数。但推理环境需要自己搭,TileRT的推理引擎目前没有开源,所以本地部署的速度达不到1000 tps。适合做研究或者二次开发。

怎么做到的

行业里跑到这种速度的,通常靠专用硬件。Cerebras用晶圆级芯片,Groq用纯片上SRAM自研架构。小米和TileRT走了一条不同的路:不用专用硬件,单台8卡标准GPU节点,靠模型和系统的深度协同设计来压榨性能。

三个关键技术:

第一个是FP4量化。万亿参数模型用FP16或FP8跑,显存和带宽压力巨大。MiMo的做法是只对MoE架构里的Experts做FP4量化,其他模块保持原始精度。Experts占了参数的大头,对量化的容忍度最高。量化后再做一轮QAT(量化感知训练),能力基本不掉。

第二个是DFlash投机解码。传统投机解码是用一个小模型猜token,大模型验证。问题是小模型质量决定了接受率,质量高的小模型又太贵。DFlash换了个思路:不用小模型一个个猜,而是用块级掩码并行预测,一次前向传播填一整块token。Coding场景下平均接受长度6.30,每轮验证8个token能接受6到7个。

第三个是TileRT推理引擎。传统推理系统每个算子都要启动、同步、读写全局内存,在1000 tps的频率下,这些"算子边界"变成了瓶颈。TileRT的做法是让整个计算流水线常驻GPU不退出,当前tile还在Tensor Core上算,下一批数据已经在内存层级里流动了。数据搬运和计算完全重叠,执行间隙被干掉了。

三个技术叠在一起,结果就是:标准8卡节点,万亿参数模型,1000+ tokens/s。

怎么做到的

行业里跑到这种速度的,通常靠专用硬件。Cerebras用晶圆级芯片,Groq用纯片上SRAM自研架构。小米和TileRT走了一条不同的路:不用专用硬件,单台8卡标准GPU节点,靠模型和系统的深度协同设计来压榨性能。

三个关键技术:

第一个是FP4量化。万亿参数模型用FP16或FP8跑,显存和带宽压力巨大。MiMo的做法是只对MoE架构里的Experts做FP4量化,其他模块保持原始精度。Experts占了参数的大头,对量化的容忍度最高。量化后再做一轮QAT(量化感知训练),能力基本不掉。

第二个是DFlash投机解码。传统投机解码是用一个小模型猜token,大模型验证。问题是小模型质量决定了接受率,质量高的小模型又太贵。DFlash换了个思路:不用小模型一个个猜,而是用块级掩码并行预测,一次前向传播填一整块token。Coding场景下平均接受长度6.30,每轮验证8个token能接受6到7个。

第三个是TileRT推理引擎。传统推理系统每个算子都要启动、同步、读写全局内存,在1000 tps的频率下,这些"算子边界"变成了瓶颈。TileRT的做法是让整个计算流水线常驻GPU不退出,当前tile还在Tensor Core上算,下一批数据已经在内存层级里流动了。数据搬运和计算完全重叠,执行间隙被干掉了。

三个技术叠在一起,结果就是:标准8卡节点,万亿参数模型,1000+ tokens/s。

时间窗口和注意事项

试用期只有两周:6月9日到6月23日,北京时间23:59截止。过了就恢复常规。

几个要注意的事:

名额有限,申请了不一定过。小米明确说了"会优先有真实业务需求的企业和开发者"。如果你只是个人开发者想体验一下,走在线Chat那条路更靠谱。

API价格是MiMo-V2.5-Pro的3倍。但考虑到速度是10倍,实际每个有效token的成本是降了的。不过如果你的场景不需要那么快,用标准版更划算。

MiMo-V2.5的UltraSpeed支持还没上线,小米说"即将"。V2.5系列的参数规模比V2.5-Pro小,速度提升的效果可能会更明显。

不开源的那部分。小米开源了FP4和DFlash的模型权重,但TileRT推理引擎没有开源。所以本地部署跑不到1000 tps,想要那个速度只能用小米的API。

想体验的现在就去申请或者直接上Chat入口。不急的等正式版。