MiMo-V2.5-Pro UltraSpeed 跑到 1000 tokens/s，获取申请试用地址_AI资讯

小米在6月8日发了一个东西：MiMo-V2.5-Pro UltraSpeed。跟推理系统团队TileRT合作，在万亿参数（1T）的模型上把生成速度推到了1000 tokens/s，峰值能到1200。

这个数字意味着什么？你跟它对话，它回你的速度比你打字还快。你让它写一个贪吃蛇游戏，10秒出完整代码。你让它复刻一个macOS界面，1分钟搞定。

MiMo-V2.5-Pro UltraSpeed 跑到 1000 tokens/s，获取申请试用地址

快到一定程度，用法会变

如果只是"更快的打字机"，那不值得单独写一篇文章。1000 tps有意思的地方在于，快到一定程度之后，AI的用法会变。

以前你问模型一个难题，它想半天给你一个答案，对不对全靠运气。现在同样的时间里，模型可以同时跑几十条推理路径，自己验证，自己纠错，最后把最好的那个给你。速度变成了思考深度的杠杆，跑得越快，想得越深。

小米自己演示了两个demo：10秒搭一个贪吃蛇游戏，1分钟复刻一个macOS界面。代码不是一段段蹦出来的，是整屏整屏地刷。开发者的体验从"等AI"变成了"跟AI实时协作"。

具体谁会用

1. 用AI写代码的开发者

如果你用Claude Code、Cursor、Copilot这类工具，你一定体验过这种痛苦：写一个复杂函数，AI生成到一半你已经想好下一步了，但它还在慢慢吐。你只能干等着，思路断了。

1000 tps下这个问题基本消失。代码生成速度跟得上你的思考节奏。写一个完整的React组件，从等十几秒变成两三秒。写一个后端API，从等半分钟变成几秒钟。一天下来省的时间很可观。

而且不只是"快"。速度快了之后，AI可以在相同时间里做更多验证。比如你让它写一段排序算法，以前它给你一个版本你就得自己去测。现在它可以在生成的同时跑多个版本，自动挑性能最好的那个给你。

2. 做AI产品的团队

如果你在做AI客服、AI助手、AI销售这类面向用户的产品，延迟是用户留存的生死线。

研究反复证明，用户对对话式AI的忍耐极限大概在2秒。超过2秒，用户会觉得"这个AI很笨"，即使它最终给出了正确答案。200 tps的模型，生成一段100字的回复大概要5-8秒，用户早就走了。1000 tps同样长度的回复只要1-2秒，体感完全不同。

具体场景：

AI客服。用户问"我的订单什么时候到"，2秒内给出物流信息和预计到达时间。以前要做到这点只能用小模型或者预设模板，现在万亿参数模型也能实时回。

AI销售。用户在浏览商品页面，AI助手实时回答问题、推荐搭配、处理异议。响应速度直接决定转化率。

AI会议助手。实时转录、实时翻译、实时生成摘要。以前这些功能要么延迟高，要么用小模型质量差。1000 tps让大模型也能实时参与会议。

3. 需要实时决策的业务

有些场景不是"等得起等不起"的问题，是"慢一秒就亏钱"。

量化交易。高频策略需要毫秒级响应，模型要在极短时间内分析市场信号并输出交易决策。以前只能用规则引擎或者小模型，大模型太慢。1000 tps让万亿参数模型第一次有机会进入这个领域。

实时反欺诈。用户刷卡的瞬间，系统要判断这笔交易是否有风险。以前的方案是规则引擎+小模型级联，漏检率高。现在可以直接用大模型做判断，准确率和速度都能兼顾。

智能竞价。广告实时竞价的窗口通常在100毫秒以内，模型要在这个时间内完成用户画像分析、出价策略计算和创意匹配。1000 tps让这个流程有可能用大模型来跑。

4. 复杂推理任务

数学证明、逻辑推理、代码审查这类任务，答案的质量取决于模型"想"了多少遍。

以前你只能等模型慢慢想一个答案。现在1000 tps下，同样的时间模型可以跑几十条推理路径，每条路径独立验证，最后把最靠谱的那个给你。这叫Best-of-N或者Tree Search，以前受限于速度做不了，现在可以了。

举个例子：一道复杂数学题，以前模型花10秒想出一个答案，对的概率60%。现在同样10秒，模型跑了30条路径，互相验证，对的概率能拉到90%以上。速度直接转化成了智能。

怎么用

方式一：API接入（适合企业和开发者）

这是正经拿来用的路子。

去platform.xiaomimimo.com/ultraspeed提交申请。需要填企业信息、开发者信息、业务场景说明。小米会优先审批有真实业务需求的企业和开发者，纯好奇尝鲜的可能排不上。

审批通过后拿到API key，接口跟标准MiMo API兼容，改一下endpoint就能用。价格是MiMo-V2.5-Pro的3倍，但输出速度是10倍，算下来每个有效token的成本反而更低。

注意：Token Plan（按量计费套餐）不支持UltraSpeed，只有API调用方式。

方式二：在线体验（适合尝鲜）

想先感受一下"万亿参数模型秒回"是什么体验，去ultraspeed.xiaomimimo.com。

试用期内免费。但有限制：每个账号每天最多排队10次，每次对话最长30分钟，闲置超过5分钟自动断开。毕竟高速推理资源有限，不可能无限敞开用。

适合的场景：试试让它写个复杂点的代码，感受一下生成速度。或者问它一个需要多步推理的问题，看看它是不是真的比普通模型想得更深。

方式三：本地部署（适合有GPU资源的团队）

小米已经在HuggingFace上开源了MiMo-V2.5-Pro-FP4-DFlash的checkpoint，地址是huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash。

包含FP4量化权重和DFlash模型参数。但推理环境需要自己搭，TileRT的推理引擎目前没有开源，所以本地部署的速度达不到1000 tps。适合做研究或者二次开发。

怎么做到的

行业里跑到这种速度的，通常靠专用硬件。Cerebras用晶圆级芯片，Groq用纯片上SRAM自研架构。小米和TileRT走了一条不同的路：不用专用硬件，单台8卡标准GPU节点，靠模型和系统的深度协同设计来压榨性能。

三个关键技术：

第一个是FP4量化。万亿参数模型用FP16或FP8跑，显存和带宽压力巨大。MiMo的做法是只对MoE架构里的Experts做FP4量化，其他模块保持原始精度。Experts占了参数的大头，对量化的容忍度最高。量化后再做一轮QAT（量化感知训练），能力基本不掉。

第二个是DFlash投机解码。传统投机解码是用一个小模型猜token，大模型验证。问题是小模型质量决定了接受率，质量高的小模型又太贵。DFlash换了个思路：不用小模型一个个猜，而是用块级掩码并行预测，一次前向传播填一整块token。Coding场景下平均接受长度6.30，每轮验证8个token能接受6到7个。

第三个是TileRT推理引擎。传统推理系统每个算子都要启动、同步、读写全局内存，在1000 tps的频率下，这些"算子边界"变成了瓶颈。TileRT的做法是让整个计算流水线常驻GPU不退出，当前tile还在Tensor Core上算，下一批数据已经在内存层级里流动了。数据搬运和计算完全重叠，执行间隙被干掉了。

三个技术叠在一起，结果就是：标准8卡节点，万亿参数模型，1000+ tokens/s。

怎么做到的

三个关键技术：

三个技术叠在一起，结果就是：标准8卡节点，万亿参数模型，1000+ tokens/s。

时间窗口和注意事项

试用期只有两周：6月9日到6月23日，北京时间23:59截止。过了就恢复常规。

几个要注意的事：

名额有限，申请了不一定过。小米明确说了"会优先有真实业务需求的企业和开发者"。如果你只是个人开发者想体验一下，走在线Chat那条路更靠谱。

API价格是MiMo-V2.5-Pro的3倍。但考虑到速度是10倍，实际每个有效token的成本是降了的。不过如果你的场景不需要那么快，用标准版更划算。

MiMo-V2.5的UltraSpeed支持还没上线，小米说"即将"。V2.5系列的参数规模比V2.5-Pro小，速度提升的效果可能会更明显。

不开源的那部分。小米开源了FP4和DFlash的模型权重，但TileRT推理引擎没有开源。所以本地部署跑不到1000 tps，想要那个速度只能用小米的API。

想体验的现在就去申请或者直接上Chat入口。不急的等正式版。

MiMo-V2.5-Pro UltraSpeed 跑到 1000 tokens/s，获取申请试用地址

快到一定程度，用法会变

具体谁会用

1. 用AI写代码的开发者

2. 做AI产品的团队

3. 需要实时决策的业务

4. 复杂推理任务

怎么用

方式一：API接入（适合企业和开发者）

方式二：在线体验（适合尝鲜）

方式三：本地部署（适合有GPU资源的团队）

怎么做到的

怎么做到的

时间窗口和注意事项

相关推荐