世界模型是什么？2026年AI最被滥用的词，也是最被低估的技术_AI资讯

18个月，100亿美元。世界模型到底在炒概念，还是在造下一个 LLM？

从一个场景开始

一个机器人从没见过鞋带。没有人教它怎么解。但它伸出手，抓住鞋带，拉了一下，松开了。成功了。

因为它在脑海里"练习"过。

它看过成千上万小时人类双手操作的画面，学会了拉、拧、推时物体会怎么动，然后在动手之前先在脑子里想象结果。这个"脑海里的练习场"，就是世界模型。

不是用文字描述世界的语言模型，不是生成视频的画面生成器，而是对物理世界运行规律的建模。能预测接下来会发生什么，并根据预测采取行动。

"世界模型"这个词被用烂了

过去18个月，超过100亿美元砸进了"世界模型"这个赛道。Yann LeCun 离开 Meta 去建一个。Danijar Hafner（Dreamer 系列作者）离开 DeepMind 去商业化一个。NVIDIA 开源了一整套。OpenAI 关掉 Sora，声称转向"用于机器人的世界模拟"，然后项目负责人三周后离职了。

但大部分被称为"世界模型"的东西，根本不算。视频生成器、RL 梦境机器、抽象表征学习器、动作预测基础模型——全被塞进了同一个标签。

要搞清楚什么是真正的世界模型，得从两条独立发展了几十年的研究路线说起。它们在 2024 到 2025 年间合并了。

路线A：学会做梦（RL世界模型，1990-2025）

"智能体应该在脑子里建一个世界的内部模型"这个想法，比深度学习早得多。1943年 Kenneth Craik 就提出人大脑里装着现实的"小尺度模型"来预测事件。1990年 Schmidhuber 把它形式化为神经网络：智能体应该学习环境的不同模型并用它做规划。

这个想法沉寂了将近三十年。

路线A：学会做梦（RL世界模型，1990-2025）

2018年，David Ha 和 Schmidhuber 用一篇名为"World Models"的论文把它复活了。架构是三个模块：VAE 压缩像素为潜在向量，MDN-RNN 预测动态，一个小小的控制器完全在想象的推演中训练策略。智能体在自己的梦里训练，然后部署到现实。能跑赛车游戏，能打 VizDoom。概念验证成功了。

Danijar Hafner 花了六年沿着同一条路走。他的 Dreamer 系列从简单连续控制（V1）到人类级 Atari（V2）再到用同一套超参数跑 150 多个基准测试（V3，2025年发表在 Nature 上），包括从零开始在 Minecraft 里挖钻石。Dreamer 4 在 2025 年底把循环骨干换成了 Transformer，快了 25 倍。

DayDreamer（2022）把它放到了真机器人上：一个四足机器人在一小时内从零学会走路。

这条路线做对了一件事：学动态，想象未来，在想象中训练策略而不是在现实中烧钱。这就是今天所有视频世界模型继承的核心思想。

但它做不到一件事：跨环境泛化。Dreamer 能在一个 Atari 游戏上达到人类水平，但学下一个游戏得从头训练。模型太小（百万级参数），梦境是人类看不懂的抽象向量，而且需要数千集特定任务的训练。

想法对了。规模不对。

路线B：学会观看（2016-2025）

另一条平行发展的路线是从视频中学。经历了三个阶段：

第一阶段：视频预测用于规划（2016-2018）

训练一个模型预测执行某个动作后摄像头会看到什么，然后选那个预测未来最接近目标的动作。能完成简单的推动任务，但预测几帧就糊了。太短太模糊，做不了复杂操作。

第二阶段：从人类视频学表征（2020-2022）

思路变了：不直接预测视频，而是用人类视频学视觉表征，然后迁移到机器人任务。R3M（Nair 等，2022）是突破：用 Ego4D 上数千小时人类第一人称做饭、打扫、操作物体的视频预训练编码器。Franka 机械臂用 R3M 特征仅凭 20 次演示就学会了操作任务，所需数据量大幅减少。

OpenAI 的 VPT（2022）展示了互联网规模视频预训练对学行为有效：用 7 万小时 Minecraft YouTube 游戏视频预训练的模型，少量演示就能微调成有能力的智能体。这是第一个证明海量无标注视频可以启动复杂序列任务行为的系统。

第三阶段：视频生成规模化（2022-2024）

扩散模型应用在视频上带来了质的飞跃。Sora（2024年2月）是转折点——生成的画面似乎服从物理规律：物体下落、光线散射、镜头跟踪令人信服。但 Sora 不是交互式的。它用的是双向注意力：所有帧同时看到所有其他帧。你无法在中间注入动作。它是一部电影，不是一个游戏。

两条路线的汇合（2024-2025）

RL 那边有动作条件化但不能泛化。视频那边有规模和真实感但没有交互性。2024 到 2026 年间的一系列工作把两者连起来了。

两条路线的汇合（2024-2025）

Genie（DeepMind）引入了潜在动作模型：从未标注视频中学习交互式环境。模型看两帧连续画面，把"变化了什么"压缩成一个小向量，不需要任何人标注动作就能发现动作空间。Genie 1 是 160x90 分辨率、1 FPS 的概念验证。Genie 2 做到了 720p 逼真画面、10-60 秒一致性。Genie 3 达到 24 FPS、720p、持续数分钟一致性。

两个关键技术突破扫清了最后的障碍。AR-DiT / CausVid（CVPR 2025）让视频扩散模型变成自回归和因果的——不再一次性生成所有帧，而是逐帧生成，基于过去的帧和当前动作。Self Forcing（NeurIPS 2025）解决了速度问题，把 35 步去噪蒸馏到 4 步，首次实现通用视频模型的实时交互生成。

DreamGen（NVIDIA，2025年5月）展示了视频世界模型如何让机器人用极少的真实数据实现泛化。方法是：用少量真实机器人画面微调视频生成模型，然后用语言指令提示它生成机器人从未做过的任务的合成视频。一个逆动力学模型从这些合成视频中提取运动指令，无需远程操作就能产生训练数据。一个人形机器人在陌生环境中完成了 22 种新行为，只靠一次抓取演示。

高潮是 DreamDojo 和 DreamZero（NVIDIA，2026年2月）。DreamDojo 是一个视频基础模型，在 44,711 小时人类第一人称视频上预训练，通过学习到的潜在动作空间进行动作条件化，用 Self Forcing 蒸馏到实时，能以 r=0.995 的相关系数评估机器人策略。DreamZero 更进一步，在一次前向传播中同时预测未来视频和机器人电机动作。

做 RL 的人带来了动作条件和"做梦"的概念。做视频的人带来了逼真的生成和互联网规模的数据。结果在架构上继承自视频生成，在哲学上继承自 RL 世界模型。

什么才是真正的世界模型？五条标准

不是所有视频模型都算世界模型。Xun Huang（几个系统使用的自回归扩散架构的共同作者）提出了五条区分标准：

属性	说明	性质
因果性	时间只能向前流。双向视频生成违反这条	硬性约束
交互性	实时响应动作。没有这个就是电影不是模拟	硬性约束
持续性	长时间保持连贯。当前模型维持数秒，Genie 3 到数分钟	连续谱
实时性	足够快以用于应用。当前最优：10-30 FPS	连续谱
物理准确性	尊重真实世界物理规律	最难、最有争议

因果性和交互性是二元的。没有它们，就不算世界模型。剩下三条是连续谱——好坏之分，而不是有无之别。

世界模型到底能干什么？

从最成熟到最前瞻，五个应用场景：

自动驾驶模拟（最成熟）。Wayve（GAIA 世界模型，12 亿美元 D 轮）和 Waymo 都在用世界模型生成驾驶场景做测试。标准是能合成多样、真实的驾驶场景来压力测试自动驾驶策略。这个已经在生产中。

娱乐和游戏。Decart 的 Oasis 是一个完全由世界模型生成的可玩 Minecraft 式游戏，20 FPS，已经可以试玩。Genie 3 生成 24 FPS、720p 的可探索环境。GameNGen 在神经网络里跑 DOOM，20 FPS。xAI 宣布 2026 年底推出世界模型游戏（还没有 demo）。物理要求没那么高——玩家能接受一定不真实，只要体验好玩。但服务成本惊人：Genie 3 运行一小时大约 100 美元。

策略评估（机器人领域最清晰的近期价值）。DreamDojo 的预测和真实世界策略成功率之间的皮尔逊相关系数达到 r=0.995。这意味着你可以在世界模型里给 20 个候选策略排名，而不必做 20 次昂贵的真实实验，排名结果和现实几乎一致。世界模型变成了机器人行为的单元测试环境。

合成训练数据生成。DreamGen 让一个人形机器人用一次演示就能完成 22 种新行为。但研究者自己也承认提升是有限的——有一些增益，但不是领域期盼的那种跨越式飞跃。关键问题是：合成视频数据带来的信号，能不能超过更多远程操作数据或更好的数据增强？

直接机器人控制（最大胆、最未被证实的主张）。DreamZero 在一次前向传播中同时预测未来视频和电机动作，在自己的评估中报告比 VLA 基线好 2 倍泛化。但这是一篇论文，来自建造它自己的团队，没有独立复现。

机器人AI比看起来更早

诚实的说法不是"VLA 行，世界模型不行"，而是机器人 AI 整体比 100 亿美元融资暗示的要早期得多。

导航和受限仓库分拣已经可靠。在受控实验室里做烹饪演示能行（ALOHA/Sunday 用 50 次演示在炒虾上达到 90%），但每道新菜都需要新演示。通用家务操作、家具组装、接触丰富的灵巧操作——无论哪种方法都没解决。

VLA 也没有停下脚步。Physical Intelligence 的 Pi-0.7（2026年4月）展示了组合泛化能力，能从不同任务中组合技能来解决新问题。它操作从未见过的空气炸锅时，会混合相关训练经验的片段。值得注意的是，Pi-0.7 本身是一个混合体：它依赖轻量级世界模型（基于 BAGEL 图像生成骨干）产生的子目标图像来规划多阶段任务。当今领先的 VLA 本身就集成了世界模型组件。

两种方法不是在竞争——它们在融合。

100亿美元的赌注

资金分布在四个层面：

100亿美元的赌注

纯世界模型公司。AMI Labs（10.3 亿美元，欧洲最大种子轮）、World Labs（12.3 亿）、Runway（8.6 亿+）、Rhoda（4.5 亿）、Decart（1.53 亿）、Embo（1 亿+）。

机器人基础模型公司。Skild（18.3 亿）、Physical Intelligence（11 亿+）、Figure（20 亿+）、Mind Robotics（6.15 亿）。

平台层。NVIDIA、Google DeepMind 建设和开源基础设施。

大科技转型。OpenAI 的 Sora 后机器人计划、Tesla、xAI。

一个值得注意的模式：使用世界模型的公司筹集的资金超过了建造它们的公司。要么是世界模型层相对于其重要性资金不足，要么是最大的机器人公司会在内部构建这个能力。1X Technologies 已经这样做了。

NVIDIA：800磅的大猩猩

这个领域最重要的战略发展不是一家初创公司，而是 NVIDIA 构建了完整的物理 AI 栈并且开源了。

从 Cosmos Predict 2.5（视频基础模型，140 亿参数，2 亿视频片段）到 DreamDojo（动作条件化世界模型，4.4 万小时人类视频，r=0.995 策略评估）到 DreamZero（联合视频+动作预测，零样本迁移到新任务）到 EgoScale（缩放定律：人类视频时长与机器人性能之间 R²=0.9983）到 GR00T N2（产品化机器人大脑，2026 年底）。每一层都是 Apache 2.0 开源。

策略就是物理 AI 领域的 CUDA：免费给软件，卖硬件。DreamZero 跑在 7Hz，但只在 Blackwell GB200 上。H100 上跑不了实时。如果每个机器人公司都基于这个栈构建，它们都需要 Blackwell。

对于做纯世界模型的初创公司来说，这是生存级别的问题。DreamDojo 是免费的，训练了 4 万小时的视频。"我们做了一个世界模型"不再是护城河。差异化必须来自 NVIDIA 没有的领域特定数据、更快的推理，或者垂直整合成一个不只是模型的产品。

JEPA：反向押注

不是所有人都在做视频世界模型。Yann LeCun 和 Saining Xie 通过 AMI Labs（10.3 亿美元）在做反向押注。论点是：预测像素从根本上就是浪费的——大部分像素级细节和理解动态无关。

JEPA（联合嵌入预测架构）把观察编码成抽象表征，直接预测未来的表征，从不生成视频。V-JEPA 2 在 Meta 开发时，在超过一百万小时的互联网视频上预训练，然后仅在 62 小时的机器人数据上微调。它在零样本抓取和放置任务上达到 80% 成功率，没有生成一帧视频。

AMI Labs 现在有十亿美元来测试抽象预测是否能打败像素预测。反方意见是：像素级预测可能捕捉到抽象表征遗漏的物理细节，而且你可以看到视频模型认为会发生什么。JEPA 的预测是人类看不懂的抽象向量。

机会在哪

NVIDIA 的开源栈抛出一个现实问题：什么是可防御的？几个不同的机会类型：

前沿横向世界模型。最大胆的赌注：做一个比 NVIDIA 更好的通用世界模型。AMI Labs 用 JEPA 走这条路，Embo 有不同的架构哲学，Dream Labs 建立在 DreamGen 和 DreamDojo 的工作之上。Cosmos 和 DreamDojo 是新类别的 1.0 版本。架构跨越的空间是有的。

垂直特定世界模型。NVIDIA 的栈是通用的。专门为手术机器人、仓库操作或食品制备建世界模型的公司，用实际部署中的专有数据，可以切出一个通用模型无法匹配的护城河。类比：彭博终端 vs ChatGPT。两种都能做语言，但彭博的领域数据和工作流整合让它在金融领域不可替代。

卖铲子的层面。推理基础设施、评估平台、仿真到真实迁移工具、第一人称视频数据管道。这些不如"我们建了个世界模型"性感，但解决的是真实痛点：Genie 3 运行一小时约 100 美元，Odyssey 每个用户需要一台完整的 H200。风险是：NVIDIA 拥有硬件，而且推理优化是快速演进的研究，很快会被吸收到开源中。

"产品里的世界模型"。世界模型是垂直整合机器人产品的一个组件，不是产品本身。终端客户买的是结果——叠好的衣服、分拣好的包裹、冲好的浓缩咖啡——不是推理。模型是手段，机器人做有用的事才是产品。

写在最后

NVIDIA 的 GEAR Lab 负责人 Jim Fan 给正在发生的事情起了个名字：大并行。机器人学正在一步步复制 LLM 的剧本。世界模型是预训练阶段——学模拟下一个物理状态，就像 GPT 学预测下一个 token。动作微调把那个模拟收缩到对真实机器人有意义的那一部分。强化学习跑完最后一公里。同一个三步配方，让 LLM 在六年内从 GPT-3 走到 o1。

如果这个并行成立，我们已经拥有的系统——一小时内学会走路的机器人、可以穿越其中的视频模型、与真实结果 r=0.995 相关的预测——就是物理 AI 的 GPT-2。三年前这些全都不存在。

两条独立发展了几十年的研究路线合并成了真正新的东西：能想象物理未来、实时响应动作、从人类视频迁移知识到机器人的机器。

这个赌注能不能兑现，取决于"梦到世界"这件事对于最难的操作任务是否重要——那些光看足够多例子不够、你必须预测推拉扯会发生什么的任务。

我们认为会。时间线没有 100 亿美元暗示的那么确定。

原文来自 MoE Capital：The Model That Dreams the World

世界模型是什么？2026年AI最被滥用的词，也是最被低估的技术

从一个场景开始

"世界模型"这个词被用烂了

路线A：学会做梦（RL世界模型，1990-2025）

路线B：学会观看（2016-2025）

两条路线的汇合（2024-2025）

什么才是真正的世界模型？五条标准

世界模型到底能干什么？

机器人AI比看起来更早

100亿美元的赌注

NVIDIA：800磅的大猩猩

JEPA：反向押注

机会在哪

写在最后

相关推荐