硅谷顶级资金集体押注！大摩万字干货详解AI下一个前沿——“世界模型”

华尔街见闻03-23

摩根士丹利最新报告表示，大模型的语言红利正在触顶，下一场AI军备竞赛的战场是"世界模型"——让机器真正理解三维空间、物理规律与时间演化。从Waymo数十亿英里虚拟路测，到微软AI渲染可玩《Quake II》，应用已不止于机器人，游戏、影视、设计产业均面临重塑。

大模型把“语言”这条路走到今天，边界越来越清晰：它们擅长写、搜、改、编程，但一旦问题落到三维空间、时间演化和物理约束，现成的范式就开始吃力。摩根士丹利把下一段增长押在“世界模型”上——让AI学会理解、模拟并在环境里做决策，应用不只在机器人和自动驾驶，也会重塑游戏、设计、影视制作等数字内容工业。

据追风交易台，摩根士丹利北美团队的股票分析师Adam Jonas在最新报告中直白写道：“AI is moving beyond language toward models that understand, simulate and navigate the physical world。”这句话的潜台词是：下一轮竞争，不是谁的聊天更像人，而是谁能把现实世界的规律压缩进一个可用的内部表征，再把它变成可交互的“想象引擎”。

报告给出的证据并不靠远景叙事，而是一些已经发生的工程实践：Waymo借助基于DeepMind Genie 3的世界模型做了“数十亿英里”的虚拟路测；微软用Muse把1997年的《Quake II》做成“全AI渲染、可玩”的版本；Roblox也公开了用自研世界模型生成沉浸式环境、用自然语言迭代游戏的研究方向。大厂在做（DeepMind、Meta、微软、特斯拉、英伟达），新公司也在抢人抢钱。

更值得注意的是，摩根士丹利在这份材料里把镜头对准两家新锐：李飞飞的World Labs偏“生成可导航3D世界”，杨立昆的AMI Labs偏“学习高效的隐空间表示去做预测与推理”。两条路线背后，是同一个问题：AI到底要以什么形式“理解世界”，以及这种理解何时能从demo变成生产力。

从语言到物理：世界模型要补的，是LLM的硬短板

报告把“物理世界”描述为一个更难的战场：受物质、热力学、流体、光照等规律约束，在不断变化的三维空间里运行。LLM的训练对象主要是文本及其变体，做白领任务（编码、搜索、写作）很强，但对“下一秒会发生什么、我做这个动作会造成什么后果”这种问题，缺的不是语料，而是能长期保持一致性的环境表征与推演能力。

因此，世界模型被定义成一种“内部可用的环境表示”：它不仅要复现眼前看到的，还要能把状态往前滚动，并在“动作条件”改变时给出不同的未来分支——也就是报告反复使用的比喻：AI的“imagination engine”。

世界模型不是一个东西：五条主流路线在并行

摩根士丹利把当前做法粗分成几类（并强调边界会逐渐模糊）：

交互式、动作条件世界模型：像“学出来的游戏引擎”，环境会随智能体动作实时变化（例：DeepMind Genie）。
一致性3D世界生成器：强调空间几何一致与可从多视角探索（例：World Labs Marble）。
抽象表示/非生成模型：不追求生成像素级画面，而是预测更高层的隐空间结构与动态，偏效率与推理（例：Meta V-JEPA、AMI Labs）。
预测型生成世界模型：更像“预测下一帧/下一状态”，用于规划、预测与驾驶推理（例：Wayve GAIA、NVIDIA Cosmos 的 Predict）。
物理约束的模拟数据引擎：把世界模型与仿真/物理引擎、数据管线结合，为机器人训练产出更“物理一致”的合成数据（例：NVIDIA Cosmos 的 Transfer）。

这套划分有一个现实意义：同样叫世界模型，有的在追求“生成一个能逛的世界”，有的在追求“把世界压缩成可计算的状态”，产品形态、算力结构、商业化路径都不一样。

先落在游戏与内容生产：替代引擎很诱人，但没那么快

游戏是报告里最“直观”的用例：世界模型可以从少量提示生成可交互环境，内容生产速度可能被拉到另一个量级。微软用Muse做出的可玩《Quake II》，就是一个强对照——不再依赖传统引擎去逐帧渲染，而是模型根据玩家输入预测每一帧。

但摩根士丹利的视频游戏分析师团队（材料中引用了Matt Cost的框架）给出的判断并不浪漫：长期看有两种情景——现有巨头把AI塞进工具链完成“适配”，或者被新范式替代/严重扰动。替代看起来更简单，因为今天的模型已经能“用自然语言生成可玩世界”；

难点在后面：算力速度与成本也许有路可解，但“meta系统、延迟”会更难，而“确定性（determinism）、记忆、更新”这类问题，可能在世界模型范式下就是硬骨头。这意味着短期约束给了老玩家窗口期，长期威胁依旧真实存在。

自动驾驶与机器人更务实：虚拟世界先用来“补数据”和“先想后做”

自动驾驶的抓手更明确：把现实中危险、稀有、昂贵的“边缘场景”，搬到虚拟里成规模地跑。报告提到Waymo使用基于DeepMind Genie 3的世界模型，进行了“数十亿英里”的虚拟驾驶测试，用来训练和验证系统在罕见边缘情形下的表现——这类场景在真实道路上要么难遇到，要么风险不可控。

机器人端的逻辑也更像工程：世界模型可能解决两件事——训练数据量与执行前推理。报告提到有研究显示：用世界模型生成的数据训练机器人，效果可以与用真实交互数据训练的机器人“相当”。但摩根士丹利也把边界划清：短期内，世界模型与仿真数据更可能是现实数据管线的补充，而不是替代。

真正卡人的细节，来自“接触与摩擦”：报告举例强调，外界容易忽略的微小物理量往往最关键——手指施加的细微力、执行器新旧状态差异、表面摩擦与材料属性的微变，甚至关节的静摩擦，都可能让“仿真到现实”的迁移出现巨大落差。

最难的是“长时稳定”和“可控”：离可用还有几道坎

报告把挑战列得很具体，也很不客气：

误差累积与时间漂移：互动越久，物体漂移、几何形变、物理规则跑偏的概率越高。被认为很先进的Genie 3，目前也只能支持“几分钟”的连续交互。
可控性不足：画面再美，动作空间如果只有基础移动，产品价值会受限。
多智能体与社会动态：多人/多车/多机器人同时互动，比单相机穿行难得多，DeepMind也点名这是Genie 3的难点之一。
数据规模与多样性：尤其在机器人领域，真实传感器数据采集昂贵且慢。
缺少统一基准：长时交互质量怎么量化，没有公认标准，进展常靠demo与任务测试支撑。

这些约束决定了一个现实节奏：世界模型很可能先在“容错高、迭代快”的数字内容领域扩散，再逐步向需要严格物理一致性的行业渗透。

李飞飞的赌注：让AI"看懂"三维空间

摩根士丹利把World Labs放在“生成一致性3D世界”的代表位置。公司由李飞飞与团队在2023年创立，2024年走出隐身；其旗舰产品Marble在2025年11月公开发布，目标是从文本、图片、短视频或粗糙3D输入生成“持久、可探索”的三维环境，并支持编辑与扩展。

报告列出的功能更像一套面向创作与生产的工作台：生成后可删改物体、用“Chisel”先搭粗模再上细节、选区外扩生成、把多个世界Compose成更大场景、导出到外部3D软件/引擎，以及提供API给开发者集成。

它也强调与产业工具链的接口：可导出到Unreal Engine与Unity；与NVIDIA Isaac Sim等仿真平台对接；还展示了在建筑设计、机器人仿真等场景的使用方式。

资本热度同样被写进报告：PitchBook估算World Labs累计融资约12.9亿美元，2026年2月一轮融资后投后估值约54亿美元。

杨立昆的另一条路：不渲染画面，只预测结构

AMI Labs的故事线更“研究范式”：公司在2026年3月走出隐身，由Yann LeCun参与创立，路径偏向JEPA框架——不去重建每个像素，而是预测被遮挡/未来部分的潜在表示（latent embeddings），用更抽象的结构学习世界的演化规律。摩根士丹利把它归入“抽象表示/非生成模型”一侧，强调其潜在价值在推理、规划与物理AI系统（尤其机器人）。

材料中对AMI的具体产品披露很有限，只能列出可能的应用方向：机器人、自动驾驶、视频理解/分析，以及带摄像头的AR/VR与智能助手等。融资方面，报告提到AMI Labs以超过10亿美元的种子轮融资亮相，PitchBook口径投后估值在45亿美元以上。

资本和人才已经在聚拢：空间智能的竞赛开始“提速”

这份摩根士丹利材料最重要的信号，可能不是某个模型参数或某次demo，而是它描述的格局变化：从DeepMind、Meta、微软、特斯拉、英伟达到一批新创，世界模型正在变成“下一阶段的共同语言”。它既能解释为什么游戏、影视、设计会出现生产力跃迁，也能解释为什么自动驾驶与机器人会把训练、验证和规划越来越多地搬到虚拟世界里。

世界模型不是一个即插即用的万能件。报告给出的结论更像路线图：能跑起来的场景已经出现，真正的难点也摆在台面上——长时稳定、可控、多智能体、物理细节与评测体系。接下来是谁能把这些硬问题做成工程闭环，才是“数字到物理”这段旅程能走多远的分水岭。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.