首页 > 科技快讯 > 腾讯王腾飞：从生成内容到生成环境，世界模型的3D落地之路

腾讯王腾飞：从生成内容到生成环境，世界模型的3D落地之路

晰数塔互联网快讯
2026-06-23 17:08

（来源：）

嘉宾 | 王腾飞

编辑 | 李忠良

6 月 26-27 日，AICon 全球人工智能开发与应用大会・2026 上海站，即将盛大开幕。大会前夕，InfoQ 专访了腾讯混元世界模型团队负责人王腾飞，深度解读 HY-World 2.0 背后的技术架构与产品思考。从李飞飞提出的 "渲染器、仿真器、规划器" 三层框架，到腾讯选择的 3D 落地路径，从 WorldMirror 的几何重建到 WorldLens 的实时渲染，这场对话将带你重新理解 "世界模型"—— 它究竟是下一代内容生成工具，还是真正能跑起来的可运行环境？

核心观点速览：

世界模型不是 "更好的视频生成"，而是一次范式跃迁：视频生成交付的是 "内容"，世界模型交付的是 "可运行环境"，门槛远高于把画面做好看。

3D 不是目的，是世界模型落地的一条重要路径：视频生成有想象力，但只有 3D 能真正接入现有生产管线、形成可编辑复用的资产。

游戏数字世界是物理世界的 "可控代理"：游戏与具身智能本质是同一个问题，核心技术框架（感知、仿真、推理、规划）可直接复用。

世界模型生态最缺的不是模型，是评测标准：谁能量化清楚 "一个生成的世界好不好"，谁的贡献最大 —— 它会成为整个领域的公共标尺。

世界模型不是 "更好的视频生成"，而是一次范式跃迁

InfoQ：怎么看待几周前李飞飞给世界模型下的定义？你们认同吗？系统介绍下你们的理解和研发布局？

王腾飞：李飞飞将世界模型划分为渲染器、仿真器、规划器三层，构成了一套清晰的认知框架。我们的理解略有不同 —— 更倾向于将渲染与仿真两层合并看待，而非截然分开。

目前团队在上述各层均有布局，并已将各模块能力整合推出首款产品。

在世界仿真与渲染层，我们研发了 WorldPlay、WorldStereo 等视频模型，用于直接模拟和预测世界状态；同时通过 WorldMirror、HY 3D 等仿真资产生成模型，丰富仿真环境的资产储备。在世界规划层，我们也推出了 WorldNav 及后续系列模型，支撑导航与操作类任务。

在系统整合层面，我们将空间感知、空间推理规划、空间生成、仿真、渲染等单体能力打通，推出了 HY World 产品 —— 用户仅需输入简单的文本或图像，即可生成一个完整、可交互、可仿真的 3D 世界。配套的专用渲染器 WorldLens，支持用户在生成的世界中自由放置道具与角色进行交互，并实现高效、高保真的实时渲染。

从单点模型到系统化产品，我们遵循的是一条"能力积木化、最终系统化"的技术路径 —— 每个模块都能独立输出价值，整合后又能涌现出更大的能力边界。

InfoQ：您认为世界模型和普通视频生成、3D 生成最本质的区别是什么？

王腾飞：普通视频生成与 3D 生成交付的是 "内容"，而世界模型交付的是 "可运行环境"，二者的核心差异在于可交互性与可维护的世界状态。

视频生成的表现力固然强大，但其本质交付的是二维画面序列，背后并不存在一个稳定存续的世界。例如向前行进一段距离后回头，此前的山体与建筑可能发生变化甚至消失 —— 这是因为模型仅在逐帧预测，并不真正 "记忆" 空间结构。单体 3D 生成则聚焦于单个物体的生成，如一把椅子、一个人物，约束条件相对简单。

世界模型需要回应的是更具挑战性的问题：能否生成一个自洽、可持续存在、可进入并可运行的三维空间。它至少需要满足三个核心特征：

• 状态持续：绕行一周后返回原点，世界仍保持原貌；

• 物理准确：具备真实的深度与结构，而非仅停留在 "视觉逼真" 的层面；

• 可交互：支持交互、可体验、可仿真。

因此我常说，世界模型是将 "生成一段好看的内容" 推进到 "生成一个能运行的环境"，这一步跨越的门槛远高于单纯提升画面质量。

InfoQ：一个团队今天想判断自己是否真的需要世界模型，应该看哪些需求信号？

王腾飞：这里提供一个较为实用的判断方法 —— 不妨先自问：应用场景是否需要交互？

如果需求仅在于产出可供观看的内容，视频生成通常足以满足，例如当前的 AI 短剧。

而指向 "交互" 需求的信号有三个，满足的条件越多，对世界模型的需求就越强：

• 第一，持久的世界状态。需要支持自由切换视角、反复浏览、响应各类操控指令，且世界不能 "变脸"。典型场景如具身智能及部分类型的互动游戏。

• 第二，可编辑、可复用的资产。生成结果并非最终交付物，而需进入美术、引擎等下游生产环节 —— 此时需要的是结构化的 3D 资产，而非仅像素帧。

• 第三，物理交互。涉及碰撞、重力、角色在场景中行走（如上下楼梯、室内漫游）等物理行为，必须有真实几何结构作为支撑。我们从 3DGS 中提取 mesh 作为碰撞代理，正是为了满足这一需求。

换言之，若仅需 "观看" 内容，视频生成或单体 3D 即可满足；一旦需要 "进去用"，尤其涉及视角一致性、资产复用和物理交互时，可运行的世界模型便成为更优选择。

Sora 很惊艳，但为什么落地世界模型还得靠 3D？

InfoQ：Sora 之后很多人从视频生成想象世界模型，但 HY-World 2.0 强调 3D。腾讯为什么认为 3D 是落地的重要路径？

王腾飞：Sora 这一进展让行业看到了视频生成的巨大想象力，对此我完全认同。但 "想象力" 与 "落地" 是两个不同维度的问题，而 3D 是我们认为最具落地可行性的载体，原因非常具体。

第一，3D 天然具备一致性，且天然兼容现有管线。我们生成的世界采用显式 3DGS 表达，可提取 mesh，能够直接接入标准图形管线、游戏引擎及仿真平台。视频生成要进入游戏生产管线则难度极大 —— 数据量大、几何结构不稳定，目前尚难以真正融入生产线。

第二，3D 才具备 "资产" 的概念。游戏、影视、仿真等领域需要的是可编辑、可复用、可接入工作流的资产；而视频帧更多是最终影像或素材，并非可编辑、可复用的结构化资产。

第三，物理精确性。机器人仿真、数字孪生、展览复刻等场景，要求的是精准的模拟仿真，而非仅停留在 "视觉逼真" 层面。3D 表达结合我们的重建模型 WorldMirror，能够输出真实的深度、法线和点云数据。

此外，还有一点目前较少被关注 ——实际应用的成本。视频生成的成本不具备分摊效应：每一位玩家、每一分钟的体验都需要消耗显卡算力进行推理。相比之下，3D 建模的成本是一次性的，当分发量足够大、体验时间足够长后，建模成本可忽略不计；而渲染仅需普通电脑的渲染卡即可完成，边际成本极低。因此对我们而言，3D 不是 "为了 3D 而 3D"，而是因为它是目前唯一能将世界模型真正交付到生产环节的形态。

InfoQ：反过来看，哪些场景里 2D 或视频生成已经足够？哪些必须依赖 3D？

王腾飞：判断的核心在于，内容是 "用来观看"，还是 "要主动交互"。

如果内容消费路径是被动观看型 —— 用户仅需观赏，例如营销短片、概念图、分镜、风格探索、固定运镜的影视化镜头等 —— 在这类无需进入场景或交互的场景中，视频生成在表现力、效率和成本上的优势十分明显。

但如果内容需要接入可运行的系统，则通常更依赖 3D。例如游戏、机器人仿真、VR 漫游、线上展览、数字孪生等场景，普遍对 3D 有强依赖。

拆开 HY-World 2.0：一个可漫游的 3D 世界是怎么四步造出来的

InfoQ：从输入到生成一个 3D 世界，关键模块分别解决什么？为什么拆成多个模块，而不是一个端到端模型？

王腾飞：先回答第二个问题 —— 为什么不采用端到端模型？主要有几个非常实际的考量：

一是数据层面。端到端模型需要 "文字直接到完整可交互 3D 世界" 的成对训练数据，而这类数据目前几乎不存在。拆分为多个模块后，每个模块都可以使用最适合自身的数据进行独立训练。

二是可控性与可解释性。出现问题时，我们可以精确定位是全景生成、轨迹规划还是重建环节出了偏差；而端到端模型本质上是黑盒，难以调试和优化。

HY-World 2.0 的生成流程分为四个阶段，整体对应了人类 "感知世界→理解世界→想象世界→重建世界" 的认知过程：

第一阶段：全景生成（HY-Pano）将文字描述或单张图像转化为 360° 全景，为整个世界提供全局、自洽的初始化。

第二阶段：轨迹规划（WorldNav）首先将全景解析为点云、mesh、语义信息和可行走区域，在此基础上规划出兼顾覆盖最大化与避障的探索路线 —— 简单来说，就是决定 "该往哪看、往哪走"。

第三阶段：世界扩展（WorldStereo）沿规划好的相机轨迹，通过带记忆机制的生成模型补全未观测区域，同时保持全局一致性。

第四阶段：世界合成（WorldMirror）将生成的多视角视图重建为精确几何结构，完成深度对齐、3DGS 优化和 mesh 提取，最终得到可自由漫游的 3D 世界。

王腾飞：传统几何方法已经非常成熟，但其有效应用有明确的前提条件：需要足够多、足够干净、重叠度高且标定可靠的观测数据。这意味着需要专业的采集设备、高昂的采集成本，以及最重要的 —— 三维重建领域的专家全程参与。

WorldMirror 2.0 则大幅降低了这一高门槛任务的准入难度。不仅成本更低，更解决了传统方法难以同时实现的几个关键问题：

第一，前馈式输出全套几何结果，且各输出间自洽统一。单次前向传播即可同时输出点云、深度、法线、相机参数以及逐像素的 3DGS 属性。我们还引入了深度 - 法线耦合监督机制，使两者互相校正，进一步提升几何一致性。

第二，凭借学习到的先验知识，能够在 "不完美" 的输入条件下稳定工作 —— 这是最核心的优势。传统 SfM / MVS 方法在稀疏视角下的稳定性会显著下降；而 WorldMirror 2.0 通过学习到的几何与语义先验，能够在稀疏视角、弱纹理、非严格标定等条件下，给出更稳定的结构估计。

第三，灵活性高、速度快。传统 NeRF / 3DGS 方法通常需要针对每个场景进行单独优化；而 WorldMirror 2.0 采用前馈式预测，可快速输出初始化几何和 3D 表达，大幅缩短重建等待时间。

InfoQ：WorldLens 作为专用渲染平台，在链路中承担什么角色？为什么世界模型不仅要"建出来"，还要考虑如何实时、高质量地"跑起来"？

王腾飞：李飞飞此前在博客中提出了世界模型的基础框架 —— 即规划器、模拟器、渲染器三层。混元世界模型 2.0 主要对应建模和模拟器部分，但要真正交付给用户体验，中间还存在渲染器层面的 gap。WorldLens 解决的就是 "让世界跑起来、用起来" 的问题，它是整个链路的运行时和消费层。

具体而言，WorldLens 承担三项核心功能：一是自动 IBL 光照，确保场景光照合理、一致，避免进入场景后产生违和感；二是高效碰撞检测，配合提取出的 mesh，可实现实时碰撞响应，支持角色在场景中行走；三是训练 - 渲染协同设计—— 这一点至关重要，我们在生成阶段就充分考虑了最终的实时渲染需求，而非建完模型后才发现无法流畅运行。

为什么 "建出来" 还不够，一定要 "跑起来"？因为世界模型的核心价值在于可进入、可使用。一个模型即便建得再精准，如果加载需要几分钟、走两步就卡顿、碰撞频繁穿模，那么对游戏、VR、仿真等场景而言都没有实际意义。能否实时、高质量、可交互地运行，才是世界模型从一个重建结果转变为真正可用环境的临门一脚。因此对我们而言，渲染器不是附属品，而是与模型同等重要的核心环节。

能 "走进去" 只是第一步，世界模型的真正战场在哪

InfoQ：HY-World 2.0 提到可兼容物理引擎。这里的"兼容"具体意味着什么？哪些物理交互已经成熟，哪些仍是挑战？

王腾飞：我们所说的 "兼容物理引擎" 并非宣传话术，而是有非常具体的技术含义：我们会对生成的内容进行轻量化处理，使其能够接入标准图形管线。在此基础上，引擎即可实现实时碰撞检测与物理反馈 —— 用户可以放置角色，使其在场景中上下楼梯、室内移动，并获得合理的物理反馈。

目前已较为成熟的能力包括：静态场景碰撞、漫游导航、角色与环境的碰撞交互、基本重力与刚性反馈，以及一致的光照系统。换言之，"在生成的静态世界中自由行走、不穿模、光照自然"，这一目标目前已完全可实现。

仍面临挑战的方向主要有四类：

• 动态物体：目前生成的世界以静态重建为主，场景中的物体尚未被很好地拆解为可独立运动、可交互操作的个体；

• 铰接与可形变物理：布料、软体、关节等复杂物理效果的实现仍有较大难度；

• 物理参数估计：真实的摩擦系数、质量、材质属性等参数，仅从外观信息难以准确推断；

• 物体级语义解耦与可交互编辑：单独抓取物体、修改物体属性、与物体进行互动等能力，目前仍处于早期阶段。

因此我常说，"能进去走" 已经成熟，而 "像真实世界一样操作万物" 还有很长的路要走。

InfoQ：游戏和具身智能里的世界模型是一回事吗？腾讯混元世界模型的技术路线上是怎样思考的？

王腾飞：二者本质上是一致的 —— 都是对世界运行规则的建模。差异仅在于规则的来源不同：物理世界的规则是重力、碰撞等自然物理定律；游戏世界的规则是引擎逻辑、碰撞体系等人为制定的规律。

从技术路线来看，二者也高度一致，核心模块均为感知、仿真、推理、规划。举一个具体的例子：游戏中 3D 角色与环境的交互动作，与机器人的抓取操作，底层技术是相通的 —— 无论是 VLA 还是 World Action Model，同一套技术框架都可以直接复用。

基于这一判断，我们的技术思路是：将游戏数字世界作为物理世界的 "可控代理" 进行研究。游戏数字世界规则清晰、状态可重置、支持大规模并行仿真，反而是一个比真实物理环境更纯粹、更高效的世界模型研究平台。在数字世界中锤炼出的仿真能力、长程规划能力、生成渲染能力，同样是具身智能所需的核心能力 —— 从数字世界到物理世界，更多是 Grounding 层面的对齐，而非推倒重来。

InfoQ：HY-World 2.0 选择开源。对开发者来说，现在参与世界模型生态，最有价值的方向是什么？

**王腾飞：**我们此次开放了全部模型权重、代码和技术细节，这是有意为之。HY-World 2.0 不只是发布一个演示 demo，而是希望开发者能够真正复现、改造、并接入到自己的工作流中 —— 这一点已经在切实发生。我始终认为，世界模型这样仍处于早期阶段的方向，许多关键问题并非单个团队在封闭环境中就能完全定义和解决的；社区会带来大量独立团队难以想到的输入，这是一个双向奔赴、互相成就的过程。

我认为当前世界模型生态中，最具价值的探索方向有三个：

第一，评测标准。这是目前领域内最稀缺的能力。我们在实践中发现，许多常用指标与人类的真实感知存在脱节。谁能将 "一个生成的世界好不好" 这一问题量化清楚，谁的贡献就最大 —— 因为它将成为整个领域的公共标尺。

第二，工具链适配与工作流插件。将模型接入真实的生产工具，例如引擎插件、DCC 工具对接、格式转换器、机器人仿真平台适配等。这类工作见效最快，能够直接将世界模型能力送入各行业的工作流中。

第三，垂直领域适配。自动驾驶、具身智能、VR 等领域各有其数据特点与场景需求，利用垂直领域的场景 know-how 将通用世界模型迁移到具体行业，同样具有巨大价值。

我常说，开源生态决定技术的生命力。我目前最希望的，是大家先一起把生态做起来。世界模型这个方向足够早期，也足够广阔，先让社区活跃起来，或许比短期纠结于某一个具体方向更为重要。

想了解更多世界模型的技术细节与落地实践？欢迎来到 6 月 26-27 日 AICon 2026 上海站现场，听王腾飞老师带来的主题分享，与腾讯混元团队面对面交流。

嘉宾介绍：

王腾飞，腾讯 3D 世界模型负责人，博士毕业于香港科技大学，研究方向为生成式人工智能与世界模型。加入腾讯后，负责混元 HY World 系列模型的研发与落地，已带领团队先后发布 HY World 1.0、1.5、2.0 三个业界领先的模型版本，并获得开源社区广泛关注。加入腾讯前，曾在微软亚洲研究院、上海人工智能实验室等研究机构工作，在 CVPR、ICCV、ICLR、SIGGRAPH 等会议上发表论文 40 余篇，谷歌学术引用量 3500 余次，研究工作曾获评 ICCV 和 ECCV 最有影响力论文。

会议推荐