首页 > 科技快讯 > 腾讯王腾飞:从生成内容到生成环境,世界模型的3D落地之路

腾讯王腾飞:从生成内容到生成环境,世界模型的3D落地之路

(来源:)

嘉宾 | 王腾飞

编辑 | 李忠良

6 月 26-27 日,AICon 全球人工智能开发与应用大会・2026 上海站,即将盛大开幕。大会前夕,InfoQ 专访了腾讯混元世界模型团队负责人王腾飞,深度解读 HY-World 2.0 背后的技术架构与产品思考。从李飞飞提出的 "渲染器、仿真器、规划器" 三层框架,到腾讯选择的 3D 落地路径,从 WorldMirror 的几何重建到 WorldLens 的实时渲染,这场对话将带你重新理解 "世界模型"—— 它究竟是下一代内容生成工具,还是真正能跑起来的可运行环境?

核心观点速览:

世界模型不是 "更好的视频生成",而是一次范式跃迁:视频生成交付的是 "内容",世界模型交付的是 "可运行环境",门槛远高于把画面做好看。

3D 不是目的,是世界模型落地的一条重要路径:视频生成有想象力,但只有 3D 能真正接入现有生产管线、形成可编辑复用的资产。

游戏数字世界是物理世界的 "可控代理":游戏与具身智能本质是同一个问题,核心技术框架(感知、仿真、推理、规划)可直接复用。

世界模型生态最缺的不是模型,是评测标准:谁能量化清楚 "一个生成的世界好不好",谁的贡献最大 —— 它会成为整个领域的公共标尺。

世界模型不是 "更好的视频生成",而是一次范式跃迁

InfoQ:怎么看待几周前李飞飞给世界模型下的定义?你们认同吗?系统介绍下你们的理解和研发布局?

王腾飞:李飞飞将世界模型划分为渲染器、仿真器、规划器三层,构成了一套清晰的认知框架。我们的理解略有不同 —— 更倾向于将渲染与仿真两层合并看待,而非截然分开。

目前团队在上述各层均有布局,并已将各模块能力整合推出首款产品。

在世界仿真与渲染层,我们研发了 WorldPlay、WorldStereo 等视频模型,用于直接模拟和预测世界状态;同时通过 WorldMirror、HY 3D 等仿真资产生成模型,丰富仿真环境的资产储备。在世界规划层,我们也推出了 WorldNav 及后续系列模型,支撑导航与操作类任务。

在系统整合层面,我们将空间感知、空间推理规划、空间生成、仿真、渲染等单体能力打通,推出了 HY World 产品 —— 用户仅需输入简单的文本或图像,即可生成一个完整、可交互、可仿真的 3D 世界。配套的专用渲染器 WorldLens,支持用户在生成的世界中自由放置道具与角色进行交互,并实现高效、高保真的实时渲染。

从单点模型到系统化产品,我们遵循的是一条"能力积木化、最终系统化"的技术路径 —— 每个模块都能独立输出价值,整合后又能涌现出更大的能力边界。

InfoQ:您认为世界模型和普通视频生成、3D 生成最本质的区别是什么?

王腾飞:普通视频生成与 3D 生成交付的是 "内容",而世界模型交付的是 "可运行环境",二者的核心差异在于可交互性与可维护的世界状态。

视频生成的表现力固然强大,但其本质交付的是二维画面序列,背后并不存在一个稳定存续的世界。例如向前行进一段距离后回头,此前的山体与建筑可能发生变化甚至消失 —— 这是因为模型仅在逐帧预测,并不真正 "记忆" 空间结构。单体 3D 生成则聚焦于单个物体的生成,如一把椅子、一个人物,约束条件相对简单。

世界模型需要回应的是更具挑战性的问题:能否生成一个自洽、可持续存在、可进入并可运行的三维空间。它至少需要满足三个核心特征:

• 状态持续:绕行一周后返回原点,世界仍保持原貌;

• 物理准确:具备真实的深度与结构,而非仅停留在 "视觉逼真" 的层面;

• 可交互:支持交互、可体验、可仿真。

因此我常说,世界模型是将 "生成一段好看的内容" 推进到 "生成一个能运行的环境",这一步跨越的门槛远高于单纯提升画面质量。

InfoQ:一个团队今天想判断自己是否真的需要世界模型,应该看哪些需求信号?

王腾飞:这里提供一个较为实用的判断方法 —— 不妨先自问:应用场景是否需要交互?

如果需求仅在于产出可供观看的内容,视频生成通常足以满足,例如当前的 AI 短剧。

而指向 "交互" 需求的信号有三个,满足的条件越多,对世界模型的需求就越强:

• 第一,持久的世界状态。需要支持自由切换视角、反复浏览、响应各类操控指令,且世界不能 "变脸"。典型场景如具身智能及部分类型的互动游戏。

• 第二,可编辑、可复用的资产。生成结果并非最终交付物,而需进入美术、引擎等下游生产环节 —— 此时需要的是结构化的 3D 资产,而非仅像素帧。

• 第三,物理交互。涉及碰撞、重力、角色在场景中行走(如上下楼梯、室内漫游)等物理行为,必须有真实几何结构作为支撑。我们从 3DGS 中提取 mesh 作为碰撞代理,正是为了满足这一需求。

换言之,若仅需 "观看" 内容,视频生成或单体 3D 即可满足;一旦需要 "进去用",尤其涉及视角一致性、资产复用和物理交互时,可运行的世界模型便成为更优选择。

Sora 很惊艳,但为什么落地世界模型还得靠 3D?

InfoQ:Sora 之后很多人从视频生成想象世界模型,但 HY-World 2.0 强调 3D。腾讯为什么认为 3D 是落地的重要路径?

王腾飞:Sora 这一进展让行业看到了视频生成的巨大想象力,对此我完全认同。但 "想象力" 与 "落地" 是两个不同维度的问题,而 3D 是我们认为最具落地可行性的载体,原因非常具体。

第一,3D 天然具备一致性,且天然兼容现有管线。我们生成的世界采用显式 3DGS 表达,可提取 mesh,能够直接接入标准图形管线、游戏引擎及仿真平台。视频生成要进入游戏生产管线则难度极大 —— 数据量大、几何结构不稳定,目前尚难以真正融入生产线。

第二,3D 才具备 "资产" 的概念。游戏、影视、仿真等领域需要的是可编辑、可复用、可接入工作流的资产;而视频帧更多是最终影像或素材,并非可编辑、可复用的结构化资产。

第三,物理精确性。机器人仿真、数字孪生、展览复刻等场景,要求的是精准的模拟仿真,而非仅停留在 "视觉逼真" 层面。3D 表达结合我们的重建模型 WorldMirror,能够输出真实的深度、法线和点云数据。

此外,还有一点目前较少被关注 ——实际应用的成本。视频生成的成本不具备分摊效应:每一位玩家、每一分钟的体验都需要消耗显卡算力进行推理。相比之下,3D 建模的成本是一次性的,当分发量足够大、体验时间足够长后,建模成本可忽略不计;而渲染仅需普通电脑的渲染卡即可完成,边际成本极低。因此对我们而言,3D 不是 "为了 3D 而 3D",而是因为它是目前唯一能将世界模型真正交付到生产环节的形态。

InfoQ:反过来看,哪些场景里 2D 或视频生成已经足够?哪些必须依赖 3D?

王腾飞:判断的核心在于,内容是 "用来观看",还是 "要主动交互"。

如果内容消费路径是被动观看型 —— 用户仅需观赏,例如营销短片、概念图、分镜、风格探索、固定运镜的影视化镜头等 —— 在这类无需进入场景或交互的场景中,视频生成在表现力、效率和成本上的优势十分明显。

但如果内容需要接入可运行的系统,则通常更依赖 3D。例如游戏、机器人仿真、VR 漫游、线上展览、数字孪生等场景,普遍对 3D 有强依赖。

拆开 HY-World 2.0:一个可漫游的 3D 世界是怎么四步造出来的

InfoQ:从输入到生成一个 3D 世界,关键模块分别解决什么?为什么拆成多个模块,而不是一个端到端模型?

王腾飞:先回答第二个问题 —— 为什么不采用端到端模型?主要有几个非常实际的考量:

一是数据层面。端到端模型需要 "文字直接到完整可交互 3D 世界" 的成对训练数据,而这类数据目前几乎不存在。拆分为多个模块后,每个模块都可以使用最适合自身的数据进行独立训练。

二是可控性与可解释性。出现问题时,我们可以精确定位是全景生成、轨迹规划还是重建环节出了偏差;而端到端模型本质上是黑盒,难以调试和优化。

HY-World 2.0 的生成流程分为四个阶段,整体对应了人类 "感知世界→理解世界→想象世界→重建世界" 的认知过程:

第一阶段:全景生成(HY-Pano) 将文字描述或单张图像转化为 360° 全景,为整个世界提供全局、自洽的初始化。

第二阶段:轨迹规划(WorldNav) 首先将全景解析为点云、mesh、语义信息和可行走区域,在此基础上规划出兼顾覆盖最大化与避障的探索路线 —— 简单来说,就是决定 "该往哪看、往哪走"。

第三阶段:世界扩展(WorldStereo) 沿规划好的相机轨迹,通过带记忆机制的生成模型补全未观测区域,同时保持全局一致性。

第四阶段:世界合成(WorldMirror) 将生成的多视角视图重建为精确几何结构,完成深度对齐、3DGS 优化和 mesh 提取,最终得到可自由漫游的 3D 世界。

王腾飞:传统几何方法已经非常成熟,但其有效应用有明确的前提条件:需要足够多、足够干净、重叠度高且标定可靠的观测数据。这意味着需要专业的采集设备、高昂的采集成本,以及最重要的 —— 三维重建领域的专家全程参与。

WorldMirror 2.0 则大幅降低了这一高门槛任务的准入难度。不仅成本更低,更解决了传统方法难以同时实现的几个关键问题:

第一,前馈式输出全套几何结果,且各输出间自洽统一。 单次前向传播即可同时输出点云、深度、法线、相机参数以及逐像素的 3DGS 属性。我们还引入了深度 - 法线耦合监督机制,使两者互相校正,进一步提升几何一致性。

第二,凭借学习到的先验知识,能够在 "不完美" 的输入条件下稳定工作 —— 这是最核心的优势。 传统 SfM / MVS 方法在稀疏视角下的稳定性会显著下降;而 WorldMirror 2.0 通过学习到的几何与语义先验,能够在稀疏视角、弱纹理、非严格标定等条件下,给出更稳定的结构估计。

第三,灵活性高、速度快。 传统 NeRF / 3DGS 方法通常需要针对每个场景进行单独优化;而 WorldMirror 2.0 采用前馈式预测,可快速输出初始化几何和 3D 表达,大幅缩短重建等待时间。

InfoQ:WorldLens 作为专用渲染平台,在链路中承担什么角色?为什么世界模型不仅要"建出来",还要考虑如何实时、高质量地"跑起来"?

王腾飞:李飞飞此前在博客中提出了世界模型的基础框架 —— 即规划器、模拟器、渲染器三层。混元世界模型 2.0 主要对应建模和模拟器部分,但要真正交付给用户体验,中间还存在渲染器层面的 gap。WorldLens 解决的就是 "让世界跑起来、用起来" 的问题,它是整个链路的运行时和消费层。

具体而言,WorldLens 承担三项核心功能: 一是自动 IBL 光照,确保场景光照合理、一致,避免进入场景后产生违和感; 二是高效碰撞检测,配合提取出的 mesh,可实现实时碰撞响应,支持角色在场景中行走; 三是训练 - 渲染协同设计—— 这一点至关重要,我们在生成阶段就充分考虑了最终的实时渲染需求,而非建完模型后才发现无法流畅运行。

为什么 "建出来" 还不够,一定要 "跑起来"?因为世界模型的核心价值在于可进入、可使用。一个模型即便建得再精准,如果加载需要几分钟、走两步就卡顿、碰撞频繁穿模,那么对游戏、VR、仿真等场景而言都没有实际意义。能否实时、高质量、可交互地运行,才是世界模型从一个重建结果转变为真正可用环境的临门一脚。因此对我们而言,渲染器不是附属品,而是与模型同等重要的核心环节。

能 "走进去" 只是第一步,世界模型的真正战场在哪

InfoQ:HY-World 2.0 提到可兼容物理引擎。这里的"兼容"具体意味着什么?哪些物理交互已经成熟,哪些仍是挑战?

王腾飞:我们所说的 "兼容物理引擎" 并非宣传话术,而是有非常具体的技术含义:我们会对生成的内容进行轻量化处理,使其能够接入标准图形管线。在此基础上,引擎即可实现实时碰撞检测与物理反馈 —— 用户可以放置角色,使其在场景中上下楼梯、室内移动,并获得合理的物理反馈。

目前已较为成熟的能力包括:静态场景碰撞、漫游导航、角色与环境的碰撞交互、基本重力与刚性反馈,以及一致的光照系统。换言之,"在生成的静态世界中自由行走、不穿模、光照自然",这一目标目前已完全可实现。

仍面临挑战的方向主要有四类:

• 动态物体:目前生成的世界以静态重建为主,场景中的物体尚未被很好地拆解为可独立运动、可交互操作的个体;

• 铰接与可形变物理:布料、软体、关节等复杂物理效果的实现仍有较大难度;

• 物理参数估计:真实的摩擦系数、质量、材质属性等参数,仅从外观信息难以准确推断;

• 物体级语义解耦与可交互编辑:单独抓取物体、修改物体属性、与物体进行互动等能力,目前仍处于早期阶段。

因此我常说,"能进去走" 已经成熟,而 "像真实世界一样操作万物" 还有很长的路要走。

InfoQ:游戏和具身智能里的世界模型是一回事吗?腾讯混元世界模型的技术路线上是怎样思考的?

王腾飞:二者本质上是一致的 —— 都是对世界运行规则的建模。差异仅在于规则的来源不同:物理世界的规则是重力、碰撞等自然物理定律;游戏世界的规则是引擎逻辑、碰撞体系等人为制定的规律。

从技术路线来看,二者也高度一致,核心模块均为感知、仿真、推理、规划。举一个具体的例子:游戏中 3D 角色与环境的交互动作,与机器人的抓取操作,底层技术是相通的 —— 无论是 VLA 还是 World Action Model,同一套技术框架都可以直接复用。

基于这一判断,我们的技术思路是:将游戏数字世界作为物理世界的 "可控代理" 进行研究。游戏数字世界规则清晰、状态可重置、支持大规模并行仿真,反而是一个比真实物理环境更纯粹、更高效的世界模型研究平台。在数字世界中锤炼出的仿真能力、长程规划能力、生成渲染能力,同样是具身智能所需的核心能力 —— 从数字世界到物理世界,更多是 Grounding 层面的对齐,而非推倒重来。

InfoQ:HY-World 2.0 选择开源。对开发者来说,现在参与世界模型生态,最有价值的方向是什么?

**王腾飞:**我们此次开放了全部模型权重、代码和技术细节,这是有意为之。HY-World 2.0 不只是发布一个演示 demo,而是希望开发者能够真正复现、改造、并接入到自己的工作流中 —— 这一点已经在切实发生。我始终认为,世界模型这样仍处于早期阶段的方向,许多关键问题并非单个团队在封闭环境中就能完全定义和解决的;社区会带来大量独立团队难以想到的输入,这是一个双向奔赴、互相成就的过程。

我认为当前世界模型生态中,最具价值的探索方向有三个:

第一,评测标准。 这是目前领域内最稀缺的能力。我们在实践中发现,许多常用指标与人类的真实感知存在脱节。谁能将 "一个生成的世界好不好" 这一问题量化清楚,谁的贡献就最大 —— 因为它将成为整个领域的公共标尺。

第二,工具链适配与工作流插件。 将模型接入真实的生产工具,例如引擎插件、DCC 工具对接、格式转换器、机器人仿真平台适配等。这类工作见效最快,能够直接将世界模型能力送入各行业的工作流中。

第三,垂直领域适配。 自动驾驶、具身智能、VR 等领域各有其数据特点与场景需求,利用垂直领域的场景 know-how 将通用世界模型迁移到具体行业,同样具有巨大价值。

我常说,开源生态决定技术的生命力。我目前最希望的,是大家先一起把生态做起来。世界模型这个方向足够早期,也足够广阔,先让社区活跃起来,或许比短期纠结于某一个具体方向更为重要。

想了解更多世界模型的技术细节与落地实践?欢迎来到 6 月 26-27 日 AICon 2026 上海站现场,听王腾飞老师带来的主题分享,与腾讯混元团队面对面交流。

嘉宾介绍:

王腾飞,腾讯 3D 世界模型负责人,博士毕业于香港科技大学,研究方向为生成式人工智能与世界模型。加入腾讯后,负责混元 HY World 系列模型的研发与落地,已带领团队先后发布 HY World 1.0、1.5、2.0 三个业界领先的模型版本,并获得开源社区广泛关注。加入腾讯前,曾在微软亚洲研究院、上海人工智能实验室等研究机构工作,在 CVPR、ICCV、ICLR、SIGGRAPH 等会议上发表论文 40 余篇,谷歌学术引用量 3500 余次,研究工作曾获评 ICCV 和 ECCV 最有影响力论文。

会议推荐

相关推荐

腾讯王腾飞:从生成内容到生成环境,世界模型的3D落地之路
李飞飞世界模型大更新, 实时生成3D 世界,只要一块GPU
10分钟智能3D模型生成,「看山击水」降低3D内容制作门槛,GoAct在线平台即将上线
谷歌DeepMind发布Genie 2模型:一键生成3D游戏
为AI生成内容“正名”:从“深度伪造”到“深度合成”
普林斯顿大学推出3D场景生成模型 Infinigen
为什么在2025年,大厂必须下注世界模型?
“世界模型”能改变世界吗?
华人一作的最佳论文,火热的3D和世界模型以及“无处不在”的何恺明们
为什么Sora不能成为世界模型?

网址: 腾讯王腾飞:从生成内容到生成环境,世界模型的3D落地之路 https://m.xishuta.cn/newsview150785.html

所属分类:行业热点