首页 > 科技快讯 > 对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化

对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化

晰数塔互联网快讯
2026-04-24 22:33

现在最稀缺的是能驾驭 AI 的人。

文丨李安琪

很长一段时间，楼天城都在向外界解释一件事：L4 Robotaxi 和 L2 量产智驾不是同一条路。他曾多次说过，模仿学习无法实现 L4。

最近头部车企 L2 智驾和供应商正在转向世界模型，强化学习常常一起出现。对此楼天城表示 No surprise，他说这是小马智行已经做了很多年的事。“想做 L4，大家就都要从 0 开始做，或者说再走一遍我们走过的路。”

楼天城说，小马智行 2020 年就意识到，依赖人类驾驶行为数据的模仿学习很快会遇瓶颈；模型需要一个能持续生成的虚拟场景、评估行为、行为博弈的训练系统，才能突破天花板。小马智行把这套系统称为 “世界模型”。

2024 年推出世界模型 1.0 时，楼天城曾向我们比喻，世界模型是车端模型的工厂。不同公司对 “世界模型” 的定义不完全相同。在楼天城的描述里，它不直接开车，只负责模拟车端模型决策后世界如何变化：周围交通参与者如何反应，风险是否继续演化。

近期，楼天城再次向我们谈到世界模型的最新变化。他说，世界模型 1.0 很多判断仍依赖人：人来诊断问题、判断开得好不好，再决定采什么数据、优化哪些场景。

但人力也可能成为 “瓶颈”。在世界模型 2.0 中，小马智行将更多诊断和反馈工作交给 AI：例如当车端模型在某个场景表现不佳时，世界模型 2.0 会尝试自动识别问题，并要求工程师补采特定场景数据。

创业早年，楼天城作为 CTO 最重要的工作之一是招足够聪明的人，自动驾驶的系统上限也取决于团队里最强的工程师。而今天 AI 成为小马内部最聪明的大脑：开车比人好，驾龄比人长。楼天城常常跟工程师说一句既玩笑又认真的话，“完成 AI 交给你的任务。”

最早走这条路线，楼天城也担心：模仿学习走不通，新路线短期内也不跑不通怎么办？不过，世界模型的推进速度比他预期更快。在新技术路线支撑下，小马智行计划今年将 Robotaxi 扩展到全球 20 个城市中心。

把更多工作交给 AI 后，挑战也随之而来：AI 的诊断未必总是正确，如何更准确地识别问题、反馈问题，仍需要在 Robotaxi 实际运营中验证。楼天城将当下的 AI 比喻为脱缰野马，现在最稀缺的是能驾驭 AI 的人，能设置框架、让其自我演进。

楼天城还在研究下一阶段的世界模型。虽然还看不清技术全貌，但他已想到更远的终局：他一直坚持认为，现实世界是个虚拟世界。如果真的有一天，他希望用世界模型来研究微观世界，从而理解真实世界究竟如何存在与运转。“这可能是人类充分利用 AI 后，我们这代人类能做的最大贡献之一。”

以下是我们和小马智行 CTO 楼天城的对谈，内容经编辑：

“L2 变化很快，但 L2 的积累不会再帮助他们做 L4”

晚点：L2 智驾领域经历了多轮技术变化，但 L4 Robotaxi 领域很少看到技术迭代的大波动，为什么？

楼天城：Robotaxi 技术门槛非常高，必须达到非常安全才能入门。L2 因为有人接管，可以更早铺开，技术方案的变化相对更多。这某种程度上也是 L4 门槛高的一个表现。

晚点：看到 L2 这么多轮变化，你内心有什么想法吗？

楼天城：no surprise，他们走的路径、这些变化我都经历过。在我看来，确实是大家在努力的过程。

晚点：你自己是怎么变化和迭代的？

楼天城：就是对更高、极致的车辆驾驶能力追求的过程。同样是 L4，也有很大差别，能不能开到市中心区域，高峰期能不能开，订单量够不够高，能不能去更多城市和国家，这些都可以不断进步。从技术路径上看，基于世界模型、强化学习的大框架这几年没有变化，不过细节升级是巨大的。

晚点：你们从 2020 年开始摸索世界模型，当时 Robotaxi 的表现遇到瓶颈了吗？

楼天城：所有人都会遇到，单靠收集更多人类数据、模仿人类开车这套方式，模型已经很难再进步了，就是单车 MPI（平均多少里程需要接管一次）上不去了。我们也是被逼的，原来那套做法已经不管用了。

我们 2020 年开始做世界模型和强化学习。公司内部也经历了这样的变化：以前模型跟着人类司机开就是了；后来发现，为了实现 Robotaxi 的大规模落地，跟人类司机一样好是不够的，于是给模型创造一个虚拟的训练环境，设置强化学习奖励函数，模型自己摸索。

就像高中老师，要把知识传授给学生；到了读研读博阶段，很多问题可能导师也不会，但会给你创造条件。用世界模型本身不表示技术领先，如果精度不高，还不如采集人类数据来优化。

随着我们世界模型精度不断提升，大概 2022 年开始，发现它能超过传统模仿学习的水平。很多家都开始往世界模型走，说明大家都有了心态的变化，开始认识到人类驾驶能力的不足，认识到实际道路采集数据可能不是一个好的做法了。

晚点：当时的主流应该还是模仿学习，会担心冒险吗？

楼天城：我冒的 “险” 其实是万一这路还不 work 怎么办？首先从技术判断，大概率还是 work 的，但究竟要用多少时间，可能是个问题。万一要用很久了，大家能不能支撑这么久？

晚点：虚拟世界是你们的世界模型 1.0，那做世界模型 2.0 的契机是什么？

楼天城：世界模型不是有和没有的区别，而是看精度。我们把虚拟世界中的其他车辆的行为跟模型的交互，与真实世界非常接近，叫做精度高；如果差别很大就叫精度低。

世界模型 1.0 的出现，是大家接受了要像博士导师一样给模型创造条件。但这个阶段，裁判仍然是人，模型开的好不好，还是人来判断。但你有没有想过，有一天人如果判断不了怎么办？遇到瓶颈了怎么办？世界模型 2.0 有个很好的功能是自我纠错。

有时候路上非常繁忙，车辆该不该减速？说不清楚，万一撞了怎么办？只能人为判断。但有段时间人为判断反而车开得更差了，原因是当 AI 司机的水平显著超越人之后，人类司机已经不足以判断它开的好不好了。

有一个很著名的梗是图灵测试，本来是让人盲测区分人和 AI，因为当时预期的 AI 是约等于人的能力。但如果 AI 变得比人更强大了怎么办？世界模型 2.0 也是这个概念，人不能区分 AI 的驾驶能力好坏了，那就用 AI 来区分。

晚点：L2 领域很多技术概念和你提到的东西越来越像：世界模型+强化学习，技术共性越来越多？你怎么看？

楼天城：说明大家之前的方案也遇到瓶颈。

晚点：你之前觉得他们大概率到不了 L4。

楼天城：因为之前他们的方案对于做 L4 并没有帮助。就是说你如果不想做 L4 没关系，但想做 L4 大家就从 0 开始做，或者说这种事就走我们的老路上了。

至于达到什么水平，有可能还是我们 4-5 年前的状态，得看世界模型的实际精度。Again，世界模型不是有了就可以做到了，还得精度高，车的表现得好。

世界模型本身是虚拟的，如果这个世界物体的行为跟真实世界的不一样，那训练出来的模型不太会开车。如果其他车反应非常激进，那训出来的模型上路肯定谨小慎微，反过来，如果虚拟世界的车都守规矩，那模型在真实世界就没有 handle 极端情况的能力，意识不到危险的存在。

晚点：世界模型的共识为什么这么久才形成？

楼天城：之前不形成是因为，大家开始觉得模仿学习是方向，还没到强化学习。2020 年之前，我也是模仿学习，每天多收一点数据，效果慢慢变好，何必这么累，是个舒适区。如果没意识到舒适区里有瓶颈，就不会跳出来。

根本还是在于，大家愿不愿意接受这是个瓶颈，得承认当初收集的数据，很多积累、擅长的东西都变得没用了，接受会有个过程。但 L2 的积累不会再帮助他们做 L4 了。

晚点：所以你认为自动驾驶领域不存在 Scaling law ？

楼天城：这本身是个认知。最近大语言模型加数据还是会有幻觉。就看你怎么评价它，如果关注的是幻觉出现的概率，那 Scaling law 可能还不够；但如果以 general capability （通用能力）来说，Scaling law 是有进步的。

晚点：你看重哪一点？

楼天城：自动驾驶是物理 AI 的一种，出错的成本非常高。自动驾驶 Scaling law 不管用，是因为 Robotaxi 关注的东西，靠 Scale 不太管用，万一有幻觉怎么办？但如果是常规场景处理，不要求处理边界场景比如 L2，司机可以兜底，Scaling law 可能对它有帮助。目标不同，不同判断。

晚点：你什么时候比较完整的看到了世界模型的全貌，全貌应该是什么样的？

楼天城：我也在逐渐看清楚，这是一个过程。2020 年我已经想到了，1.0 用虚拟环境给模型训练，但 2.0 的发展确实这两年才看到。可能还有世界模型 3.0，今天我还没看到很多概念。

世界模型 2.0 是 AI ，“完成 AI 交给你的任务”

晚点：小马世界模型 1.0 和 2.0 的关系是什么？

楼天城：我先解释下世界模型 1.0。首先，“世界模型”“强化学习” 一般同时出现。它不再依赖人开车到实际道路采集的数据，而是依赖的是在虚拟环境里自演进，这是训练范式的一次跃升。

晚点：你们怎么搭建这个虚拟世界的？

楼天城：世界模型 1.0 大概是 3 个元素：用传感器数据造一个虚拟环境；其次，环境里面的各种车、人跟模型的交互要跟真实世界很接近；第三点是评价体系要非常健全，能真正反映车开的好不好，模型会按照打分机制不断优化自己。车会在世界模型里做几亿次甚至几千亿次训练。

有一个很著名的词，叫 “模型训练模型”，本质是拿一个世界模型训练一个车载模型。

晚点：虚拟世界里，你们的车跟其他车的博弈，怎么做到跟真实世界的一样？

楼天城：首先，渲染的环境会跟现实世界的一样，基本看不出差别。人车博弈肯定不会完全一样，但很接近了。打分机制也要比较完美，它本身也是个老师模型，你没法直接评价老师模型的好坏，但它的学生车端模型上路后可以。等于老师教给学生，学生到路上表现不好，老师就会反思，原来这个地方没教好

最常见的，就是早些年把 corner case 加入一起训练，出现概率太高，“学生模型” 就会很谨慎了；出现概率太低，“学生模型” 就会鲁莽，所以要调整概率。

学生模型的评价体系也重要。比如驾驶的安全感，我们一开始没有把它加入评价体系，后来才加进去，不断迭代。我们的车载模型先上路，看看什么地方不好，然后反馈到世界模型改进，再训练车载模型。

晚点：能举个例子吗？

楼天城：举个几年前的例子，我们的车在雨天老是减速，后来发现原来雨天时候，传感器噪声很多，但我们世界模型中生成的噪声就很不真实，我们改了之后，车载模型下次就知道要先滤噪，就可以很好应对雨天了。

晚点：这个是工程师排查出来的吧。

楼天城：对，但世界模型 2.0 就不是了。

晚点：世界模型 1.0 跟 2.0 有重叠的部分吗？

楼天城：没有重叠，连共同之处都没有。1.0 是数据生成的场景，评价体系、环境交互这些东西，在这些之外，2.0 拥有自我诊断、自我进化的能力。

我们会把车载模型路上收集的各种数据，也扔给世界模型 2.0，让它来定义什么是好与不好？它来发现车载模型哪没做好，它驱动了整个世界模型的演进过程、精度提升过程。它自主完成了世界模型 1.0 的工程师得工作。

整个训练过程是，世界模型 1.0 训练车载模型之前，先有另外一个模型来驱动这个过程，这个模型叫做世界模型 2.0。这样的好处是，不仅效率更高，而且天花板更高。它是一个更高级的开发环境。

晚点：开车是 AI 模型来诊断，但最终乘车的是人类，这个评价体系是不是应该考虑用户？

楼天城：你有坐过 1 万小时车吗？

晚点：没有。

楼天城：乘客给的评价是很有价值的，但不一定表示系统真的有问题，有可能是不同用户的喜好不同，也可能是正确或者错误的判断，这些我们都会收集起来，让 AI 判断到底是什么问题。用户的体验权重我们放很高，但是也会考虑一万个小时的无人驾驶所有数据，而不只是一趟体验。

晚点：如果 AI 给的诊断是错的呢？

楼天城：它的诊断可能不是 100% 正确，但远比人好。或者说，靠人来诊断，模型进化都是负面效果了，只能靠它继续冲破天花板，这是它令人 exciting 的地方。

晚点：你们已经能看到令人 exciting 的表现提升了吗？

楼天城：首先不仅是冲破天花板，而且提升速度比我们前几年都快，因为它是自动过程，又快又能冲破天花板。

最明显的就是 Robotaxi 的市中心表现，现在我们去各地市中心、能把单量撑上去，很多商业上的成功，都是靠它做到的。一些狭小道路，各种神奇的场景，我们更能 handle 了。这是基于 1 万个小时统计的，应对不好的表现频率明显在降低。现在评价 Robotaxi，肯定不能再是开一趟的评价了。

晚点：你们世界模型 2.0 有个能力是 intention “意图层”，它是什么？

楼天城：它是个推演能力，这是世界模型 1.0 的优势，但可能是由世界模型 2.0 的能力提升，使得 intention 意图层发挥了潜能。

简单举例，比如人过马路，要不要过？车变道，要不要变？这些都是意图层。早年采集数据，你永远没法问别的司机你的意图是什么，因为别人不会告诉你，只能采集行为数据。但世界模型里面可以生成意图，这是一个不需要标注的无限量的信号。注意，它不是靠采集的，它天然就存在。

大家喜欢把 intention （意图）跟 language （语言）比，但这两个完全不是一个东西。

晚点：它是类似于的 CoT 推过程？

楼天城：GPT-3 是吧？差一点，它是输入层面的推理，不是输出层的。

它在训练的时候可以生成很多条不同的意图组合，从而生成其他东西（机动车、行人）的轨迹，它会要求车辆模型在这个多重宇宙中选择全局最优得路线。如果不做多重 intention，车辆模型就会像人一样，硬选择一个最可能的意图组合去开，但有可能这个判断是错的。

我们的车端模型可以考虑多种 intention 组合，然后选择综合起来最好的方式去开。

晚点：前两年蔚来技术日也提到类似思路，车辆生成不同的轨迹预判，跟你们说的是同一个东西？

楼天城：也是这个思路，只差一点。因为虚拟环境数据是无限的，可以推演所有可能。他们可能还是靠收集数据，但不能用收集的数据涉及所有可能，我们的世界模型可以有无数种可能，因为他是虚拟生成的。

晚点：有了这个意图，能带来的效果是什么？

楼天城：我对所有的意图可能性都保证了安全，永远不需要回答说我们的行为是针对哪一种 intention 组合，这可能就是最大的差别。假如说现实世界有 4 种可能，无论概率高低，模型就始终都考虑 4 种可能下我都会是安全的，而不是在 4 种可能中选 1 个概率最大得来输出动作。

晚点：这种推演的能力，跟 VLA 模型有什么关系吗？

楼天城：没有。L（Language）是真实世界的东西，而 I（intention）是虚拟世界的东西。

在当前算力下，用 I （intention）是最好的，没有之一。基于长期算力我说不准，intention 能不能活到最后我不知道，但可以坚持很久。而 Language 哪怕在长期应该也不会是最优解，最近小鹏也提到了这点，人开车是不用经过语言的翻译的。（注：小鹏得 VLA 2.0 方案中，去掉了语言中间层）。

晚点：所以云端世界模型 “蒸馏” 到车端的模型有变化吗？

楼天城：严谨的说，云端模型没有 “蒸馏” 到车端这一步，它只训练出个车载模型，“模型训练模型” 过程，这个过程不是蒸馏的。

用蒸馏这个词会引人误解，世界模型本质是对世界的描述，世界模型不用管怎么开车。世界模型不开车、也不输出轨迹，只是负责让车在接近真实世界的环境里运转，这是它的唯一任务。

晚点：但你说它有 intention、有意图。

楼天城：那是其他物体的意图，其他物体的轨迹，它完全不管自动驾驶车辆怎么开，它只管自动驾驶车怎么开之后这个世界怎么变化而已。世界模型从数学来说就是周围状态的传递分布。

导师只负责告诉你做什么题，但至于怎么做，跟老师一点关系没有，导师不会亲自开车。

晚点：世界模型 2.0 你们花了多长时间才做出来？

楼天城：原先计划是至少 2026 年底或者 2027 年。2.0 之前，AI 大模型还没有这么火，今天看有这么多实际成功例子下，我觉得回头看，如果当时能预知到今天这样子，那的 2.0 一定能够胜，我会觉得能不能更早点做。

有些效果加速是在近期，迭代过程也不是匀速的，感谢最新的 AI 大潮吧。到现在算是比较稳定了。

晚点：世界模型的效果有超出你的预期吗？

楼天城：我不想这么说，预期本来应该设得高一些。这是一个新的理念，新的开发范式，彻底颠覆，是很令人激动的事。我不确定什么时候到来，但比想象更快一些。

晚点：这个过程当中，你个人的状态是什么样子的？

楼天城：这些年开发，我自认为还是比较 open，知道 AI 的潜力和人的局限。任何东西不如机器是很正常的，我更多是评判这个路径能不能走得通。

晚点：内部有工程师不理解这个路径吗？

楼天城：跟世界模型 1.0 是一样，总会有人质疑，但工程师还是非常有韧劲的团体，大家愿意去做一些新的尝试，达到效果。

晚点：世界模型 2.0 是一个新的开发方式，对你们的工程师和组织管理带来的变化是什么？

楼天城：公司的确发生了很大的变化。世界模型 1.0 是工程师亲自下场教，工程师要开始当导师和裁判。而现在我们也得抽出来，AI 是裁判了，我们开始研究怎么帮助 AI 驱动、训练过程变得更快，模型部署更优或者让车载系统成本更低，大家会把更多精力放到其他同样很有意义的工作。

晚点：可能训练模型只需要很少一撮人，其他人去做数据处理或者仿真这些？

楼天城：听 AI 说让你做什么，完成 AI 给你分配的任务。虽然是开玩笑，但公司很多人都在做这个事，这是新的变化。

晚点：包括你吗？

楼天城：AI 当然没有直接给我下任务，但 “完成 AI 交给你的任务，且高质量完成”，是内部很认真的说法。很多研发中的任务究竟应该做什么，是由 AI 来判断的，员工的心态变化需要跟上。

晚点：这会让工程师的价值感来源降低？

楼天城：首先这个 AI 是他们自己 build，这难道不是更大的成就感吗？我要替工程师说一句，我们工程师是非常上进的团体，大家一直想 build 一些能比自己做得好的东西，这是巨大的成就。今天抛开自动驾驶，整个 AI 圈不断发生这样的事情。

我也很鼓励、努力帮助我们的同事做得比我更好，我会身体力行去帮他，这是巨大的成就感。

晚点：世界模型 2.0 继续升级，还有哪些技术挑战？

楼天城：这已经是 AI for development （人工智能促进发展）的雏形了，要做得更深、宽度更广。更深就是识别问题更准，发现问题收集反馈更准确，以及部署过程更稳，更有效率。其实还有一点，就是今天我跟你讲这东西，会不会是 AI 告诉我的？

晚点：有点吓人。

楼天城：世界模型 2.0 本质，是不是可以认为 AI 运行了一个组织，这个组织由虚拟人来驱动自动驾驶系统的开发。但这个组织能不能更大一点，变成公司本身呢？我今天出去路演，是不是 AI 让我做的？

这个没有道理不可能，但它需要可能更多机制，今天技术还不够，但以后有可能。今天 2.0 可以认为是 AI 开始运行了一个社区、一个团队，它们来专门驱动自动驾驶的看法。毕竟它是 AI，需要一些人去物理世界帮他收集东西，它肯定是有这样一个组织，虽然不是物理的，但它可以告诉我们怎么给你讲这些东西。

晚点：如果你们的这匹马失控了呢？

楼天城：这也是我们愿意做的事情另一个意义吧，我们尽可能理解 AI 的边界，才能让它不失控。好在，AI 操作物理世界至少今天还需要通过人，但这个东西有一天也可以被打破的。

L2 和 L4，我选择了自己更擅长的东西

晚点：你之前在访谈中提到过，做 L2 和 L4 的差别还挺大的。

楼天城：我个人感受来说，这是大家开发理念上的差别，做 L2 会问只装一个激光雷达够不够，甚至不装激光雷达够不够？做 L4 不会问这种问题，万一不够怎么办？L4 应该优先保证足够安全。

大家的目标不一样，会有很多理念上的冲撞，其实就是对 corner case 的态度，很难交互、极端的场景，L4 车辆需要的是怎么解决，L2 的产品逻辑是提醒用户接管。

晚点：所以你们专注于做 L4。

楼天城：我从个人角度来解释。我更擅长做一些更有开创性、有意义的东西。你让我去抠成本，肯定能做，但这不是我最擅长的点。这个跟公司本身的 DNA、更擅长什么有关系。

人和 AI 一样，都有个学习过程。刚才说的也是我逐步慢慢学到的。我愿意以第一性原理去分析这个事，不再把个人很多喜好放进来，做更理性的判断

晚点：更大的算力对你们来说是诱惑吗？现在很多量产车的算力也到了千 TOPS。

楼天城：算力如果能差 100 倍，还是有区别的。但如果只是差几倍，从驾驶能力上看没有本质差别。1000 TOPS 跟 3000 TOPS 没有区别。如果想压缩模型，从模型结构设计上可以轻松把 3 倍拉回来，但 100 倍那做不到。

晚点：听起来 “芯片自研带来软硬件一体化” 这事不是很吸引你。

楼天城：如果差 100 倍是有的，DeepSeek 当年是 20 倍，那是人和纯软件的努力。

晚点：今年你们的 Robotaxi 目标是 20 个城市，2022 年车企智驾的 “百城大战” 打得很辛苦你们比他们还多了一重挑战：无人车的精细化运营。要怎么做？

楼天城：从 Robotaxi 角度来说，在中国，一线城市是主导市场。Robotaxi 的特殊之处，不需要做百城或者永远都没必要去做百城，这是商业模式所决定的，做好几个关键的城市就可以，可能 20 城已经占据非常重要的部分了。我们的 20 城包括海外。

技术已经不是 Robotaxi 的瓶颈了。我们去一个新城市，遇到的一些极端情况，基本在世界模型生成的很多 corner case 都见过了。

晚点：最近你们遇到的比较棘手的城市是哪个？

楼天城：比如下暴雪、路面结冰这种极端天气比较难，这是一个自动驾驶还没能特别涉足的场景，但是世界上路面不结冰的地方还是很多的。

晚点：Robotaxi 规模变大，怎么避免可能带来的规模交通事故？

楼天城：我们的评价体系中，安全肯定第一，车的舒适性、还有通行效率都很重要。早年时候，我们的世界模型就把通行效率放到其中，所以会比较灵活地穿梭在每个地方，这是一直做的事。

还有一点，我们也很看重冗余系统，我们也和丰田、广汽、北汽一起打造量产的 Robotaxi，就是希望硬件上有冗余，比如紧急情况下能靠边停车、防止本车道停车被追尾或者堵塞交通，这些都是冗余安全的范围。可能触发频率不高，但在长期的运营中很重要。

晚点：特斯拉在北美奥斯汀也开始做车内无人的 Robotaxi 的运营了，它下一步可能面临什么？

楼天城：数量就没起来，他们也公布了事故率的数字，但还没比人开车安全低很多，还没到那个水平。这个跟他们的车队数量有关。无人的还不太打得到，数量太少了。

还是先把无人车做到吧，100 万辆的有人车，不会有一天突然就变成 100 万辆无人车。哪怕它有很多量产车，但无人车辆也得从个位数开始。

晚点：有可能它的扩张速度会快一点。

楼天城：就得看实际进展了。百万辆有人的车并没有帮助它这个过程走的更快，否则绝对不会只在今天的范围和无人车规模。它这一两年的范围扩展并不明显。

晚点：Robotaxi 什么时候可以上高速？

楼天城：现在主驾无人的高速就只对内部开放，在技术和监管更 ready 之后我们会对外开放。我们内部的测试线就是去从公司去机场。当下 L2 高速容易于城区，L4 城区容易于高速，所有的人都这么认为的。

高速是高价值场景，但高速上的极端事件频率很低，导致学习时的梯度下降速度变得更慢，更难发现问题，导致过程非常长，哪怕在 AI 帮助下。

比如在城市路上开了 1 万小时，基本就知道开成什么样子了。但高速还是不行，不知道什么路段开得不好没有千万公里高速公路里程积累，都不要说能在高速上开得好。

晚点：过去几年行业对卡车有一些比较过高的期待，收费没那么容易，你们从技术或者商业的角度怎么理解卡车的战略意义？

楼天城：卡车的天花板非常高，行业价值可以跟 Robotaxi 相提并论。我们的卡车跟乘用车用的是一套代码，但卡车个儿大，法规要求更严格，所以在公开道上铺开会更慢。我们也在港口做卡车，包括专线，但一个能在港口开卡车的司机，他的能力是在外面公开道路锻炼出来的。技术现在不是主要的 blocker，我们也在等政策成熟。我们一定会咬住这块业务。

晚点：目前来看，L4 自动驾驶编队行驶（前车有安全员、后车无人）是更加可行的产品形态？

楼天城：编队是个长期产品。可以认为，编队的司机就是我们负责自动驾驶卡车运营的人。 Robotaxi 在一个区域，我们会有些地勤网格员在守着，车坏了也还是离不开运营人员。但卡车不能几千公里一路都守，编队司机就等于是网格员，这是长期存在且 work 的商业模式。到了集散地，总要人来签字，网格员可以 cover。

晚点：卡车端的模型跟 Robotaxi 是完全同一套吗？

楼天城：是一起被训练出来的，但最后的控制模型环节，卡车和乘用车不太一样。

晚点：Robotaxi 已经开始单车盈利了，卡车呢？

楼天城：车和 Robotaxi 的商业模式不同，因为卡车的能源和车辆成本占比更高，其实哪怕是有安全员的 Robotruck，单车也是盈利的。所以卡车的目标是随着技术发展，提高卡车车队的人车比，解决卡车司机短缺的问题。

AI 是脱缰野马，打造一副马鞍驾驭它，让它自己演化

晚点：你们今年的新技术迭代，跟过去两年 AI 大模型的技术进化，是同时发生的吗？

楼天城：世界模型的发展跟整个 AI 大势非常相关。2018 年根本没有生成模型，但今天大家已经生成的不错了。我们当时选择了 follow，才获得了今天的东西。

晚点：有同行说，自动驾驶行业最大的打击可能来自于多模态大模型的降维打击，比如字节等，你怎么看？

楼天城：自动驾驶可不仅仅只是一个模型，还有运行模型的框架、芯片部署，内存/CPU 怎么分配、传感器系统如何设计冗余，车上路后还有各种运营问题。

从商业来看，好的模型只是其中一小部分。即便有更多模型出来，Robotaxi 行业的壁垒也不会降低，必须把所有东西都做好才行。

从技术维度上看，今天大家的关注重点还是多模态吗？假如明天出来一个新模型，大家只会问它对 coding、agent 有多大帮助？今天关注点早就不在多模态上，都在 AI coding 上了。

AI coding 后面是什么？AI for development，我们的世界模型 2.0 是 AI for development 的一种可能，物理 AI、AI for science（人工智能助力科学）是另一种可能。多模态已经是过去时了，今天大家聊的至少是 coding 或者是 coding 往后的东西。

晚点：你们现在最稀缺、最需要的是什么样的人才？

楼天城：是 Harness（马具），能驾驭 AI 的人。我们要的是训练马的能力，得建一套系统，要知道如何分解任务、构建系统，知道如何让 AI 验证，给 AI 设计一个让它不断发挥、改进的路程。

但这种驾驭 AI 的能力是在几年前、在还没有 AI 的时候训练出来的。如果工作第一天就开始用 AI，我可能永远不会用这个东西。

我们也在一些高校上课，发现学生考试成绩都是直线下降，因为大家做作业基本都拿 AI 做，这是很严重的问题。这是局部最优，但长期有害。我写 code 也有这种感受，用 AI 久了之后就不如原来了，得去思考，让 AI 怎么一步步做这个东西。如果我没有原来的积累，我会担心我培养不出来这东西。

晚点：现在顶级的 AI 人才会更倾向于流向 AI 大厂、具身公司，Robotaxi 公司在人才的吸引力上会受到影响吗？

楼天城：萝卜白菜各有所爱，很多人确实有理由去大厂，但学术、工业都还有个人偏好。我们更多还是找大家互相 match 的人，大家各自有各自的 taste。如果你关心应用、关心物理世界，那没有比自动驾驶更好的方向了。指望具身应用？那还早，商业模式都根本不成熟，将来的成本、能耗都还没算。

今天至少比前几年前好，我可以非常自信地说，自动驾驶是物理 AI 中最早、最 pioneer（先锋）的应用。

晚点：你现在也用 AI coding 吗？

楼天城：我是深度应用使用者，我自认为有一些理解。对于 AI coding 本身，我相信你肯定听到过 “Harness” 这个词，意思是马鞍，今天大模型很火，但就跟脱缰野马一样，如果直接骑上去，估计会摔得半死。如何限制、驾驭它，让它们在框架中自己演进才是关键。

如何驾驭它，差别非常大。AI 用的好不好的人之间，原来差距可能是 120% 到 180% 的区别，但今天可能是 100 倍和负 200 倍的差别，差距在拉大。

晚点：你之前很喜欢参加编程竞赛，现在没人看非 AI 的榜了，你还有竞赛乐趣吗？

楼天城：我跟 AI 一起配合吧，我用 AI 帮我去刷某些东西，帮我做一些题，在一些有影响力的题库上，排得也非常高，但这是个人的行为。again，学会驾驭 AI，让 AI 能更好地做题。如果说要有乐趣，这可能是唯一有价值的乐趣了。

晚点：今年小马成立 10 年了。你本人跟小马公司有比较大的变化吗？

楼天城：一直保持变化，每过一段时间就要重新审视一下这个行业，究竟挑战是什么，该做什么，哪些新的东西能被我们所用，哪些新的坑要躲开。

晚点：创业这么久，你个人的最大的历练是什么？

楼天城：很多，首先跟上技术发展。其次，帮助别人进步吧。几年前吧，很多投资人伙伴问我，我说我最重要的任务就是招到比我好的人，给他们更好的发挥空间，这是我一直坚持做的事情。

晚点：今天可能得加一个前提，AI 可能已经比大部分人要做得好。

楼天城：对，在有 AI 的背景下，让它成为最好的。

晚点：那你最希望能立刻改变的是什么？

楼天城：自动驾驶跟很多大语言模型的差别是，它的感性认识需要物理体验，得真正坐进去才有感受，不像聊天工具，打开网页就可以感受了。

所以先行者的优势非常大，后来者必须也同样要通过物理世界接触，别人才能改变印象。它不会以互联网那种方式爆发，但 again，爆发之后也绝不会在短时间内就开始易主。

晚点：世界模型第三阶段是什么？

楼天城：世界模型本身有三个阶段，第三阶段就是物理世界模型，这是世界模型的未来，甚至要接触 AI for science 了，做一些这样的能力的积累，不是坏事，或多或少帮到第二阶世界模型。但如果做，它肯定不会局限在自动驾驶了，会扩展到更大范围了。

晚点：你们的产品布局也会到更大范围吗？

楼天城：至少先具备这个能力吧，产品方面肯定是更全面的决定，会根据实际商业情况做综合的考虑。合适的时候我再对外分享。

晚点：AI 能开车、拥有对世界推演的能力之后，就能做好家务吗？

楼天城：不能。做家务只是一个最常见的物理 AI 应用，但如果我对物理定律没有理解，可能永远只能做非常低阶的事。自动驾驶当年要用世界模型，就是因为要超越人的水平，将来更多物理世界应用，单纯跟人模仿还是会遇到瓶颈。

机器人可能今天还在早期，有很多进展，但它们还没走到被要求超越人的阶段，它还没到我们 2020 年要开始用世界模型的阶段。但很多物理定律的引入非常困难，今天连重力最基本的定律引入都非常困难，很多机器人倒水倒到杯子下面去了。

晚点：世界模型第三阶段之后，你能看到的终局是什么？

楼天城：还真有终局。比如机器人能在里面做训练，这是最基本的。这是宏观物理世界，但还有一个微观物理世界，如果真有那一天，我还能做这些事，我想用微观物理世界真正理解，我们的世界究竟是如何被存在的。我一直坚持，我们的世界是个虚拟世界。

晚点：是外星人布置的吗？

楼天城：微观世界有很多东西的，比如量子干涉，玻色子、粒子这些。他们究竟怎么运转的？很多问题还没解决。这些东西究竟能不能通过一个虚拟环境来做模拟？如果能，可能我们就可以真正理解我们的世界是如何被模拟的。

这可能是人类这么多年充分利用 AI 后，我们这代人类能做的最大贡献之一，这点毋庸置疑。我不知道我有没有机会能 touch 到它，如果能，我一定会尽我全力。

题图来源：小马智行

对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化

张雪峰多位爱将离职，真相很残忍

热点科技快讯

人类唯一的出路: 变成人工智能（五）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

报告：抖音海外版下载量突破10亿大关挑战Facebook

新浪科技讯北京时间2月28日早间消息，据美国财经媒体CNBC援...

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，...

人类唯一的出路：变成人工智能（三）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

热门点击排行

问界商标转让释放信号：赛力斯与华为合作持续深入

报告：抖音海外版下载量突破10亿大关挑战Facebook

科技快讯分类导航

互联网创业

人工智能

大数据分析

行业热点

对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化

对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化

张雪峰多位爱将离职，真相很残忍

人类唯一的出路: 变成人工智能（五）

报告：抖音海外版下载量突破10亿大关 挑战Facebook

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

报告：抖音海外版下载量突破10亿大关挑战Facebook