首页 > 科技快讯 > 对话小马智行楼天城:驯服脱缰的野马,让 AI 自我进化

对话小马智行楼天城:驯服脱缰的野马,让 AI 自我进化



现在最稀缺的是能驾驭 AI 的人。

文丨李安琪

很长一段时间,楼天城都在向外界解释一件事:L4 Robotaxi 和 L2 量产智驾不是同一条路。他曾多次说过,模仿学习无法实现 L4。

最近头部车企 L2 智驾和供应商正在转向世界模型,强化学习常常一起出现。对此楼天城表示 No surprise,他说这是小马智行已经做了很多年的事。“想做 L4,大家就都要从 0 开始做,或者说再走一遍我们走过的路。”

楼天城说,小马智行 2020 年就意识到,依赖人类驾驶行为数据的模仿学习很快会遇瓶颈;模型需要一个能持续生成的虚拟场景、评估行为、行为博弈的训练系统,才能突破天花板。小马智行把这套系统称为 “世界模型”。

2024 年推出世界模型 1.0 时,楼天城曾向我们比喻,世界模型是车端模型的工厂。不同公司对 “世界模型” 的定义不完全相同。在楼天城的描述里,它不直接开车,只负责模拟车端模型决策后世界如何变化:周围交通参与者如何反应,风险是否继续演化。

近期,楼天城再次向我们谈到世界模型的最新变化。他说,世界模型 1.0 很多判断仍依赖人:人来诊断问题、判断开得好不好,再决定采什么数据、优化哪些场景。

但人力也可能成为 “瓶颈”。在世界模型 2.0 中,小马智行将更多诊断和反馈工作交给 AI:例如当车端模型在某个场景表现不佳时,世界模型 2.0 会尝试自动识别问题,并要求工程师补采特定场景数据。

创业早年,楼天城作为 CTO 最重要的工作之一是招足够聪明的人,自动驾驶的系统上限也取决于团队里最强的工程师。而今天 AI 成为小马内部最聪明的大脑:开车比人好,驾龄比人长。楼天城常常跟工程师说一句既玩笑又认真的话,“完成 AI 交给你的任务。”

最早走这条路线,楼天城也担心:模仿学习走不通,新路线短期内也不跑不通怎么办?不过,世界模型的推进速度比他预期更快。在新技术路线支撑下,小马智行计划今年将 Robotaxi 扩展到全球 20 个城市中心。

把更多工作交给 AI 后,挑战也随之而来:AI 的诊断未必总是正确,如何更准确地识别问题、反馈问题,仍需要在 Robotaxi 实际运营中验证。楼天城将当下的 AI 比喻为脱缰野马,现在最稀缺的是能驾驭 AI 的人,能设置框架、让其自我演进。

楼天城还在研究下一阶段的世界模型。虽然还看不清技术全貌,但他已想到更远的终局:他一直坚持认为,现实世界是个虚拟世界。如果真的有一天,他希望用世界模型来研究微观世界,从而理解真实世界究竟如何存在与运转。“这可能是人类充分利用 AI 后,我们这代人类能做的最大贡献之一。”

以下是我们和小马智行 CTO 楼天城的对谈,内容经编辑:

“L2 变化很快,但 L2 的积累不会再帮助他们做 L4”

晚点:L2 智驾领域经历了多轮技术变化,但 L4 Robotaxi 领域很少看到技术迭代的大波动,为什么?

楼天城:Robotaxi 技术门槛非常高,必须达到非常安全才能入门。L2 因为有人接管,可以更早铺开,技术方案的变化相对更多。这某种程度上也是 L4 门槛高的一个表现。

晚点:看到 L2 这么多轮变化,你内心有什么想法吗?

楼天城:no surprise,他们走的路径、这些变化我都经历过。在我看来,确实是大家在努力的过程。

晚点:你自己是怎么变化和迭代的?

楼天城:就是对更高、极致的车辆驾驶能力追求的过程。同样是 L4,也有很大差别,能不能开到市中心区域,高峰期能不能开,订单量够不够高,能不能去更多城市和国家,这些都可以不断进步。从技术路径上看,基于世界模型、强化学习的大框架这几年没有变化,不过细节升级是巨大的。

晚点:你们从 2020 年开始摸索世界模型,当时 Robotaxi 的表现遇到瓶颈了吗?

楼天城:所有人都会遇到,单靠收集更多人类数据、模仿人类开车这套方式,模型已经很难再进步了,就是单车 MPI(平均多少里程需要接管一次)上不去了。我们也是被逼的,原来那套做法已经不管用了。

我们 2020 年开始做世界模型和强化学习。公司内部也经历了这样的变化:以前模型跟着人类司机开就是了;后来发现,为了实现 Robotaxi 的大规模落地,跟人类司机一样好是不够的,于是给模型创造一个虚拟的训练环境,设置强化学习奖励函数,模型自己摸索。

就像高中老师,要把知识传授给学生;到了读研读博阶段,很多问题可能导师也不会,但会给你创造条件。用世界模型本身不表示技术领先,如果精度不高,还不如采集人类数据来优化。

随着我们世界模型精度不断提升,大概 2022 年开始,发现它能超过传统模仿学习的水平。很多家都开始往世界模型走,说明大家都有了心态的变化,开始认识到人类驾驶能力的不足,认识到实际道路采集数据可能不是一个好的做法了。

晚点:当时的主流应该还是模仿学习,会担心冒险吗?

楼天城:我冒的 “险” 其实是万一这路还不 work 怎么办?首先从技术判断,大概率还是 work 的,但究竟要用多少时间,可能是个问题。万一要用很久了,大家能不能支撑这么久?

晚点:虚拟世界是你们的世界模型 1.0,那做世界模型 2.0 的契机是什么?

楼天城:世界模型不是有和没有的区别,而是看精度。我们把虚拟世界中的其他车辆的行为跟模型的交互,与真实世界非常接近,叫做精度高;如果差别很大就叫精度低。

世界模型 1.0 的出现,是大家接受了要像博士导师一样给模型创造条件。但这个阶段,裁判仍然是人,模型开的好不好,还是人来判断。但你有没有想过,有一天人如果判断不了怎么办?遇到瓶颈了怎么办?世界模型 2.0 有个很好的功能是自我纠错。

有时候路上非常繁忙,车辆该不该减速?说不清楚,万一撞了怎么办?只能人为判断。 但有段时间人为判断反而车开得更差了,原因是当 AI 司机的水平显著超越人之后,人类司机已经不足以判断它开的好不好了。

有一个很著名的梗是图灵测试,本来是让人盲测区分人和 AI,因为当时预期的 AI 是约等于人的能力。但如果 AI 变得比人更强大了怎么办?世界模型 2.0 也是这个概念,人不能区分 AI 的驾驶能力好坏了,那就用 AI 来区分。

晚点:L2 领域很多技术概念和你提到的东西越来越像:世界模型+强化学习,技术共性越来越多?你怎么看?

楼天城:说明大家之前的方案也遇到瓶颈。

晚点:你之前觉得他们大概率到不了 L4。

楼天城:因为之前他们的方案对于做 L4 并没有帮助。就是说你如果不想做 L4 没关系,但想做 L4 大家就从 0 开始做,或者说这种事就走我们的老路上了。

至于达到什么水平,有可能还是我们 4-5 年前的状态,得看世界模型的实际精度。Again,世界模型不是有了就可以做到了,还得精度高,车的表现得好。

世界模型本身是虚拟的,如果这个世界物体的行为跟真实世界的不一样,那训练出来的模型不太会开车。如果其他车反应非常激进,那训出来的模型上路肯定谨小慎微,反过来,如果虚拟世界的车都守规矩,那模型在真实世界就没有 handle 极端情况的能力,意识不到危险的存在。

晚点:世界模型的共识为什么这么久才形成?

楼天城:之前不形成是因为,大家开始觉得模仿学习是方向,还没到强化学习。2020 年之前,我也是模仿学习,每天多收一点数据,效果慢慢变好,何必这么累,是个舒适区。如果没意识到舒适区里有瓶颈,就不会跳出来。

根本还是在于,大家愿不愿意接受这是个瓶颈,得承认当初收集的数据,很多积累、擅长的东西都变得没用了,接受会有个过程。但 L2 的积累不会再帮助他们做 L4 了。

晚点:所以你认为自动驾驶领域不存在 Scaling law ?

楼天城:这本身是个认知。最近大语言模型加数据还是会有幻觉。就看你怎么评价它,如果关注的是幻觉出现的概率,那 Scaling law 可能还不够;但如果以 general capability (通用能力)来说,Scaling law 是有进步的。

晚点:你看重哪一点?

楼天城:自动驾驶是物理 AI 的一种,出错的成本非常高。自动驾驶 Scaling law 不管用,是因为 Robotaxi 关注的东西,靠 Scale 不太管用,万一有幻觉怎么办?但如果是常规场景处理,不要求处理边界场景比如 L2,司机可以兜底,Scaling law 可能对它有帮助。目标不同,不同判断。

晚点:你什么时候比较完整的看到了世界模型的全貌,全貌应该是什么样的?

楼天城:我也在逐渐看清楚,这是一个过程。2020 年我已经想到了,1.0 用虚拟环境给模型训练,但 2.0 的发展确实这两年才看到。可能还有世界模型 3.0,今天我还没看到很多概念。

世界模型 2.0 是 AI ,“完成 AI 交给你的任务”

晚点:小马世界模型 1.0 和 2.0 的关系是什么?

楼天城:我先解释下世界模型 1.0。首先,“世界模型”“强化学习” 一般同时出现。它不再依赖人开车到实际道路采集的数据,而是依赖的是在虚拟环境里自演进,这是训练范式的一次跃升。

晚点:你们怎么搭建这个虚拟世界的?

楼天城:世界模型 1.0 大概是 3 个元素:用传感器数据造一个虚拟环境;其次,环境里面的各种车、人跟模型的交互要跟真实世界很接近;第三点是评价体系要非常健全,能真正反映车开的好不好,模型会按照打分机制不断优化自己。车会在世界模型里做几亿次甚至几千亿次训练。

有一个很著名的词,叫 “模型训练模型”,本质是拿一个世界模型训练一个车载模型。

晚点:虚拟世界里,你们的车跟其他车的博弈,怎么做到跟真实世界的一样?

楼天城:首先,渲染的环境会跟现实世界的一样,基本看不出差别。人车博弈肯定不会完全一样,但很接近了。打分机制也要比较完美,它本身也是个老师模型,你没法直接评价老师模型的好坏,但它的学生车端模型上路后可以。等于老师教给学生,学生到路上表现不好,老师就会反思,原来这个地方没教好

最常见的,就是早些年把 corner case 加入一起训练,出现概率太高,“学生模型” 就会很谨慎了;出现概率太低,“学生模型” 就会鲁莽,所以要调整概率。

学生模型的评价体系也重要。比如驾驶的安全感,我们一开始没有把它加入评价体系,后来才加进去,不断迭代。我们的车载模型先上路,看看什么地方不好,然后反馈到世界模型改进,再训练车载模型。

晚点:能举个例子吗?

楼天城:举个几年前的例子,我们的车在雨天老是减速,后来发现原来雨天时候,传感器噪声很多,但我们世界模型中生成的噪声就很不真实,我们改了之后,车载模型下次就知道要先滤噪,就可以很好应对雨天了。

晚点:这个是工程师排查出来的吧。

楼天城:对,但世界模型 2.0 就不是了。

晚点:世界模型 1.0 跟 2.0 有重叠的部分吗?

楼天城:没有重叠,连共同之处都没有。1.0 是数据生成的场景,评价体系、环境交互这些东西,在这些之外,2.0 拥有自我诊断、自我进化的能力。

我们会把车载模型路上收集的各种数据,也扔给世界模型 2.0,让它来定义什么是好与不好?它来发现车载模型哪没做好,它驱动了整个世界模型的演进过程、精度提升过程。它自主完成了世界模型 1.0 的工程师得工作。

整个训练过程是,世界模型 1.0 训练车载模型之前,先有另外一个模型来驱动这个过程,这个模型叫做世界模型 2.0。这样的好处是,不仅效率更高,而且天花板更高。它是一个更高级的开发环境。

晚点:开车是 AI 模型来诊断,但最终乘车的是人类,这个评价体系是不是应该考虑用户?

楼天城:你有坐过 1 万小时车吗?

晚点:没有。

楼天城:乘客给的评价是很有价值的,但不一定表示系统真的有问题,有可能是不同用户的喜好不同,也可能是正确或者错误的判断,这些我们都会收集起来,让 AI 判断到底是什么问题。用户的体验权重我们放很高,但是也会考虑一万个小时的无人驾驶所有数据,而不只是一趟体验。

晚点:如果 AI 给的诊断是错的呢?

楼天城:它的诊断可能不是 100% 正确,但远比人好。或者说,靠人来诊断,模型进化都是负面效果了,只能靠它继续冲破天花板,这是它令人 exciting 的地方。

晚点:你们已经能看到令人 exciting 的表现提升了吗?

楼天城:首先不仅是冲破天花板,而且提升速度比我们前几年都快,因为它是自动过程,又快又能冲破天花板。

最明显的就是 Robotaxi 的市中心表现,现在我们去各地市中心、能把单量撑上去,很多商业上的成功,都是靠它做到的。一些狭小道路,各种神奇的场景,我们更能 handle 了。这是基于 1 万个小时统计的,应对不好的表现频率明显在降低。现在评价 Robotaxi,肯定不能再是开一趟的评价了。

晚点:你们世界模型 2.0 有个能力是 intention “意图层”,它是什么?

楼天城:它是个推演能力,这是世界模型 1.0 的优势,但可能是由世界模型 2.0 的能力提升,使得 intention 意图层发挥了潜能 。

简单举例,比如人过马路,要不要过?车变道,要不要变?这些都是意图层。早年采集数据,你永远没法问别的司机你的意图是什么,因为别人不会告诉你,只能采集行为数据。但世界模型里面可以生成意图,这是一个不需要标注的无限量的信号。注意,它不是靠采集的,它天然就存在。

大家喜欢把 intention (意图)跟 language (语言)比,但这两个完全不是一个东西。

晚点:它是类似于的 CoT 推过程?

楼天城:GPT-3 是吧?差一点,它是输入层面的推理,不是输出层的。

它在训练的时候可以生成很多条不同的意图组合,从而生成其他东西(机动车、行人)的轨迹,它会要求车辆模型在这个多重宇宙中选择全局最优得路线。如果不做多重 intention,车辆模型就会像人一样,硬选择一个最可能的意图组合去开,但有可能这个判断是错的。

我们的车端模型可以考虑多种 intention 组合,然后选择综合起来最好的方式去开。

晚点:前两年蔚来技术日也提到类似思路,车辆生成不同的轨迹预判,跟你们说的是同一个东西?

楼天城:也是这个思路,只差一点。因为虚拟环境数据是无限的,可以推演所有可能。他们可能还是靠收集数据,但不能用收集的数据涉及所有可能,我们的世界模型可以有无数种可能,因为他是虚拟生成的。

晚点:有了这个意图,能带来的效果是什么?

楼天城:我对所有的意图可能性都保证了安全,永远不需要回答说我们的行为是针对哪一种 intention 组合,这可能就是最大的差别。假如说现实世界有 4 种可能,无论概率高低,模型就始终都考虑 4 种可能下我都会是安全的,而不是在 4 种可能中选 1 个概率最大得来输出动作。

晚点:这种推演的能力,跟 VLA 模型有什么关系吗?

楼天城:没有。L(Language)是真实世界的东西,而 I(intention)是虚拟世界的东西。

在当前算力下,用 I (intention)是最好的,没有之一。基于长期算力我说不准,intention 能不能活到最后我不知道,但可以坚持很久。而 Language 哪怕在长期应该也不会是最优解,最近小鹏也提到了这点,人开车是不用经过语言的翻译的。(注:小鹏得 VLA 2.0 方案中,去掉了语言中间层)。

晚点:所以云端世界模型 “蒸馏” 到车端的模型有变化吗?

楼天城:严谨的说,云端模型没有 “蒸馏” 到车端这一步,它只训练出个车载模型,“模型训练模型” 过程,这个过程不是蒸馏的。

用蒸馏这个词会引人误解,世界模型本质是对世界的描述,世界模型不用管怎么开车。世界模型不开车、也不输出轨迹,只是负责让车在接近真实世界的环境里运转,这是它的唯一任务。

晚点:但你说它有 intention、有意图。

楼天城:那是其他物体的意图,其他物体的轨迹,它完全不管自动驾驶车辆怎么开,它只管自动驾驶车怎么开之后这个世界怎么变化而已。世界模型从数学来说就是周围状态的传递分布。

导师只负责告诉你做什么题,但至于怎么做,跟老师一点关系没有,导师不会亲自开车。

晚点:世界模型 2.0 你们花了多长时间才做出来?

楼天城:原先计划是至少 2026 年底或者 2027 年。2.0 之前,AI 大模型还没有这么火,今天看有这么多实际成功例子下,我觉得回头看,如果当时能预知到今天这样子,那的 2.0 一定能够胜,我会觉得能不能更早点做。

有些效果加速是在近期,迭代过程也不是匀速的,感谢最新的 AI 大潮吧。到现在算是比较稳定了。

晚点:世界模型的效果有超出你的预期吗?

楼天城:我不想这么说,预期本来应该设得高一些。这是一个新的理念,新的开发范式,彻底颠覆,是很令人激动的事。我不确定什么时候到来,但比想象更快一些。

晚点:这个过程当中,你个人的状态是什么样子的?

楼天城:这些年开发,我自认为还是比较 open,知道 AI 的潜力和人的局限。任何东西不如机器是很正常的,我更多是评判这个路径能不能走得通。

晚点:内部有工程师不理解这个路径吗?

楼天城:跟世界模型 1.0 是一样,总会有人质疑,但工程师还是非常有韧劲的团体,大家愿意去做一些新的尝试,达到效果。

晚点:世界模型 2.0 是一个新的开发方式,对你们的工程师和组织管理带来的变化是什么?

楼天城:公司的确发生了很大的变化。世界模型 1.0 是工程师亲自下场教,工程师要开始当导师和裁判。而现在我们也得抽出来,AI 是裁判了,我们开始研究怎么帮助 AI 驱动、训练过程变得更快,模型部署更优或者让车载系统成本更低,大家会把更多精力放到其他同样很有意义的工作。

晚点:可能训练模型只需要很少一撮人,其他人去做数据处理或者仿真这些?

楼天城:听 AI 说让你做什么,完成 AI 给你分配的任务。虽然是开玩笑,但公司很多人都在做这个事,这是新的变化。

晚点:包括你吗?

楼天城:AI 当然没有直接给我下任务,但 “完成 AI 交给你的任务,且高质量完成”,是内部很认真的说法。很多研发中的任务究竟应该做什么,是由 AI 来判断的,员工的心态变化需要跟上。

晚点:这会让工程师的价值感来源降低?

楼天城:首先这个 AI 是他们自己 build,这难道不是更大的成就感吗?我要替工程师说一句,我们工程师是非常上进的团体,大家一直想 build 一些能比自己做得好的东西,这是巨大的成就。今天抛开自动驾驶,整个 AI 圈不断发生这样的事情。

我也很鼓励、努力帮助我们的同事做得比我更好,我会身体力行去帮他,这是巨大的成就感。

晚点:世界模型 2.0 继续升级,还有哪些技术挑战?

楼天城:这已经是 AI for development (人工智能促进发展)的雏形了,要做得更深、宽度更广。更深就是识别问题更准,发现问题收集反馈更准确,以及部署过程更稳,更有效率。其实还有一点,就是今天我跟你讲这东西,会不会是 AI 告诉我的?

晚点:有点吓人。

楼天城:世界模型 2.0 本质,是不是可以认为 AI 运行了一个组织,这个组织由虚拟人来驱动自动驾驶系统的开发。但这个组织能不能更大一点,变成公司本身呢?我今天出去路演,是不是 AI 让我做的?

这个没有道理不可能,但它需要可能更多机制,今天技术还不够,但以后有可能。今天 2.0 可以认为是 AI 开始运行了一个社区、一个团队,它们来专门驱动自动驾驶的看法。毕竟它是 AI,需要一些人去物理世界帮他收集东西,它肯定是有这样一个组织,虽然不是物理的,但它可以告诉我们怎么给你讲这些东西。

晚点:如果你们的这匹马失控了呢?

楼天城:这也是我们愿意做的事情另一个意义吧,我们尽可能理解 AI 的边界,才能让它不失控。好在,AI 操作物理世界至少今天还需要通过人,但这个东西有一天也可以被打破的。

L2 和 L4,我选择了自己更擅长的东西

晚点:你之前在访谈中提到过,做 L2 和 L4 的差别还挺大的。

楼天城:我个人感受来说,这是大家开发理念上的差别,做 L2 会问只装一个激光雷达够不够,甚至不装激光雷达够不够?做 L4 不会问这种问题,万一不够怎么办?L4 应该优先保证足够安全。

大家的目标不一样,会有很多理念上的冲撞,其实就是对 corner case 的态度,很难交互、极端的场景,L4 车辆需要的是怎么解决,L2 的产品逻辑是提醒用户接管。

晚点:所以你们专注于做 L4。

楼天城:我从个人角度来解释。我更擅长做一些更有开创性、有意义的东西。你让我去抠成本,肯定能做,但这不是我最擅长的点。这个跟公司本身的 DNA、更擅长什么有关系。

人和 AI 一样,都有个学习过程。刚才说的也是我逐步慢慢学到的。我愿意以第一性原理去分析这个事,不再把个人很多喜好放进来,做更理性的判断

晚点:更大的算力对你们来说是诱惑吗?现在很多量产车的算力也到了千 TOPS。

楼天城:算力如果能差 100 倍,还是有区别的。但如果只是差几倍,从驾驶能力上看没有本质差别。1000 TOPS 跟 3000 TOPS 没有区别。如果想压缩模型,从模型结构设计上可以轻松把 3 倍拉回来,但 100 倍那做不到。

晚点:听起来 “芯片自研带来软硬件一体化” 这事不是很吸引你。

楼天城:如果差 100 倍是有的,DeepSeek 当年是 20 倍,那是人和纯软件的努力。

晚点:今年你们的 Robotaxi 目标是 20 个城市,2022 年车企智驾的 “百城大战” 打得很辛苦你们比他们还多了一重挑战:无人车的精细化运营。要怎么做?

楼天城:从 Robotaxi 角度来说,在中国,一线城市是主导市场。Robotaxi 的特殊之处,不需要做百城或者永远都没必要去做百城,这是商业模式所决定的,做好几个关键的城市就可以,可能 20 城已经占据非常重要的部分了。我们的 20 城包括海外。

技术已经不是 Robotaxi 的瓶颈了。我们去一个新城市,遇到的一些极端情况,基本在世界模型生成的很多 corner case 都见过了。

晚点:最近你们遇到的比较棘手的城市是哪个?

楼天城:比如下暴雪、路面结冰这种极端天气比较难,这是一个自动驾驶还没能特别涉足的场景,但是世界上路面不结冰的地方还是很多的。

晚点:Robotaxi 规模变大,怎么避免可能带来的规模交通事故?

楼天城:我们的评价体系中,安全肯定第一,车的舒适性、还有通行效率都很重要。早年时候,我们的世界模型就把通行效率放到其中,所以会比较灵活地穿梭在每个地方,这是一直做的事。

还有一点,我们也很看重冗余系统,我们也和丰田、广汽、北汽一起打造量产的 Robotaxi,就是希望硬件上有冗余,比如紧急情况下能靠边停车、防止本车道停车被追尾或者堵塞交通,这些都是冗余安全的范围。可能触发频率不高,但在长期的运营中很重要。

晚点:特斯拉在北美奥斯汀也开始做车内无人的 Robotaxi 的运营了,它下一步可能面临什么?

楼天城:数量就没起来,他们也公布了事故率的数字,但还没比人开车安全低很多,还没到那个水平。这个跟他们的车队数量有关。无人的还不太打得到,数量太少了。

还是先把无人车做到吧,100 万辆的有人车,不会有一天突然就变成 100 万辆无人车。哪怕它有很多量产车,但无人车辆也得从个位数开始。

晚点:有可能它的扩张速度会快一点。

楼天城:就得看实际进展了。百万辆有人的车并没有帮助它这个过程走的更快,否则绝对不会只在今天的范围和无人车规模。它这一两年的范围扩展并不明显。

晚点:Robotaxi 什么时候可以上高速?

楼天城:现在主驾无人的高速就只对内部开放,在技术和监管更 ready 之后我们会对外开放。我们内部的测试线就是去从公司去机场。当下 L2 高速容易于城区,L4 城区容易于高速,所有的人都这么认为的。

高速是高价值场景,但高速上的极端事件频率很低,导致学习时的梯度下降速度变得更慢,更难发现问题,导致过程非常长,哪怕在 AI 帮助下。

比如在城市路上开了 1 万小时,基本就知道开成什么样子了。但高速还是不行,不知道什么路段开得不好没有千万公里高速公路里程积累,都不要说能在高速上开得好。

晚点:过去几年行业对卡车有一些比较过高的期待,收费没那么容易,你们从技术或者商业的角度怎么理解卡车的战略意义?

楼天城:卡车的天花板非常高,行业价值可以跟 Robotaxi 相提并论。我们的卡车跟乘用车用的是一套代码,但卡车个儿大,法规要求更严格,所以在公开道上铺开会更慢。我们也在港口做卡车,包括专线,但一个能在港口开卡车的 司机,他的能力是在外面公开道路锻炼出来的。技术现在不是主要的 blocker,我们也在等政策成熟。我们一定会咬住这块业务。

晚点:目前来看,L4 自动驾驶编队行驶(前车有安全员、后车无人)是更加可行的产品形态?

楼天城:编队是个长期产品。可以认为,编队的司机就是我们负责自动驾驶卡车运营的人。 Robotaxi 在一个区域,我们会有些地勤网格员在守着,车坏了也还是离不开运营人员。但卡车不能几千公里一路都守,编队司机就等于是网格员,这是长期存在且 work 的商业模式。到了集散地,总要人来签字,网格员可以 cover。

晚点:卡车端的模型跟 Robotaxi 是完全同一套吗?

楼天城:是一起被训练出来的,但最后的控制模型环节,卡车和乘用车不太一样。

晚点:Robotaxi 已经开始单车盈利了,卡车呢?

楼天城:车和 Robotaxi 的商业模式不同,因为卡车的能源和车辆成本占比更高,其实哪怕是有安全员的 Robotruck,单车也是盈利的。所以卡车的目标是随着技术发展,提高卡车车队的人车比,解决卡车司机短缺的问题。

AI 是脱缰野马,打造一副马鞍驾驭它,让它自己演化

晚点:你们今年的新技术迭代,跟过去两年 AI 大模型的技术进化,是同时发生的吗?

楼天城:世界模型的发展跟整个 AI 大势非常相关。2018 年根本没有生成模型,但今天大家已经生成的不错了。我们当时选择了 follow,才获得了今天的东西。

晚点:有同行说,自动驾驶行业最大的打击可能来自于多模态大模型的降维打击,比如字节等,你怎么看?

楼天城:自动驾驶可不仅仅只是一个模型,还有运行模型的框架、芯片部署,内存/CPU 怎么分配、传感器系统如何设计冗余,车上路后还有各种运营问题。

从商业来看,好的模型只是其中一小部分。即便有更多模型出来,Robotaxi 行业的壁垒也不会降低,必须把所有东西都做好才行。

从技术维度上看,今天大家的关注重点还是多模态吗?假如明天出来一个新模型,大家只会问它对 coding、agent 有多大帮助?今天关注点早就不在多模态上,都在 AI coding 上了。

AI coding 后面是什么?AI for development,我们的世界模型 2.0 是 AI for development 的一种可能,物理 AI、AI for science(人工智能助力科学)是另一种可能。多模态已经是过去时了,今天大家聊的至少是 coding 或者是 coding 往后的东西。

晚点:你们现在最稀缺、最需要的是什么样的人才?

楼天城:是 Harness(马具),能驾驭 AI 的人。我们要的是训练马的能力,得建一套系统,要知道如何分解任务、构建系统,知道如何让 AI 验证,给 AI 设计一个让它不断发挥、改进的路程。

但这种驾驭 AI 的能力是在几年前、在还没有 AI 的时候训练出来的。如果工作第一天就开始用 AI,我可能永远不会用这个东西。

我们也在一些高校上课,发现学生考试成绩都是直线下降,因为大家做作业基本都拿 AI 做,这是很严重的问题。这是局部最优,但长期有害。我写 code 也有这种感受,用 AI 久了之后就不如原来了,得去思考,让 AI 怎么一步步做这个东西。如果我没有原来的积累,我会担心我培养不出来这东西。

晚点:现在顶级的 AI 人才会更倾向于流向 AI 大厂、具身公司,Robotaxi 公司在人才的吸引力上会受到影响吗?

楼天城:萝卜白菜各有所爱,很多人确实有理由去大厂,但学术、工业都还有个人偏好。我们更多还是找大家互相 match 的人,大家各自有各自的 taste。如果你关心应用、关心物理世界,那没有比自动驾驶更好的方向了。指望具身应用?那还早,商业模式都根本不成熟,将来的成本、能耗都还没算。

今天至少比前几年前好,我可以非常自信地说,自动驾驶是物理 AI 中最早、最 pioneer(先锋)的应用。

晚点:你现在也用 AI coding 吗?

楼天城:我是深度应用使用者,我自认为有一些理解。对于 AI coding 本身,我相信你肯定听到过 “Harness” 这个词,意思是马鞍,今天大模型很火,但就跟脱缰野马一样,如果直接骑上去,估计会摔得半死。如何限制、驾驭它,让它们在框架中自己演进才是关键。

如何驾驭它,差别非常大。AI 用的好不好的人之间,原来差距可能是 120% 到 180% 的区别,但今天可能是 100 倍和负 200 倍的差别,差距在拉大。

晚点:你之前很喜欢参加编程竞赛,现在没人看非 AI 的榜了,你还有竞赛乐趣吗?

楼天城:我跟 AI 一起配合吧,我用 AI 帮我去刷某些东西,帮我做一些题,在一些有影响力的题库上,排得也非常高,但这是个人的行为。again,学会驾驭 AI,让 AI 能更好地做题。如果说要有乐趣,这可能是唯一有价值的乐趣了。

晚点:今年小马成立 10 年了。你本人跟小马公司有比较大的变化吗?

楼天城:一直保持变化,每过一段时间就要重新审视一下这个行业,究竟挑战是什么,该做什么,哪些新的东西能被我们所用,哪些新的坑要躲开。

晚点:创业这么久,你个人的最大的历练是什么?

楼天城:很多,首先跟上技术发展。其次,帮助别人进步吧。几年前吧,很多投资人伙伴问我,我说我最重要的任务就是招到比我好的人,给他们更好的发挥空间,这是我一直坚持做的事情。

晚点:今天可能得加一个前提,AI 可能已经比大部分人要做得好。

楼天城:对,在有 AI 的背景下,让它成为最好的。

晚点:那你最希望能立刻改变的是什么?

楼天城:自动驾驶跟很多大语言模型的差别是,它的感性认识需要物理体验,得真正坐进去才有感受,不像聊天工具,打开网页就可以感受了。

所以先行者的优势非常大,后来者必须也同样要通过物理世界接触,别人才能改变印象。它不会以互联网那种方式爆发,但 again,爆发之后也绝不会在短时间内就开始易主。

晚点:世界模型第三阶段是什么?

楼天城:世界模型本身有三个阶段,第三阶段就是物理世界模型,这是世界模型的未来,甚至要接触 AI for science 了,做一些这样的能力的积累,不是坏事,或多或少帮到第二阶世界模型。但如果做,它肯定不会局限在自动驾驶了,会扩展到更大范围了。

晚点:你们的产品布局也会到更大范围吗?

楼天城:至少先具备这个能力吧,产品方面肯定是更全面的决定,会根据实际商业情况做综合的考虑。合适的时候我再对外分享。

晚点:AI 能开车、拥有对世界推演的能力之后,就能做好家务吗?

楼天城:不能。做家务只是一个最常见的物理 AI 应用,但如果我对物理定律没有理解,可能永远只能做非常低阶的事。自动驾驶当年要用世界模型,就是因为要超越人的水平,将来更多物理世界应用,单纯跟人模仿还是会遇到瓶颈。

机器人可能今天还在早期,有很多进展,但它们还没走到被要求超越人的阶段,它还没到我们 2020 年要开始用世界模型的阶段。但很多物理定律的引入非常困难,今天连重力最基本的定律引入都非常困难,很多机器人倒水倒到杯子下面去了。

晚点:世界模型第三阶段之后,你能看到的终局是什么?

楼天城:还真有终局。比如机器人能在里面做训练,这是最基本的。这是宏观物理世界,但还有一个微观物理世界,如果真有那一天,我还能做这些事,我想用微观物理世界真正理解,我们的世界究竟是如何被存在的。我一直坚持,我们的世界是个虚拟世界。

晚点:是外星人布置的吗?

楼天城:微观世界有很多东西的,比如量子干涉,玻色子、粒子这些。他们究竟怎么运转的?很多问题还没解决。这些东西究竟能不能通过一个虚拟环境来做模拟?如果能,可能我们就可以真正理解我们的世界是如何被模拟的。

这可能是人类这么多年充分利用 AI 后,我们这代人类能做的最大贡献之一,这点毋庸置疑。我不知道我有没有机会能 touch 到它,如果能,我一定会尽我全力。

题图来源:小马智行

相关推荐

对话小马智行楼天城:驯服脱缰的野马,让 AI 自我进化
对话小马智行楼天城:只靠端到端做不到L4,模仿优秀司机令人绝望
小马智行:一个自动驾驶企业的生存样本
小马智行 IPO,8 年坚持 L4 的少数派
小马智行“动荡”背后
今天小马智行IPO敲钟了,市值360亿
36氪独家|自动驾驶公司「小马智行」业务调整:多部门缩编、数位美研高管离职
小马智行CTO称行业仅三家公司达标,文远知行CFO朋友圈回怼
36氪独家 | 小马智行开始造车,已在上海设立团队
「小马智行 Pony.ai」进军无人货运,同时在广州南沙做Robo-taxi任意点对点路测

网址: 对话小马智行楼天城:驯服脱缰的野马,让 AI 自我进化 http://m.xishuta.cn/newsview149057.html

所属分类:人工智能