World Model-世界模型也有Scaling Law吗？

开场0:00

庄明浩0:06

Hello 大家好，我是明浩，欢迎回到《屠龙之术》。今天这期我们聊一个最近特别热、也特别容易被滥用的词：世界模型。

过去几年，AI 行业的主线基本上是大语言模型。我们关心大语言模型的参数量、token 消耗、上下文的窗口、推理能力。

过去一两年，大家开始关心 agent 编程、自主进化。其实回顾这一轮大模型发展，本章来讲它其实是一个核心的议题：机器到底能不能理解语言，能不能在符号世界里实现所谓的 " 推理 "。

但到了 2026 年，一个新的叙事正在被打开，或者变得越来越被提及：AI 似乎不能只活在数字世界，它要进入物理世界。

它要开车、要搬箱子、要操作机械臂、要理解空间几何、要预测碰撞、避开行人，和真实环境发生交互。

于是 " 物理 AI" 似乎成了新的关键词，而 " 世界模型 " 被认为是物理 AI 的底座。所以，引出今天的议题：当我们去研究所谓的世界模型的时候，回看大模型的发展路径，那个核心的议题 —— 世界模型是否也有所谓的 Scaling Law。

换句话说，我们过去这些年在大语言模型上所获得的成功经验，能不能迁移到物理世界？大语言模型是靠一个极其简单但极其强大的范式，也就是预测下一个 token 来实现的。

所以只要数据足够多、算力足够强、模型够大，在算法已经基本上是收敛的前提下，能力 —— 也就是大语言的模型能力 —— 就会沿着某种规模不断地提升，甚至在某些阶段会出现所谓的 " 涌现 "。

这就是过去这些年我们在大模型上看到发生的事情。那么自动驾驶、机器人、具身智能这些物理世界的智能系统，有没有类似的路径呢？

它们是不是也可以通过大量真实世界的数据，训练出一个可以预测下一个物理状态的模型？如果有，这个模型会不会就是物理世界的 AI 的 GPT？

那我为什么决定做这期节目，在这个时间点，我觉得是看到了一些 " 信号 "。这些信号刺激了我说 " 应该做了 "。

对，第一个信号是什么呢？比如说最近 618，对，618 刚过，在 6 月中左右，影视飓风更新了一期广告片，对，是天猫找到他们做的一期广告。

你想啊，天猫是为了推 618，然后找的是影视飓风来做了一个视频。你想如果你是 team，你应该怎么给天猫这个甲方交一个比较满意的答卷？

最后这个视频出现了，大家有兴趣可以去 B 站看一下。这个视频其实讲的就是今天我要讲的世界模型。

它这个视频的标题特别有意思，这个标题叫《在 AI 里抛硬币，概率是 50% 吗？》你想想这个问题啊，这个问题其实非常非常有意思，它让我想到了另外一个之前我碰到的一个很有意思的问题，也发生在世界模型领域。

李飞飞老师的 World Lab 刚刚测试的时候，他在接受采访，他说他一位身边很多年的好友问他，在他们那个 World Lab 的世界里面，有一个他的好友，他说他在现实世界里是晕 3D 的，或者叫晕车的。他就问在那个新生成的世界里，是否也会晕。

然后 team 就说这个视频叫《AI 里抛硬币，概率是 50% 吗？》你细想啊，这两个问题其实是一个问题。然后 team 他们这个团队在视频当中大概做了 100 多次实验，最后得出的数据是

70% 多的硬币是正面，而不是 50%。100 多次我觉得这个数量级也基本是够的。那为什么是 70%？这个解释起来，大家就会延伸到比如说这个模型的数据来源，跟这些数据来源当中硬币的比例的问题，包括可能后训练过程中大家的所谓的偏好，跟强化学习的过程导致的倾向等等。

这是一个信号，对吧？连 team 给天猫做 618 的视频都要讲世界模型。第二个信号是我的好友田凡，王田凡，BAI 基金的合伙人，他在 4 月跟 6 月分别发了两条集课。4 月的集课叫《目前看来，主流基金有几个合伙人，就有几个主流融资的世界模型》。

主流基金是红杉咯，是 IDG 咯，是高岭咯，这些基金可能有七八个、十个左右的合伙人。那也就是说在这些基金内部，就可能有七八条线同时在看不同的七八个世界模型项目。

这是他 4 月份发的。然后他在 6 月中，也就是上周也发了，他说每天收到至少一个世界模型的 BP，有种回到币圈的感觉了。

就是今天这个时间点，世界模型似乎是所有 AI 在做模型相关项目都要写在 BP 里的一个关键词。这是第二个信号。

第三个信号我觉得更有意思一点，也是引发今天我做这期播客的很核心的原因。其实我在我的标题里，在第三段放了一段小字，叫《从 Momenta 招股书看世界模型的路线之争》。

国内领先的自动驾驶公司 Momenta 最近通过了赶老手的遴选。我看了一下 Momenta 的招股书，他们此前一直是做自动驾驶的，那他们是如何看待世界模型发展，我觉得也蛮有意思的。

因为自动驾驶公司也是这一波世界模型公司的很重要的一些决策方。有了这三个信号，我开始做今天的内容。

我们正式开始今天内容。今天内容分四个章节。我本来是想按比如说 10 个问题那种方式来展开的，但是我通过跟 AI 的对话，几个模型都不建议我这么做，他们会觉得这种方式不太利于这个结构的展开。

最后我还是按正常的章节展开了。四个章节。第一个章节：为什么世界模型在这个时间点突然热起来了？

为什么是现在？第二个问题：世界模型跟大语言模型到底像不像？它有没有所谓的 Scaling Law，也就是标题的问题。

第三：Momenta 作为自动驾驶的代表公司，它为什么值得放在这个语境下来做单独的讨论。第四：物理世界的所谓世界模型的 AI 的 GPT 时刻到底来了没有？

它是一个偏这个时间点的结论的问题。所以四个问题：为什么是现在？和大语言模型的对比，Momenta 的主张，以及 GPT 的时刻是否到来。

先说结论：世界模型我觉得确实有些像大语言模型，但是它比大语言模型更贵、更慢、更依赖真实世界的数据。Momenta 的故事本质上是在讲一个自动驾驶这个场景里的 AI 的飞轮，但是放在泛通用领域来看，所谓的物理 AI 世界的 GPT 时刻，我觉得截止到 20 年中这个时间点，还没有来。

为何现在7:34

庄明浩7:35

这是我的结论。我们一章章来看，先看第一章：为什么是现在？这个热度从何而来？为什么今天这个时间点所有人都在讲世界模型？

一个直观的背景其实是语言模型的边界已经非常清楚，或者说在越来越清楚。大语言模型在过去这半年，我经常用的说法叫 " 挡不住了 "，对吧？OpenAI 跟 Safari 两家公司已经去碰万亿美金的估值了，他们已经马上去上市了。AI 领域的融资，尤其是集中在模型领域融资，可能占整个美国市场的超过 60% 甚至 70% 的状态了，而且这个数字大到所有人都忽略不

了。今天这个时间点的 AI 模型，尤其是语言模型，可以写作编程、总结、推理，Agent 可以调用工具，甚至大家去研究自主进化，所有的议题都推向了一个非常非常大的极端。

最头部的公司 AR 已经到了几百亿美金这个体量，两家公司加一起可能已经开始碰到千亿美金的体量了，对吧？

但所有这些事情，可能还是局限在语言这个领域。又因为这两家已经大到，可能对于很多早期基金来讲，已经没有办法去再去投资这些公司了。

也是因为这两家公司已经走到很多事情的极限里的情况下，那其他的可能性是否会出现呢？当然会了。

所以其实从去年大概下半年开始，出现了一堆我们叫 Neo labs，也就是新的研发工作室。

美国那边跟中国这边，基本上是从去年大概去年上半年其实有一些，去年下半年特别的多。这些公司的创始人大部分来自于那几家最头部的 AI 科技公司。

然后大概在 5 月份的时候，门洛这个基金，它的这个基金应该是每半年会出一个非常有名的关于 AI 行业的报告的。

那张非常有名的 ISOPC 在 2B 领域超过 OpenAI 的那个饼图，就是他们做的，就是那个基金，那个橙色 logo 的基金。

这个基金的 GP 在 5 月份做了一个统计，就是以他们能够覆盖的范围是，他写了大概 63 家 Neo lab 这样的公司，已经融了可能几百亿美金了。

这家基金，门洛这家基金应该是上上周刚刚募集了他们第 17 期早期基金加第 4 期成长基金，一共募了 30 亿美金。他们上一个轮、上一个周期里募了大概只募了 13 亿美金。

那为什么这一期超募呢？也就是因为这个环境变化导致的，今天这个时间点所有的 Neo lab 一出来就是融几千万美金、几亿美金，甚至像很多最最头部的 Neo lab 一出来可能融 10 亿美金、20 亿美金都有，对吧？

所以逼着这些基金变大。然后我们也在这些 Neo lab 里面看到了一堆绝对意义上这轮 AI 的创业的明星创业者：伊利亚、Mira、杨丽坤、李飞飞，我觉得都是。

然后呢，这些 Neo lab 他们出来做什么，其实我觉得也是共识。那些关键词或者那些核心的议题，本身来讲在过去这个可能大半年时间也被无数的媒体所报道。

比如说大家在研究能不能让模型自己进化、自己改进自己，对吧？无论是 loop 还是 harness，还是做很多其他的事情，都是我觉得最头部的模型厂商，包括这些最最最前沿的 Neo lab，都在尝试用自己的主张、主张来实现所谓的自主进化。

我今天会无数次提及这个主张。我觉得今天这个时间点，Neo lab 也好，最头部的模型公司也好，都在有所谓自己的主张。

今天的主张似乎已经不再是 bet 什么，而是在主张，也就是他们认为的路径应该是什么样。自主进化是一步，然后物理 AI 是一步，人形机器人、具身、然后世界模型当然也是非常非常重要的一步。

而且世界模型跟物理 AI 本身来讲，它的界限非常的模糊。然后当然还有一些做 AI for science 的，可能还有一些做 AI 模型 infra 的。

那大概就是那四五个关键词，可以几乎涵盖这六七十家 Neo lab 公司，对吧？然后我们再把目光聚集到所谓的世界模型上。

这个世界模型热到这个程度，所以出现了非常多的主张。那在这个时间点，作为行业绝对意义上的大咖和绝对意义上的核心的创业者，李飞飞老师在上个月发了一篇文章。

这篇文章其实在我上一期讲 AI 内容创作的那个播客，我也有提及。关注这个行业的人应该都看过那篇文章了。

就是当世界模型 World Model 成为所谓的 boardwalk，它变成了一个框，什么都能往里装，对吧？类似这样的角色或者这样的关键词，上一个可能还真的是元宇宙了，对吧？

所以李飞飞老师发了一篇文章来尽可能的溯本清源。对，在文章的最开始，李飞飞老师有一个很形象的说法，大意是语言模型像一个身处黑暗中的语言大师。

就是说大语言模型，它能言善道，博学多闻，但缺乏真实的经验，也缺乏根基。很简单的说法是 the world is not made of words 这是它的原文。

对，我觉得这个说法特别准确。一个语言模型可以读过无数关于杯子的文字，它知道杯子可以装水，杯子摔在地上可能会碎，推倒杯子水会洒出来，但它知道这些很大程度是因为文本是这么描写的。

它不是通过持续的观察光线、几何、力、摩擦、重力、液体流动而学到的这些东西。仲清有个说法说大语言模型是瞎子，对吧？

也就是说大语言模型学的是文本的统计规律，而世界模型要做的是时空的物理的统计规律。这个光线打到杯子上面，怎么来做折射反射，一个杯子推倒之后，它的轨迹是怎么变化的，甚至可能考虑到摩擦、材质，它是在桌子上，是在水泥地上，还是在冰面上。

一辆车在变道的时候，旁边的车辆跟行人的反应会是怎么样的？会慢下来还是会加速？机器人的手指碰到一个鸡蛋想剥鸡蛋壳的时候，会发生什么样的形变？

这个力度是多少？是煮熟的鸡蛋还是一个生的鸡蛋？就像当年天下五贼黎叔那样，可以用手去剥生的鸡蛋一样。

所有这些东西都不是语言的问题，都都是物理世界的问题。所以世界模型不单纯是一个视频生成模型，不是生成一段看起来很真实的视频就结束了。

很多时候它可能要回答的是，如果我在这个世界里做一个动作，接下来会发生什么。

如果一个模型只是根据比如说提示词生成一段很漂亮的视频，它其实还是在视频模型这个领域。

它能编出来一个看起来很合理的画面，但是它不理解物体的结构，也不一定能够保证所谓的物理一致性。

那今天我们在视频模型的很多厂商的示范视频里面已经看到这样的状态了。但如果一个模型能够让 Agent 在里面行动，并且根据所谓的行动来做实时的物理的反馈，那它似乎就更接近可交互的物理世界的模拟器，对吧？

举个例子，比如说如果我输入一辆车在雨夜高速上避让突然出现的障碍物，我觉得今天这个时间点，世界模型几乎都可以处理好这个提示词产生的结果。

镜头的晃动、雨水的反光、车灯扫过路面的效果，非常 OK。但是这个事情能拿来给自动驾驶公司用吗？

我觉得不太能。因为这个模型本身生出来的这个结果，它不知道什么时候该踩刹车，踩完刹车会不会追尾，后面有没有人，如果往左打方向会不会进入旁边的车道。

如果要保持车道但减速，那障碍物是不是会碰到，碰到障碍物会产生什么样的效果，什么样的速度下这个障碍物会对车产生什么样的效果，不同策略下的风险到底是什么。

所以这些问题都不是渲染的问题。所以李飞飞老师这篇文章非常非常清楚地把世界模型分了三类：渲染器、仿真器、规划器。

这三个名字一放这，你大概就知道他们在讲什么。第一类是渲染器，也就是它输出的是像素，主要服务的是人的眼睛，追求视觉的逼真。

已经关了的 Sora 和 Sora 2、Gemini 3，我们今天看到的很多世界模型号称在做世界模型，都是在做这个方向，就是渲染器。

它们就是确实是好看，能生成人眼看得起来可信的事情。但是问题就在于，它只是看起来 OK，但是实际上它可能不对。

第二类呢叫仿真器，它输出的是环境的状态，要求这个输出的状态里面的几何、物理、动力学都符合人类的现实世界的状态。

比如说一个自动驾驶的仿真系统，不能只要求所谓的画面的真实，它要保证车辆轨迹、碰撞关系、交通法则，所有这些事情都合理。

第三类叫规划器，也就是说光仿真还不行，我们还要做规划，还要做未来的事情。也就是说它要输出动作，比如下一步机器人该怎么抓这个东西，怎么去拧，然后自动驾驶的车怎么去转弯，怎么去加速，怎么去减速，它要感知所有这些可能发生的情况。

这三个东西看起来不太一样，一个是生成画面，一个是模拟状态，一个是生成动作，但它们底层需要的知识其实是一套。

就如果我们按预训练的数据的储备来看，其实都是几何、物理、动力学，以及环境当中各种各样对象的所谓的互动的规律。

所以现在行业最重要的其实在李飞飞老师里面也讲，就这三条线其实在融合，它们之间的界限在越来越模糊。

所以一个理论上，我们叫相对接近理想态的世界模型，应该是真的理解一个杯子放在桌子上的状态，它应该同时能做三件事情：你能从任意角度渲染这个杯子的光影效果，能模拟推倒它之后的运动状态，也可以规划一只机械手把它拿起来，并且保证它不碎。

这个就是理论中我们理想态的世界模型。所以世界模型看起来是一个非常非常大的概念，它既能连接生成式 AI，又连接机器人，又连接自动驾驶，那这个故事又跟我们所熟悉的游戏、娱乐，甚至工业仿真相结合。

它甚至可以被看作是 AI 从数字世界走向物理世界的底座。所以这个故事为什么这么大，也是这个原因。

所以一路走来，这个方向火成这个样子，并不是过去这一小段时间突然火的。其实过去几十年 AI 行业的发展过程中，这个方向上的很多探索也非常的多。

言义上面的逻辑，我们会发现非常多的厂商在过去一年做了非常非常多的尝试，比如说去模拟人类的梦境。

为什么是梦境呢？梦境在很多时候可能不那么符合人类的物理学，但是它大概是合逻辑的。比如说规划各种各样的路径，比如说 Sora 刚出来的时候的那个水杯的视频，也应该很多人很有印象。

比如说波士顿动力公司这样研究机械狗跟机械臂的这个这种公司，也在研究模型的事情。比如说前一段时间，世界模型直接生一句话生成可以去操作的类似 Doom 那样的游戏，对吧？

比如说让今天这个时间点机器人去叠衣服。本质上来讲，所有这些公司做的努力都是在为所谓的世界模型做推动。

然后你会发现，自然而然的在过去这段时间，最头部的这些所谓世界模型的初创公司拿了非常多的钱，对吧？

杨丽坤老师的公司、李飞飞老师的公司，都已经是几十亿美金的公司了。前两天我没记错的话，另外一位、另外一家之前就在做世界模型的公司叫奥德赛，就是奥德赛时期那个奥德赛，应该最近也拿了三四亿美金吧，估值也独角兽了。

然后更多初创的公司加入，然后你会发现 DeepMind 也在做这个事情，英伟达也在做这个事情，OpenAI 的 Sora 其实之前也是在做这个事情，但是 Sora 现在不做了。

对，很多公司未必在做的起初叫自己是世界模型，但似乎它们都在做一件事情，就是让 AI 进入真实的世界。

然后在这个事情上，其实中美也基本上是同步的。美国 CB Insight 的 2026 年 Q1 的报告已经出来了，Q2 还没有出，因为现在 Q2 还没有结束。AI 当然是最重要的主题。

那在 AI 的细分板块里面，有 11% 的项目投到这个方向上，是最大的分类，11%。因为它非常分散，但是在这个分散的状态里，物理 AI 的世界模型拿走了将近 11% 的融资额。

然后中国这边其实也一样，IT 局最近出了一份专门写中国的世界模型的初创公司的行业报告，然后如果大家有兴趣可以去，我会把它放在 show note 里。

它统计了可能三十几家今天这个时间点在 AI 的领域在做所谓世界模型的初创公司，85% 以上成立在 23 年之后。

对，然后已经融了几百亿人民币了。对，这个方向在中美两国之间基本上是同步的，非常非常热的。

那世界模型这么热，大家会说那是不是又一次的泡沫呢？泡沫这个词我也解说过很多遍，我也不想在这展开了，我不想去回答是不是泡沫，但你们能够看到这个热度背后代表的是非常真实的行业焦虑，对吧？

就是大语言模型已经证明了一件事情，是说如果你找到了正确的预测的任务，再把数据、模型、算力堆上去，能力就会得到提升，也就是所谓的 Scaling Law。

那问题就来了，物理世界能不能这样？大语言模型预测下一个 token，世界模型预测下一个物理状态，如果这个类比成立的话，那是不是物理 AI 的世界就被打开了呢？

所以自然而然我们进入第二章，到底它跟大语言模型是不是一样的，像不像，对吧？就是预训练的数据要求像不像，数据的环境搭建像不像，强化学习的过程能不能导出更好的结果，能不能所谓实现 Scaling Law，能不能在某些地方出现意外的涌现甚至泛化，对吧？

对比LLM22:07

庄明浩22:30

这几个关键词就是我们回头去看大语言模型的过程。所以我们再回到刚才今天可能无数次提及的大语言模型预测下一个 token，压缩的是我们所谓的常识跟知识，只要数据够多，算力足够强，合适的训练环境搭建，就会实现涌现和泛化，对吧？

给定上下文预测下一个 token，这个任务看起来今天回头来看，双引号的特别简单。所以为了预测下一个词，大语言模型已经可以模仿人类的语法、知识、常识、逻辑、风格，各种各样东西都可以，甚至某种程度上的推理都可以了。

那世界模型呢？这个循环能够建立吗？预训练、后训练、强化学习、Scaling Law、涌现、泛化，世界模型可以吗？

世界模型压缩的是物理行业的定律，那这些原始的数据从哪来？这个训练环境怎么搭？搭好了之后，我们用所谓人类偏好的强化学习能够提升效果吗？

我们是否看到了涌现呢？

比如说自动驾驶这个世界里，当前的摄像头、雷达、地图、车速、周围车辆的状态，应该都这个数据应该是都拿得到的。

那给定一个动作，刹车、加速、变道，模型要预测几秒之后世界发生了什么，这个状态达到了理想态吗？

那机器人也一样啊，给定机械臂当前的状态、视觉画面、目标物体的位置，再给你一个动作，你要模型要知道这个动作指令下发之后，你要抓的东西能不能抓起来，会不会抓落，会不会掉，会不会滑倒，会不会碰到旁边的东西，对吧？

那么问题自然而然就来了。很多人会说语言其实只是现实世界的极度压缩，一个很简单的类比是说，人类所有的语言跟这个数据加在一起，跟一个 4 岁小孩去比它所接收的所有的感官数据而言去比，都比不了。

整个物理世界的数据太过复杂，也太贵了，双引号的贵，对吧？成本是非常重要的。那我们会想，大语言模型的数据从哪来的？

互联网的文本、网页、书、代码、百科，对吧？虽然越来越对数据质量的要求越来越高，但几乎这些数据都是相对比较容易得到的，而且规模很大。

但是世界模型的数据从哪来呢？真实世界的交互，对吧？自动驾驶要在路上真的跑，机器人真的要去做很多工作，工业仿真真的要靠传感器、设备、流程。

你想想这每一条数据背后涉及到的硬件、场地、人力、安全、合规，各种各样的成本，这个事情跟爬一个网页不可能是一个数量级的。

而且还有一点问题在于，物理世界的数据的与数据本身的信息密度可能更低。为什么这么想？你想，一句话里其实语言它包含的信息密度是很多的，对吧？

语言包含的信息密度是很多的。

比如说司机看到前方儿童突然间跑出来了，急刹并且向左避让，这是一段语言。你用视频来记录这件事情，就是几秒钟，然后摄像头、雷达、轨迹、标注，数据量就标完了。

但是这里面真正的事实只有那一瞬间。这是为什么是说视觉的密度其实是比语义的密度低的，对吧？

其实很多人原来认为是反的，视觉的密度是低的，语言的密度是更大。所以要训练出对标大语言模型的世界模型，所需要的数据量可能不是多一点，而是要多几个量级，因为光靠视频是不够的。

所以物理世界的世界模型的 Scaling Law 可能不会是出现像大语言模型那么简单的越多越好，因为它需要真实的数据很多，然后要筛出来其中的所谓高质量的数据，然后这里面高质量的长尾数据要足够长，才可能保证模型的安全的边界。

因为前面也说过，世界模型对于安全的要求更高。那么接下来问题就出现了，今天这些数据确实很难拿到成本很高，但是毕竟还是可以拿到一些的。

那是在一定程度上数据 OK 的情况下，或者说阶段性 OK 的情况下，能出现涌现吗？接到这个时间点，我觉得还没有出现涌现，还是回到数据这一层。

我觉得首先麻烦的是数据供给的问题，能不能持续的获得真实世界的数据，数据的样本是不是足够多样，包括包含长尾场景，哪些是高质量的，能不能闭环反馈，就强化学习到所谓的模型的数据环境里。

这件事情你听下来就特别特别，为什么会大家那么多的一次次的把这个事情跟自动驾驶关联的那么深。

听起来自动驾驶应该是世界模型最先落地的场景，这个没有任何意外，因为相较于所谓的机器人而言，车已经真正意义上跑在路上了。

每一辆的量产车都是一个非常非常强的数据的采集点，它每天要开不同的路，经历不同的天气，在不同的样的城市，面对不同不一样的交通环境，真实世界一次一次在给它喂数据。

用户的生成内容，就是用户开这个车变成了这个内容数据的来源。当然这件事情能不能直接套用刚才我们说过大语言模型的所谓的乐观的叙事，我觉得也有比较难，因为在大语言模型里面，这个数据要大到一定量级，到了一定所谓的阈值之后才出现了涌现。

那在世界模型里，这个大要到什么样的程度，也就是说那个阈值到底在哪里，现在大家我觉得还没有观察的太到。

因为我们从结果来看，现在世界模型确实有很多的模型公司可以生成所谓双引号的世界，可以预测一些简单的状态变化，甚至可以在一些特定的任务场景里指挥机器人也好，或者自动驾驶也好，行驶行动的能力。

但是这件事情距离所谓的自主理解整个物理世界的因果关系，并且在开放世界当中可靠的行动，还有很长的距离。

所以最近不也有厂商在主张所谓的因果模型吗？对吧？就是把因果强调的比较高，我觉得也是一种主张吧，对吧？

你也很难说对谁错。然后如果一定要用所谓的 GPT 来做对比的话，我会觉得今天这世界模型很像可能 GPT-2，GPT-2 的时刻，还没有到 GPT-3，GPT-3 已经基本是数光了，因为 GPT-3.5 就出现 ChatGPT 了。

它状态就是大概率这个方向很多人越来越信，并且演示起来也比较兴奋，资本也很密集在投，但是距离到所谓 ChatGPT 那样一个大众级别认可的状态，我觉得还有一段时间。

所以我的结论也一直在今天非常多的次提及，就物理世界的世界模型可能存在所谓的 Scaling Law，但是它不会像文本世界，就是语言模型那么的平滑快速。

对，它更像一个高摩擦版本的 Scaling Law，数据更贵，反馈更慢，安全要求更高，长尾更复杂，而且看起来每一个垂直场景在这个时间点都有所谓的数据壁垒。

那么每一个垂直场景都有壁垒的情况，造成了什么样的结果呢？那我们就在今天这个时间点，自然而然的看到了参与这个世界模型主张的各种各样的角色。

前面提到了一些像李飞飞老师、杨立坤老师他们这种叫我们叫初创的公司，真正意义上在做这一波新的世界模型的初创公司，这是一对

。具身智能公司，对吧？机器人公司，然后自动驾驶公司，刚才已经提过很多次了。那世界模视频模型公司当然也会喽，甚至那些之前在做 AI3D 模型的公司也是。其实这个逻辑我刚才我在我的去年的演讲总结也讲过，我说多模态战场在经历从垂类战场到统一战场的变化，那个统一战场就是世界模型。

那我原来给这个定义的时候，只是把多模态视频，然后多模态模型厂商放进来了。那今天这个模型这个范围进一步放大了，它出现了自动驾驶公司、具身智能公司，对吧？

那很正常，对吧？因为大家确实远期的目标是差不多的，每一个厂商都有自己的主张。对，今天我真的无数次提及主张这个说法，我们简单看一下，我们就把这个领域目前最最最名头最大的三家的主张拉出来。

先看杨立坤老师的所谓 JPA 派，对吧？杨立坤老师，他想在做的世界模型是不生成像素的，他是在潜在的空间里预测状态的变迁，他是不跟像素走在一起的。他的优势就是计算效率比较高，泛化性强，但是劣势是可解释性会比较差。

然后哈萨比斯就 DeepMind，他们在做的还是偏多模态加演进的这个状态。所以你看 DeepMind 的 GENE3 的很多演示，还是基于视频生成加可操作的这个角度去演化。

所以它保留了大语言模型底层的技术架构，然后叠加了视觉空间感知跟强化学习的过程。我觉得这是一个相对比较务实的路线，而且看起来确实已经出现了一些比较好的效果。

我也用过很多次 DeepMind GENE3 的视频来做 PPT 的示范案例，对吧？然后然后就是李飞飞老师他们的做的 World Labs，他们叫 3D 空间表征派，就先把世界这个本身的世界生成出来，对吧？

他们赌的我觉得就是空间，空间的概念，或者说空间物理是表示这件事情的基座。三位绝对意义上的行业最明星、最前沿的科学家们都有自己的主张，在技术路线上出现了所谓的分野，你很难说谁对谁错，对吧？

Momenta主张33:05

庄明浩33:05

那我们就进入第三章，对吧？那既然大家都有自己的主张，也很难在这个时间点说谁对谁错。那我们就看看自动驾驶派的代表公司 Momenta 的所谓它的主张是什么。

我们去看看它作为自动驾驶公司内部所谓的 AI 模型的演进过程，最新一代的所谓世界模型的架构设计，以及为什么是这样一家公司能够在这个时间点有所谓的壁垒的存在，对吧？

我们聊 Momenta 的时候，我建议大家如果有兴趣去翻一翻它的招股书，其实并不长，尤其是核心的业务部分并不长。

你可以看到一家自动驾驶公司去对世界模型的理解，它不是说我也能做世界模型，它更多的说的是说怎么去持续的拿到真实世界的数据，并把这些数据用到模型上来提升模型的能力。

它更像是一个物理 AI 的在这个时间点的商业样本。对，因为它已经有商业的实施，它不是一个纯 lab，对吧？

所以那我们就正好看一看 Momenta 的主张是什么。然后今天早上应该是他们已经在招股了，对，及时的投资人差不多已经定了。

我看了一眼新闻，都是长线的一些大家非常知道的对冲基金，比如说像富达，富达应该是重仓了之前重仓了宁德时代吧，我没记错的话。

然后寒武纪应该他们也投了不少，重仓的比较多光模化算力的公司。然后贝莱德可能是全球当下应该是目前最大的资产管理机构吧，腾讯、阿里、比亚迪他们应该都非常非常长期。

然后橡树，对，传奇投资人华德 · 马克斯的资产管理公司也是可能跟中概股比较合作很多年的这个这个对冲基金。他们之前应该是我没记错的话，应该是参与了宁德时代的港股的 20 倍售，没记错的时候是。

然后比如说像富兰克林 · 邓普顿基金、耀明 · 康德、宁德时代、未来、中际旭创，他们应该都是比较长期的持有者。

所以你看这个即时投资者的构成基本上排面拉满了，我对吧？然后我们作为这个当前这个时间点自动驾驶的行业的代表公司，我们看一下 Momenta 在所谓的业务角度来看，它会认为它已经实现了刚才我们前面提及的这个飞轮的状态。

这个飞轮如果我们放到模型角度来看，就是它是一个做自动驾驶的方案的公司，然后它跟所有的汽车厂商合作，做自动驾驶的汽车，这些量产车的业务基本上负责规模化的部署，给公司带来收入，同时也带来最重要的真实世界的驾驶数据，前面提及的。

然后他们把这些数据用来训练跟优化模型，他们的模型变形之后，反补给他们的自动驾驶的业务，以及他们给未来要做的 L4 的业务。

然后 L4 的相关的尝试可能又回来反补了量产车的方案。简单讲就是一个更多车带来更多数据，更多的数据带来更好的模型，更好模型带来了更多车企的合作，更多合作带来更多的车。

这是一个听起来非常非常简单，很容易理解的飞轮，但是能够实现这个飞轮转起来的潜力条件其实是蛮多的。

就这个飞轮的解释并不难，但是这个飞轮怎么转起来我觉得是难的。那 Momenta 的壁垒到底是在何处呢？

我觉得你要先有车的客户，然后有量产车，对吧？然后你要先有量产车，你要有数据，你要先有数据才有模型进步。

所以它是一个寄生机，所以它是一个寄生蛋跟诞生鸡的问题。比如说第一个壁垒是数据规模，招股书上显示截止到 2025 年底，Momenta 安装的车辆超过 68 万辆，目前搭载 Momenta 系统的量产车辆规模已经超过了 90 万台，市占率应该超过 65%。

对，这个数字已经接近 2/3 了，对吧？然后它和全球 24 家车企合作，覆盖了全球前十大车企中的 9 家，很多车企都是他们的战略投资人，对，绑定关系非常深。

然后这里面就出现一个变化是说，今天这个时间点，其实特斯拉也会在做自己的自动驾驶，而且做了很多年，也很强。

那国产的未来理想、小鹏、华为也都在做自己的自动驾驶。那 Momenta 跟他们的区别在于，它不是一个单一厂商合作的关系，它带来的数据是不同车企、不同车型、不同的价格带、不同的区域、不同驾驶风格，这种多样性是要远比任何一家汽车厂商自己要复杂的多的，对吧？

那模型训练大家会说最怕的就是训练的数据的分布太窄，对吧？那如果你只熟悉偏一种车或者一个城市，或者某一类的驾驶行为，那你很难去期待那个训练好的模型的泛化能力变得更好，对吧？

模型的泛化可能更多跟数据的多样性是有正相关关系的。这是第一个壁垒。第二壁垒是商业规模，今天很多公司讲的非常非常远大的故事，但是这些公司其实在这个时间点没有稳定的现金流，对吧？

机器人公司、具身智能公司、世界模型的初创公司，本质上讲都在烧钱的阶段。当然现在资本热，大家可以融到很多钱，但万一如果资本出现一些变化，这些公司可能还在研发过程中，就出现了非常大的公司现金流的问题。

那 Momenta 的好处是说，在事业模型的研发过程中，现有的基础的自动驾驶业务已经为公司提供了稳定的现金流。Momenta 的招股书上是从 23 年到 25 年的营收数据，从七点几亿涨到了 25 年的二十几亿。

更重要的数字是，Momenta 的毛利是从 23 年的 17.5 提到了 25 年的 71.6，这个毛利水平其实是一个非常非常可怕的数字。

如果我没记错的话，英伟达的毛利水平也大概是百分之七十几，对吧？然后还有一点变化是，Momenta 的许可事务在变得越来越多，它非常像软件行业的 SaaS 服务，毛利会提得更高。

它的收入结构正在从所谓的项目值变成所谓的软件许可值，那软件的毛利当然会比所谓的项目执行值变得更高。

当然了，Momenta 今天还在亏损，对吧？但是它的这个亏损规模在收窄，并且历史上应该融了我没记错小 100 亿吧，再加上这次上市，我觉得钱本身的这个这个基础可能也是个基础。

所以他们 CEO 曹旭东说了一个说法叫门票理论，他说物理 AI 一定要有所谓的现金流业务作为支撑，因为物理 AI 不单纯只是软件的生意，你要上车、测试、部署、合规、维护、跟厂商磨合，它不像一个 APP，对吧？

上线之后就可以全球分发，没有现金流，我觉得很难熬过所谓的非常长的长周期。因为刚才我们说过前面的我的决定，或者说我的判断大概是 GPT2，那什么时候到 GPT3 跟 3.5 到 ChatGPT 不知道，对吧？

所以这个周期可能会很长。第二个壁垒商业化的能力，第三个壁垒所谓的工程化的能力。今天的所谓自动驾驶已经不单纯只是纯粹意义上的论文的比赛了，你有算法也没有太多的意义，对吧？

难的还是工程化的部署，要部署到不同车型、不同传感器的配置、不同车企的流程里，还要满足量产的要求，质量、安全、成本、交付周期。

然后招股书里显示，Momenta 已经交付了超过 100 款量产车型，更夸张的是部署速度，他们从 2022 年第一个 10 万台量产是用了 24 个月，到今天最快可以不到 40 天完成 10 万台的交付。

这个变化意味着，他们已经把量产交付变成了一种所谓的平台能力。很多公司可以做一个 Demo，但是它很难在很短的时间做到这么大的部署。

第三个壁垒所谓工程化能力，第四个壁垒我觉得是技术路线上的选择。Momenta 的算法演进我觉得是很清楚的，他们从 22 年开始做所谓的深度学习跟模块化系统，到 2024 年、25 年左右开始引入 Dot-2.0 的大模型，把感知和决策放到统一架构，然后从真实世界的自动驾驶的数据里面做强化学习。

然后到 R6，它的模型内部的编号 R6 的时候，就是 2025 年真正意义上把强化学习引入到全流程的过程中，提升能力。

再到现在它最新的 R7，R7 的主张就是 Dot-2.0 的大模型加强化学习加事业模型的方向。R6 的重点是让系统不单纯只是模仿人类的驾驶，更多的是在仿真环境中通过奖励机制学习更优秀的驾驶行为，就是非常典型的强化学习，来奖励覆盖安全、舒适、效率的目标。

这非常关键，因为强化学习能不能产生好的结果，直接影响了后面所有的事情，对吧？就跟 AlphaGo 讲了 50 次一样，模仿人类总会有极限，但强化学习一旦开启就起飞了，对吧？

然后到 R7，我觉得真正意义上 Momenta 把他们的 R7 定义叫事业模型的方向，他设计了 R7 这个事业模型的三层的架构。

第一层是所谓的事业模型的预训练，也就是通过海量的真实驾驶数据，把物理规律、常识和因果关系，对因果关系再次提到因果，压缩进模型里，让模型对世界形成基础的认知，就跟我们通过预训练的方式把模型训出来一样。

然后第二层是事业模型的仿真，我觉得更像大语言模型里的数据环境的搭建，让模型在闭环的仿真环境中推演。

如果车采取某个动作，周围世界怎么变化，尤其是长尾的场景当中，一些比较少见、很难复现的东西，可以在仿真当中做评估。

然后第三层就刚才前面提及的，真正意义上让模型在进化中强化学习，也就是让模型不那么参考人类是怎么开车，更多的是在一个高度接近真实的世界的虚拟的环境里面反复的试错，怎么去学习更安全、更高效的决策。

这个就是 Momenta 在讲的所谓物理世界的 AI 的故事。这似乎也是为什么 Momenta 的招股书在当下这个时间点值得被聊一聊的原因。

它可能我们原来很多人认为它只是一家自动驾驶公司，但是今天它在讲的是物理 AI 基座模型的公司，也就是事业模型的公司。

自动驾驶只是这件事情的第一个大规模落地的场景。所以纯从投资人角度来讲，如果你只把它看成一家自动驾驶公司，你当然会问车企的自研你怎么看，价格会不会被压下来，毛利会不会出现问题。

但如果你把它当成是一家物理世界的 AI 世界模型公司来看的话，那当然你就会关心我今天这个播客里关心的问题：真实世界的数据飞轮能否持续，能否把这个模型的能力泛化到自动驾驶的其他领域，甚至是机器人，甚至其他领域，对吧？

这本质上来讲，这两个叙事逻辑就完全不一样。但也似乎正是因为如此，这件事情的风险也变大了。

因为单纯只是一家自动驾驶公司，它的风险可能更多聚集在那些更细节的问题上。但如果是我们想了一个更远期的故事，这件事情的风险可能就变得更复杂了。

所以 Momenta 这个时间点上市，我觉得阶段性证明了它在自动驾驶领域的能力状态达到的里程碑，再往后的故事变得更重要。

它确实是目前自动驾驶行业里面非常少有的把数据商业化、工程部署、强化学习和事业模型的整个叙事组合在一起的一个样本。

GPT时刻45:13

庄明浩45:13

如果物理世界的 AI 真的存在所谓 Scaling Law 的话，那 Momenta 的这个飞轮我觉得是一个非常值得观察的案例。那所以就来了最后一个问题，我们标题问的是 Scaling Law，这个问题在更深层次或者更针对性的问，应该就是事业模型是否到了所谓的 ChatGPT 时刻。

那前面我说过没有来，对吧？那我们展开一点来聊。我会觉得 AI 事业模型的 GPT 时刻不会像文本或者说语言模型那么突然，它可能是一个渐进式的过程，它会在一个一个场景里面跑通，然后慢慢慢慢拓展。

那最先落地的今天已经无数提及，它很有可能是自动驾驶，对吧？因为自动驾驶这个行业有最多真实世界的数据，有最强的安全的需求，当然也有最清晰的商业模式。

再往后可能是交互内容，也就是影视内容创作这个板块，这里面的融错率会更高，对吧？它不需要对所谓的物理世界负那么高的责任，用户也愿意接受所谓生成式的体验。

那李飞飞老师的 World Lab、阿尔萨比斯的 DeepMind 的 Gen3，大概率应该会在游戏开发、虚拟世界、影视这个板块找到比较多的价值，这个其实已经在过程中了。

然后更远的可能性可能就是机器人、具身智能，对吧？可以成为机器人的训练场。那很多人都在讲这个故事，降低机器人训练的成本，但机器人听起来应该比自动驾驶要难得非常多，因为车本质上讲还是在一个偏二维的路面上行驶的。

但人，尤其是具身的机器人，对于三维空间、动力学、柔性物体、手眼协调、不同材质、形变这些东西要求更多。

然后再远的可能是当年元宇宙的讲过很多的故事，比如说工业仿真、数字孪生，甚至可能跟另外一个今天我们前面提及的共识 AI4Science 也有相关，甚至可以大家去通过 AI 的方式做科学发现，对吧？

那当然这些东西都是更远的问题了。所以那单纯只是在事业模型中心判断来，终局判断来说，我觉得今天现在可以下一些判断。

第一个判断是三线合一，也就是说李飞飞老师所讲的渲染、模拟跟规划三条线正在融合，边界正在消失。

理想中的事业模型对那个杯子的理解应该是能同时做到那三件事情，对吧？渲染、模拟、规划，对吧？

然后这三个能力其实是同一件事情的三个不同的投影，彼此的边界其实在消失。三者合一可能将定义机器智能跟物理世界的关系。

对，第一个三线合一。第二个判断是大概率这个行业不会像语言模型那样，只有最后几家形成所谓的垄断跟赢家同吃，对吧？

因为文本跟语言基本上是相对比较通用的。但是我们前面提过，物理世界的多样性太复杂了，自动驾驶的数据、机器人的数据、工业的数据、仓库的数据、手术机器人的数据都不一样，甚至游戏世界数据也不一样。

至少在这个阶段，我们看起来每一个场景里都有自己的传感器，有动作的空间，有风险承受的程度，甚至有自己世界的物理的规律跟商业的约束。

所以至少这个时间，我们会觉得物理世界的 AI 跟事业模型可能不会像通用的语言模型那样，由少数几个模型公司来完全垄断，对吧？

自动驾驶有自动驾驶的事业模型，机器人有自己的机器人的模型，游戏跟 3D 可能有自己的模型，工业仿真可能也有，对吧？

它们在底层可能是在共享一套视觉空间物理几何的表征，但是彼此的数据壁垒我觉得会非常非常强。

这我觉得也是为什么像 Momenta 这样的公司可能会有机会，它未必会成为那个最大的物理世界的 AI 的基础平台，但是它能在自动驾驶这个领域，这个高价值的垂直场景里建立自己的事业模型的飞轮，并且看起来已经在建立的过程中。

第三个判断就是最后的判断，就 GPT 时刻没有来。为什么这么说呢？我们回回头想当年的所谓的 ChatGPT 时刻符合哪些规则。

第一，大众用户有直接的感知，我印象特别清楚，就是连我们这些对 AI 没有什么理解的人，第一次用到 ChatGPT 的时候都会感知到巨大的冲击，对大众用户有比较明确的感知。

第二，产品的门槛极低，对吧？ChatGPT 打开网页就能用。第三，通用性足够强，你问它任何问题它都能干。

第四，整个产业链的各个层级开始出现爆发。事业模型我觉得没有完全达到这些条件，在某些条件上可能在达到的过程中，但是远远没有达到理想中都达到的状态。

它的进展可能更多发生在学术界、工业界跟我们这些做投资的关注的场景里。大众的用户我觉得现在看到的更多是一些很酷的视频，像北京的机器人马拉松这种，对吧？

演示跟宣传片，但还没有一个像 GPT、ChatGPT 那样一个人人可用、人人震撼的产品。更重要的是，事业模型面对的是物理世界，物理世界不允许你差不多，对吧？

预测下一个 token 是有概率的，但是物理世界对于概率的要求要高得高得多得多，对吧？因为一点点闪失可能就是一个事故。

所以我会觉得物理世界的 AI 的 GPT 时刻可能不会像语言那么突然的到来，它可能是一个渐进式的过程。

事业模型提供了一条让 AI 从语言进入到物理世界的可能的路线，但这个路线经过今天的演讲、我的播客，你会发现它需要真实的数据、工程化的系统，甚至商业的闭环跟长期性的不断的铺才能铺得出来。

所以回到今天的最后一页，过去几年 AI 最强的能力大家已经看到了，是处理语言，所以叫大语言模型。

它能读、能写、能总结、能推理、能编程，但人类的世界似乎不单纯只是语言。我们生活的这个世界里，它有重力、有光线、有材料、有速度、有摩擦、有因果链条。

所以大语言模型更多是让机器理解了人类如何描述世界，也就是语言。那么事业模型在做的事情，就是让机器理解世界本身到底是如何运行的。

所以回到今天播客的标题，到底有没有 Scaling Law？我的答案是可能有，但它不是语言模型的 Scaling Law 的复制。

前面说过，语言模型的 Scaling Law 是一个低摩擦度的，是通用的，但是物理世界的 Scaling Law 可能是高摩擦的。它需要非常非常复杂的多样性，需要车、需要机器人、需要传感器、需要场景、需要安全、需要监管、需要客户的实施、需要世界每天给它持续的反馈。

它可能是一个巨大的飞轮，慢慢慢慢的启动，越来越重、越来越重、越来越重。但是当它真的转到一定速度之后，它就可能就会非常非常的快。

所以事业模型还没有到 GPT 时刻，但它可能正在经历类似 GPT-2 左右的时间点，方向已经非常清楚，能力已经在很多细分场景里面出现了显现，资本已经下了重注，一些小的商业样本已经开始出现了。

接下来真正要看的是，就不是谁的 Demo 强了，是谁能把整个的所谓的飞轮转起来，谁能把模型真的放到真实的世界里，在安全、成本、性能、商业化之间找到那个稳定的平衡点。

所以从语言到世界，AI 的下一段路才刚刚开始。好，感谢大家收听《屠龙之术》，然后也欢迎大家评论、点赞、转发。

感谢，感谢

。