开篇0:00
哈喽大家好 , 我是明浩 , 欢迎大家收听我的播客 。 看了一下 " 屠龙之术 " 的后台 , 上一期关于 Manus 的播客的更新时间是 3 月 14 号 , 嗯 , 过去了 2 周的时间 。在过去 2 周时间里面 , 行业内关于 Agent 的探讨非常的热烈 。
但是即便我在上一期播客里面就提到 , 我说 " 今天这个时间点大家谈论很多 Agent 的事情的时候 ",是空对空的谈概念 。
即便有了 Manus, 这件事情依然没有得到特别多的改善 。 嗯 , 近期有朋友找我 , 给他的同事们聊一聊 AI Agent 的事情 , 然后所以有了今天的内容 。
我今天的内容当中有一部分其实来自于上一期关于 Manus 的内容 , 大概 1/3 左右吧 。 还有一部分内容是一些延展跟展开 , 我们正式进入今天的主题 。
我给今天的主题起了个名字 , 叫 " 没有人知道到底什么是他妈 Agent", 用了一个有一些情绪的表达 , 这可能就是代表了今天这个时间点的状态 。
在正式内容开始之前 , 先讲一个小故事 。 听我播客的人应该大部分人是知道一个社群 , 叫 " 群响 " 的 。 对 , 就是刘思义做的那个群响 。
嗯 ,是主要做付费的社群 。 它的付费会员大部分是比如说 , 呃 , 做 IP 的 、 做自媒体的 、 做所谓的操盘手的 、 做直播的 , 包括 MC 老板 , 跟做比如消费的 , 可能还有一些网红 。
对 , 然后, 呃 , 它的社群在上上周的时候公开了一次活动的介绍 , 就是他们本来预计在 4 月 12 号到 13 号在北京线下会有一次大课 , 两天一夜 ,有 12 位嘉宾 。
呃 , 这个大课的主题叫 "AI 赛道的创业大课 ", 会讲 AI 行业的概览 :AI 与 IP、AI 与私域 、AI 与创业者 。 群响的组织者刘思义找了十几位她认为非常适合这个话题的嘉宾 , 来去做这样一个课程 。
群响的会员每年, 没记错的话应该是 1999 的会费 , 然后所有的会员是可以免费参加这种大课的 。 按照群响之前的经验 , 每次这种大课无论是什么主题 , 一般参会的人数应该在 2000 到 3000,因为它有 1 万多的会员 。
这是一个常见的数字 , 所以它每次大会都会非常多人。 然后大家可以猜一下, 面对一个 AI 这样的主题 , 这次大会大概有多少人报名 ?
大家可以想一下这个数字 。 之前的参考是 1 万多会员 , 每次大会会有 2000 到 3000 的人会来大会 。 这一次关于 AI 这样的主题 , 大家想一想应该会有多少人 ?
最后的答案其实没有太多人报名。 没有太多人报名。 刘思义在她的公众号里面写 , 她说原先以为这种话题会立刻爆炸 , 第一篇第一天可能就 3000 人报名就满了 。
但是实际上 ,在他们全力推荐的情况下, 第一天只有 900 个人报名。
比预期的少了一半还多 。 然后刘思义就想 , 为什么会这样 ? 按理说 AI 不应该是最热的话题吗 ?
所有人不应该最关心 AI 吗 ? 她后来想清楚一件事情是说 , 中国的创业者面对 AI 的基本事实是 : 大家都知道 AI 是一个宝藏 ,但是大家心里都很清楚 , 没有人, 没有人, 至今为止 , 除了收割焦虑和讲点逻辑 , 没有人真的探索出一套解决方案给大家服务 。
我觉得写得非常的直接 。 这可能也代表了今天这个时间点 , 我们去探讨所谓的 AI 落地 AI Agent 的一个角度 。
也是在差不多的时间 , 嗯 , 我平时看 Newsletter 比较多 ,有一个专门写 AI 的 Newsletter, 那天写了一个统计数据是说 ,在美国的 ToB 企业的调研的数据统计里面 ,在 25 年初这个时间点 , 回看整个 24 年, 有 94% 的企业的对于他们的 AI vendor, 就是给他们提供 AI 服务的服务商们 ,是不满意的 。
94% 是不满意的 。 也就是说只有 6% 才是满意的 。 对吧 ? 这可能也跟刚才前面讲的这个事情是相关的 。
同时更讽刺的是 ,在上周我们在市面上大家可能也看到了 , 嗯 , 应该是机械工业出版社出了一本 Manus 极简入门的书 。
关于 Manus 的书已经出现了 。 特别特别的讽刺 , 对吧 ? 这种冲突跟对立 , 可能也是当下这个时间点这个行业的状态 。
然后再看一个热乎的新闻 ,是我录制播客的前一天 , 中国头部的 AI 模型公司智谱发了他们的 Agent 产品 。
这个东西叫智谱 AutoGLM 沉思 。 这是一个类似 Deep research 的 AI Agent 产品 。 我再重复一遍 , 智谱发布的这个东西叫 AutoGLM 沉思 。
这是一个类似 Deep research 的 AI Agent 产品 。 我们回看这句话 , 假想如果今天你是一个不太关心 AI 行业的人, 你看到这几个英文单词 , 你都会冒出无数的问号 。
什么叫 Agent? 什么叫 Deep research? AutoGLM 是什么 ? 是不是还有个叫 GLM 的东西 ? 那 " 沉思 " 又是什么意思 ? 对吧 ?
每一个关键词 , 我觉得都够我写几十页的 PPT 来展开 。 这或许也代表了这个行业当下的一种状态 。 你会发现概念被无限的泛化 。
从业者 、 从业者和用户之间对于这些东西的理解 , 无限的割裂 。 产品和技术之间的边界无限的模糊 。
从公司内的视角来看 , 技术产品团队跟市场公关 PR 团队互相不理解 , 甚至互道傻逼 。 对吧 ? 这是现在的状态 。
那讲完了这两个小的故事 , 我们正式进入今天的内容 。 我把今天的内容分了 6 块 。 第一块 ,AI 的 L1 到 L5。
如果听过播客比较多的话 , 应该知道这是一个老生常谈的问题 。 第二块 , 模型还是产品 。 也是上一期 Manus 讲过的一些内容 。
第三 , 盲人摸象 。 对 , 我用盲人摸象来形容当下这个行业的状态 。 第四 , 共识形成 。 也就是说在 25 年初这个时间点 , 对于 Agent 的共识其实是有一些收敛的 。
那我们看第五个部分 , 正在发生什么 ? 正在发生 。 第六 , 我的保留节目暴论输出 。 你会发现其实今天的内容可能没有什么结论 。
L1至L57:33
呃 , 几乎没有什么结论 。 更多是一些逻辑的推演跟现状的罗列 。 我们进入第一部分 。 AI 的 L1 到 L5。 听我播客应该这件事情已经重复了不知道多少次了 。
OpenAI 定义的 OpenAGI 的发展路径 ,L1 聊天机器人,L2 推理者 ,L3Agent,L4 创新者 ,L5 组织者 。
我们如果只说今天这个时间点的状态的话 , 世界范围内的头部公司在现在大部分都在从 L2 往 L3 走这个节点上 。
嗯 , 前两天广密跟小俊的每个季度的大模型更新里面 ,其实也 echo 了这个时间点 , 就是我们在从 L2 往 L3 走 。
我们回头来看 , 我们是怎么走到 L1 的 。 从几年之前的非通用大模型走到了通用大模型 , 对吧 ?
我们最早研究人工智能的时候 , 基于规则 。 后来有了机器学习 , 再后来有了神经网络 , 再后来 Google 发布了 Transformer 架构 , 引发了这一轮 AI 的热潮的兴起 。
然后到 22 年有了 GPT-3, 到 22 年底我们有了 ChatGPT, 正式引爆了这一轮 AI 的探讨 。 所以我们在那个年代 , 或者说我们在 L1 获得了什么 ?
我在上一期讲 Manus 的时候也讲过 , 我们获得了通用大模型 。 通用大模型 。 通用大模型相较于上一代的 AI 的模型们而言 , 最重要的是它不需要限定具体的场景 , 它不只解决一个具体的问题 。
对吧 ? 就上一代的 AI 四小龙为什么都是做视觉的 ? 为什么最后大家都去做摄像头跟安防了 ?
就是因为上一代的 AI 能力可能更多的是叫单一领域的数据集 , 完成单一的任务 。 那今天我们在 L1 的时候得到了一个通用的大模型 。
通用 。 那我们又是怎么走到 L2 的 ? 这个我也讲过好几遍了 ,也要感谢 Manus 团队张涛老师那次分享 。
我们在得到 L1 之后, 大家发现 , 嗯 , 大模型像一个巨大无比的知识库 。 我们通过输入的方式刺激它的输出 。
嗯 , 你的输入总是有限的 , 所以它的输出总是也有限的 。 那大家就会想 , 能不能用什么方式让我们的输入变得复杂 , 进而刺激整个大模型给我返回的结果变得更复杂 。
所以有了 COT, 对吧 ? 有了思维链 。 有了思维链之后, 大家又发现一个现实的问题在于 , 可能大模型在训练的 pre-training 的角度而言 , 数据已经几乎没有了 。
那开始大家强调 post-training, 后训练 。 那 post-training 的时候又会出现一些争论 ,是说那我们到底是针对思维链的每一环 、 每一个 step 来做激励 , 还是针对结果来做激励 ?
对吧 ? 就是当时会有了 PRM, 针对过程做激励的这样的探讨 。 但是事后的证明大家也知道 , 现在的情况来看 , 我们并不需要针对过程中的这些东西做限制跟做激励 。
我们只需要针对结果做激励之后, 通过非常简单的强化学习 , 我们就得到了 L2。 当时在探讨 L2, 就是 Deepseek 那期播客里面 , 我们提到会说 , 无论是 Kimi 还是 Deepseek 复现 L1 的过程中, 都遵循了一个原则 , 叫更少的控制 , 更多的智能 。
那截止到今天这个时间点 , 这件事情已经成为了共识 。 也就是说我们是怎么走到 L2 的 ? 我们通过强化学习的方式 , 只针对结果做激励 ,不做结构上的限制 , 我们走到了 L2。
我们看这个过程确实非常像当时从 AlphaGo 用人类的气魄 , 到 AlphaGo 了解了围棋的规则之后, 通过强化学习的方式 ,不通过人类的气魄的限制 , 我们得到了更强的 AlphaGo Zero。
然后 Deepseek 也复现了这样一个过程 。 Deepseek 基于基础模型 V3 做强化学习 , 强化学习做出了 Deepseek V2.1 的 Zero 版本 。
但 R1.0 版本有一些可用性上的问题 , 做了一些后训练的限制 , 包括加了一些冷的数据 , 嗯 , 做出了我们现在用的 R1。
这是当时的过程 。 然后 Deepseek 做完 R1 之后, 又去把这套方式 , 这套呃 , 强化学习 , 然后的方式复现在了 Llama 跟千问上 。
也帮 Llama 的千问的能力得到了提升 。 它把这个东西又复现了 。 所以这是我们走到 L2 的过程 。 如果大家对这个有兴趣 , 可以去回头听我上上期讲 Deepseek 的播客 。
那截止到这个时间点 , 我们回看整个从 AI 早期到 L1 到 L2 的路程 , 我们似乎有两个共识 。 第一共识叫通用 。
对吧 ? 我们不是垂类的 ,不限定具体场景 ,不设置边界 。 当然这会非常非常的难 。 所以初期的通用模型跟通用能力看上去一定都不是完美的 。
我在上一期讲 Manus 的时候也讲过 ,但凡限制好了场景跟所谓的垂类之后, 一定在现在有更好的解决方案去实现那个结果 。
但是那不是我们要的东西 。 对吧 ? 第一个共识叫通用 。 第二共识叫 Less Structure 加强化学习 。 不需要干预 ,不要添加条件 , 更少的限制 , 做好更好的激励模型 , 只对结果做激励 。
我们就得到了 L1 跟 L2。 过程中对于追寻这个路径的头部厂商而言 , 它的试错的成本跟最后的结果之间的博弈是他们的难度 。
那如果这两个共识是我们走到 L2 的共识的话 , 那现在问题变成了 , 如果到 L3 也是这样吗 ?
模型与产品13:47
上面是第一部分 。其实我在上一期讲 Manus 的时候也在讲这个 , 这些话题几乎是一样的 。 那我们进入第二个部分 , 模型还是产品 。
模型是什么 ? GPT-3,GPT-3.5 是模型 。 产品是什么 ? ChatGPT 是产品 。
我们回看过去两年多的整个行业发展 ,其实还在遵循那样一个非常简单粗暴的 , 基于钱的 , 基于 Capex 投入的逻辑 。
对吧 ? 就是更多的钱 , 更好的基础设施 , 更好的训练 , 得到更好的模型 。 那头部的科技巨头们在每年 Capex 上投入还在疯狂的增长 。
对吧 ? 所有的图 , 所有的数字 , 我已经重复过无数次了 。
那在产品层的考验呢 ? 就像之前 Deepseek 爆火的时候广密所说的 ,Deepseek 这次验证一件事情是模型的应用 , 模型级应用 。
Deepseek 在产品形式上没有任何创新 , 核心就是智能加开源 。 我也不禁思考 ,在 AI 时代 , 任何产品和商业模式的创新都比不上智能的创新嘛 。
也就像李翔老师来讲的 , 能力没有收敛之前 , 谨慎做应用 。 那最近似乎又再次印证这件事情 。
GPT-4o 发了新的图片的生成的能力 , 吉卜力的这个风格的照片风靡了所有的社交网络 。 有那样一篇推特也被很多人转发 , 那个人说今天情绪非常低落 , 压力非常大 。
我不禁说我现在在做什么 ,是从现在开始到将来都还有价值的东西到底是什么 。 比如 GPT-4o 的图像能力 , 直接干翻了之前很多创业公司的产品 。
他们花了那么多时间 、 人力 、 投资人的钱去调优算法 、 工作流 、 模型 , 直接被一次大模型的更新就取代了 。
昨天我还在看 Stable Diffusion 的教程 , 今天发现全部都白看了 。 这种事情在过去两年多无数次的发生 。
那张梗图 ,STARP 创业公司把能力建设在大模型基础上, 结果大模型冲过来把你冲垮了 。 对吧 ? 似乎我们在不断的重复这样一个趋势结构 。
那产品的趋势结构呢 ? 对吧 ? 我在上一章上一次讲 Manus 的播客里也提过 , 普通人怎么来看待 Manus。
AI 大模型或者 AI 的产品在今天已经走向深水期的时候 , 对于普通人而言 , 事情变得越来越复杂 。
对吧 ? 然后大家会说 Manus 套壳 。 可是你会发现 , 从一个工程实践的角度来讲 , 哪怕只是做每一个薄薄的一层的叠加 ,也是一个非常复杂的事情 。
包括智谱发的这个所谓的 AutoGLM 的沉思版 , 从产品实现跟工程角度来讲 ,不是特别理想 。 即便大家知道该怎么做 , 做出来的东西也不是特别好 。
对吧 ? 产品的趋势 。
所以又回到我上一期播客所讲的 , 从 Manus 的角度来讲 , 或者从用户跟产品角度来讲 ,Manus 的意义到底是什么 ?
叫看见 。 对吧 ? 我们回头去想 , 我们这么多年用 AI 的产品 , 什么时候感受到了所谓的魔法时刻 ?
第一次用 ChatGPT 的时候 , 你看见一个机器在吐字 。 对吧 ? 第一次用 Deepseek R1 的时候 , 你看到了模型在思考 ,在推理 。
对吧 ? 这种看见都成为了今天这个时间点的产品范式 。 也就是说你做相关的产品就得这么干 。
那 L3 年代 Agent, 用户需要看见什么 ? Manus 给出的定义是说 , 用户要看见所有的事情 , 要看见 Agent 在规划 ,他要有 To-Do list, 要把 To-Do list 给你 。
要看见他基于这个 To-Do list 做一步一步的执行 , 打开网页 、 编程 、 整理 。他要看到归纳 , 把所有东西做好之后他要归纳 。
最后他的交付要让你完完整整的看到 , 无论是个网页 、 是个报告 , 还是个什么东西 ,他要让你看见 。
更有意思的是 , 看见这件事情也被成为这个时间点 Agent 的一种范式 。 前两天 Meta 搜索上了一个功能 , 就是你搜一个东西之后形成了一个非常长的内容 ,但大家会发现那个内容太长了 , 看起来有点累 。
所以做了一件事情 , 它说基于你这个搜索的答案 , 我可以把你这个答案的这个非常长的文字转换成一个可以互动的 , 各个比如说文字框的那样的一个互动的网页 。
对吧 ? 这个功能其实对于今天的大模型而言 ,也不是什么太难的实现的 。 那在做这个功能的时候 ,Meta 做了这样一个动作 , 我觉得是非常有意思的 。
比如说我搜索一个问题 , 或者搜索一件事情 , 形成一个答案之后, 我点转换成互动网页那个按钮之后, 这个 Meta 会展现一个新的页面 。
那个新页面是什么呢 ? 上半部分是一些 HTML 代码的滚动 , 底下是一个进度条 , 从 0 到 9%, 从 0% 到 100%。 然后它就在做那个互动网页的过程 。
它为什么要在做中间这一步 ? 就是让用户看到这个过程 , 用户看见 。 然后同样的 , 上一轮我在聊 Manus 的时候讲过 , 这个这个 , 从一个开源的技术方案到真正以上用户可用的产品之间 , 差距是非常大的 。
有那个戈菲老师讲的 424 的原则 , 所谓的技术实现可能只做了中间那个 2。 对吧 ? 前面的 4, 确定需求 , 确定产品的边界 。
后面的 4, 运营推广 , 可能是更重要的事情 。 当时我讲这些逻辑 、 这些判断 、 这些观点的时候 ,是我自己认为的 。
很巧合的是在过去这两周 ,有一些事情证明了这件事情 , 或者说证明了我这个认为的观点是有点正确的 。
我在我的 LMA 的知识库里面分享了 , 最近我看到一份非常不错的报告 ,是美国的一个机构做的创业公司的搒单 。
大家听 , 哎 , 这看起来没什么特别的 , 对吧 ? 为什么我会说这份报告很不错呢 ? 首先 , 这是一份已经连续做了 7 年的搒单 。
它叫 Enterprise Tech 30。 就每年它会选出 30 家创业公司 。 然后今年因为公司特别多 , 它变成了 60 家 。 但 60 家之后, 它分了阶段 : 早期 、 中期 、 晚期跟超后期 。
60 家公司 。 然后怎么评选的呢 ? 就是找 100 多位的头部基金的合伙人跟 CVC 的负责人们去评比 。 在这份搒单里面出现一个趋势 。
第一个趋势呢 ,是所谓的 AI native 的公司的比例在急剧的提升 。 从它第一次做搒单 2019 年到 2020 年, 那时候只有没有公司是做 AI native 业务的 。
2021 年是 3%, 到 2023 年是 33%。 2024 年的搒单 40%。 今年的搒单已经到 50% 了 。 然后更重要的是 , 我刚才说为什么验证了我一些我的一些暴论 , 对吧 ?
刚才我们讲过 , 呃 , 原来的整个 AI 的行业是纯技术叙事 ,是没几乎没有产品叙事的 。 但是今天你发现产品叙事有些抬头 。
对吧 ? 那我们看这份创业公司搒单 。
搒单当中, 它定义 PLG, 就是通过产品形态来作为增长的这个这个这个形态的公司占比一直是比较高的 。
大概一直占比可能 60% 甚至 70%。 然后呢 , 又分 , 它又把 PLG 分成了技术导向的 PLG 跟非技术导向的 PLG。 这两个划分的比例其实也出现一变 , 一些变化 。
纯技术导向的公司还是占比多数的 , 至少在几年之前是这样的 。 巅峰比如说 23 年、24 年占比是 55% 跟 60% 的 。
那非技术导向的公司的占比是 20% 左右 ,15%。 但今年涨到了 25%。 也就是说 , 非技术导向叙事的公司的占比在小幅度的提升 。
虽然没有很多 ,但是在提升 。 需要这份报告的 , 可以去 LMA 找屠龙之术的知识库来去获取 。 当然这个搒单出来之后, 很多人也会说 , 还不是你们投资人做的搒单 。
对吧 ? 你们投资人只认那些非技术的事情 , 销售渠道啊 、 品牌啊 、 产品啊 。 包括之前我也讲过雨森 , 呃 , 郑哥的雨森讲过那个例子 。
当时怎么看 Publicity? 技术人员会认为这是一个几天就可以复现的一个东西 。 虽然有点意思 。 但如果我们有时光机 , 今天允许你几亿美金投到 Publicity, 那现在来看 ,Publicity 已经是一家 100 多亿美金的公司了 。
最后它能不能干掉 Google? 最后 AI 搜索到底成不成立 ? 那是后话 。 但是对于一家早期基金而言 , 如果能几亿美金投到 Publicity, 那你今天成绩一定很好 。
对吧 ?
但是呢 , 这里面出现了另外一个问题 , 就是这一章的这个这个这个标题叫模型还是产品 。 你会发现 , 头部厂商似乎认为 Agent 它并不是产品 。
OpenAI 的 DeepSeek 是
,不是普通的聊天机器人。 它是一个专门面向研究的模型 ,是端到端完成搜索类的任务而设计的 。 它是在 O3 的基础上训练一个新的模型 ,不是套了一层壳 。
对吧 ? 所以大家会说模型即产品 。 那这时候就出现了问题 , 到底这个问题该怎么去探讨 ? Agent 它到底是什么 ?
我们进入第三个部分 , 盲人摸象 。 我觉得盲人摸象这个成语特别适合今天这个时间点行业对于 Agent 的讨论 。
盲人摸象23:38
有些人摸到象鼻子 ,有些人摸到象的大象的牙齿 , 象牙 。 有些人摸到大象的腿 ,有些人摸到大象的耳朵 ,有些人摸到大象的肚子 ,有些人摸到了大象的尾巴 。
没有人太多对这件事情有一个非常明确的整体的共识的定义 。 大家更多是基于特征的描述 。 基于特征的描述 。
然后前两天基辅做了一期节目 , 我觉得做得很有意思 。 它是探讨为什么到今天这个时间点 ,AI 在游戏领域的应用并没有那么强 。
但这个问题探讨最后, 大家会发现 ,其实 AI 在几十年前就开始应用于游戏领域了 。 机器学习不是吗 ?
脚本不是吗 ? 也是 。 只不过是因为这一代的所谓大语言模型代表的 AI,在游戏行业并没有得到特别好的应用的展现 。
举个更现实的例子 , 比如说大家如果踢实况或者非法的话 , 足球游戏 , 你在控制你那个人的同时, 你的队友跟你的敌人是不是就是 Agent?
他们有他们的行为方式 ,有他们的规则 ,有他们的脚本 。 对吧 ? 甚至有一定的 AI 的渗透 。 比如说更古老的游戏吃豆人。
你在吃豆的时候 , 你的四个敌人 ,他们的规则是不一样的 。 有些人就是靠近你 ,有些人可能就是离你 6 个格左右之后随机运动 。
他们的这种规则其实也是 AI。 那这些是 Agent 吗 ?
就像我上一次讲 Manus 的时候 , 甚至讲 DeepSeek 的时候 , 我列了很多关于 Agent 的 PPT。 比如说 1000 个 Agent,有 1000 个 Agent 的概念 , 典型对于 Agent 的定义 , 包括 24 年、25 年 Agent 行业发展的趋势 。
甚至再早的 , 我在去年跟 Koji 我们做 YC 项目整理的时候 ,24 年 5 月 , 我们整理的是 23 年跟 24 年初的 YC 项目 。
大家记得哦 ,是 23 年跟 24 年初的 YC 项目 。 22 年底 ChatGPT 才发 。 我回头去看我们当时的整理啊 , 从项目分类角度来讲 ,在那个时间点 ,Agent 相关的项目已经是第七大的分类了 。
也就是说在那个时候 ,Agent 就已经是共识了 。
我当时写的是说又一个共识 Agent,但出了一个问题 ,是不是一个中间态的解决方案 ?
当时写的评论是说 , 可能就是因为太过于共识 ,Agent 这个方向的类目的项目之间的差异性是最小的 。
大家做的事情差不多 。 那既然是 Agent 叫代理 , 那么代理的实现方式就是各家的不同 。 当时大家用录屏 、 用拖拽 、 用工作流 、 用自然语言 、 用 RPA、 用逻辑树 , 都有做各种各样的 Agent。
那是 23 年的项目 。 你当然在过去这几年也看过非常非常多所谓 Agent 的行业的 map, 特别特别多 , 各种各样的分类方式 。
在那个时候 , 大家公认是说 ,因为模型的能力不够 , 所以我们要加很多的花活 。 就像刚才讲的 , 工作流也好 , 拖拽的方式也好 , 甚至录屏的方式也好 ,RPA 的方式也好 。
能行能力不够 , 能行 , 呃 , 模型能力不够 ,workflow 来凑 。 对吧 ? 但是 workflow 这件事情 , 大家会发现 , 你能穷举所有的 workflow 吗 ?
不太可能 。 对吧 ? 那你在做 Agent 的时候 , 你就要限定边界 , 限定场景 。 可是这引发出来另外一条暗线 , 就是过去几年整个行业发展的暗线 。
似乎我们从 L1 到 L2 到 L3 的过程当中 ,在不断的经历 , 从简单到复杂 , 再到简单 , 再到复杂的过程 。
对吧 ? L1 的时候 , 大家会说自然语言就可以了 。 可是发现不是这样的 。 你要有提示词工程 , 你要有思维链 。
到了 L2, 看上去提示词不重要了 。 那为了做 L3, 开始加 workflow 了 。 那如果这个逻辑来讲 ,L3 似乎应该不需要 workflow,也不应该限定场景 。
然后也是因为最近 GPT-4.5 发了这个新的图片模型之后,Gridant 写了这样一条 。 它说昨晚 OpenAI 更新了 GPT-4.5 的图像生成功能 。
很多朋友还在按传统图像模型在进行测试美学表现跟编辑 。 但其实它真正的强大地方是 , 几乎可以通过自然语言对话 , 完成现在复杂的 Stable Diffusion 的图像生成工作流的所有玩法 。
它那篇文章的标题叫 《 干废一切图像工作流 》, 告诉你 GPT-4.5 图片生成真正强大的地方 。 所以从技术实现角度来讲 , 人类的这种路径依赖 , 似乎一次一次的把我们推到了双引号的弯路上 。
我们会看整个 Agent, 对吧 ? 从最早的 Chatbot 到所谓的 Copilot, 它只能回答 , 然后可以有记忆 。 到这一步 ,Agent 探讨它需要有工具的调用 , 需要有规划 。
这是大家对这个时间点 Agent 普遍的共识 。 那正在收敛中的共识是什么 ? 比如说时间点 , 为什么是 25 年 ?
共识形成29:27
22 年底 ChatGPT 发 , 大家认为 23 年是模型竞争年,24 年是应用年 。 对吧 ? 从结果来看 ,不是特别理想 。 那 25 年就要有新的概念 。
那从 ToB 市场来看 ,23 年大家在做模型 ,24 年开始企业们尝试 AI 的东西 。 那 25 年应该就从尝试变成真正意义上的落地了 。
那它落下来到底是什么呢 ? 是不是这样一个 Agent 的东西呢 ? 你会发现这种时间点的收敛的共识 , 我觉得还是那个观点 , 一厢情愿的成分多了一些 。
时间点第二共识通用 , 就刚才也讲过 。 通用其实在过去整个 AI 行业的发展 , 我觉得它是一种惯性 。
就大家都是瞄着那个皇冠上的明珠去的 。 当然也是最大的机会 。 但反过来讲 , 场景和垂类也存在空间 。
当有一个新的通用的阶段出现的时候 , 就会进一步加强整个产业链的分工 。 因为我们已经经历过好几次了 。
通用第三个共识实现 , 如何实现 ? 现在看上去的共识是要做端到端的训练 , 强化学习加推理是基础 , 要做必要的边界限制 。
这是实现 。 当然为了实现这个事情 , 出现了很多新的问题 。 比如说 Agent 的时候 , 大家用 Agent 产品的时候 , 经常出现的报错是上下文的长度超标了 。
也就是大模型的记忆跟上下文窗口的问题是非常麻烦的 。在这个时间点依然没有解决好 。 你从语言模型的语言到使用工具 , 那外部工具的调用如何调用变成了问题 。
调用的过程中, 你的访问权限 、 数据架构 , 甚至安全的架构也出现了新的问题 。 我们出现了很多的问题 。
然后我们再回头来看整个 Agent 的概念 , 基本上大家比较偏共识的 。 今天对 Agent 的描述有四个特征 。
你看我描述依然是特征 ,而不是整体的概念 ,是特征 。 它要有记忆 , 要有规划的能力 , 要能够使用工具 , 要有行为 。
记忆 , 这一波大模型的发展 , 上下文的长度的内卷是一直就在的 。 大家如果还有印象的话 ,Kimi 当年刚刚出来的时候 , 主推的卖点就是超长的上下文 。
对吧 ? Manus 的使用过程当中, 经常报错的就是上下文的超先 。 记忆 , 那计划呢 ? 大模型能力没有到推理之前 , 我们之前刚才讲过 ,YC 那个时候的很多项目是用了战术上的努力来实现计划 。
但当推理模型出现之后, 这个事情看上去不那么难了 。 所以才引发了这轮 Agent 的讨论 。 工具的使用 , 我想前导一点是说 , 当前这个时间点 , 现存的工具的生态已经非常丰富 。
能够使用好现存的工具 , 就已经足够完成大多数的通用任务 。 所以在工具使用这件事情上, 这个节点要做的事情不是发明新的工具 ,而是解决如何调用现有工具的问题 。
最后行为 , 还是刚才那个游戏的例子 。 那期基辅的播客有个核心的角度 , 我觉得特别的简单 ,但特别的直接 。
为什么这一波大语言模型的能力在游戏领域的落地并不那么理想 ? 因为这一波的模型叫大语言模型 。
语言 , 可是游戏里需要的是什么 ? 需要的是行为 。
大语言模型是语言 ,但我们需要行为了 。 Agent 是需要行为的 。 所以我们回头来看 , 从 Adobe 的 Computer Use 到 OpenAI 的 Operator, 大语言模型的头部公司在最近一段时间都在做从语言到行为的努力 。
这也是我们从 L2 到 L3, 甚至再往 L4、L5 的开始 , 从语言到行为 。
然后就是刚才前面很重要的关键词 , 模型即产品 。 对吧 ? 也是最近非常热门的一个方向的描述 。 我们回头来看 , 还是模型即产品的讨论 。
国外的这些产品全部都叫 Deep Search、Deep Research, 包括 AutoGLM 起的叫沉思版 。 对吧 ? Deep Thinking。 可是这些关键词之间还是有一些细微区别 。
Deep Search、Deep Search, 它是更好的搜索 ,但它的基础是搜索 。 我们讲 Deep Research, 它不是搜索 , 它是一个端到端训练的模型 。
可是这里出现一个问题 , 今天你是个用户 , 你就想找一个东西 , 或者研究一个什么事情 。 你关心你用那个工具背后是 Deep Search 还是 Deep Research 吗 ?
你关心它是 RAG 还是端到端的训练模型吗 ? 你不关心 , 你只关心的是结果的质量 。
我们进入下一个话题 。 刚才我们讲的都是收敛的共识 。 对吧 ? 那我们讲下一个话题 , 正在发生什么 ?
正在发生35:06
正在发生什么 ? 我用了一张 CB Insight 刚刚发的 AI Agent 的行业地图 。 讲完前面那些概念跟逻辑之后, 你会发现我们再去看这种几百家公司贴在一张图上的这种行业 map 的时候 , 会相对清楚一点 。
CB Insight 把 Agent 分为三类 , 或者 Agent 的整个行业 map 分三层 。 第一层叫 Infra 层 , 基建 。 第二层叫水平 , 或者是叫工作层 。
它是比如说你可以做
软件开发 、 数据分析 、 安全 、 销售 、HR、Marketing 的 Agent。 第三层叫垂类的 Agent。 它垂直在某个行业 , 比如说法律行业 、 游戏行业 、 健康行业 。
它是按这么来分的 。 那正在发生的是什么 ? 第一 , 大家伙们都会做的 , 通用模型厂商也都会做的 , 无论是美国的那七姐妹 , 对吧 ?
还是 OpenAI、Salping。 他们除了提供所谓的 AI Agent 的服务之外 ,也在做的事情是做 AI Agent 的开发工具跟开发平台 。
也就是说他们不单纯只做 Agent 本身 ,也想做 Agent 的生态 。 那国内呢 ? 腾讯 、 字节 、 阿里 、 华为 、 智谱 , 肯定会做的 。
对吧 ? 甚至已经在做了 。 那 MiMax 要做吗 ? Kimi 要做吗 ? 应该也会做的 。 那似乎看上去 , 通用的 Agent 应该是大家伙们加模型厂商的机会 。
那这里出现了问题 , 那 Manus 是什么呢 ? 对吧 ? 然后又是刚才那个话题 , 模型即应用 。 我们看谁在延续这条 , 或者说基于这个规则在做事情 。
ChatGPT、Adobe 的 Cloud、XAI、Google 的 Gemini、 微软的 Copilot, 包括 Perplexity。 你发现一个趋势什么 ? 似乎都是那些最大的家伙们 。 我的好友 Tom Xu 在极客上发了一个观点 ,他说 , 说模型即应用的人大概率是没有做过高留存的 , 或者日均小时, 一个小时以上时长的 App 的 。
全世界能匹配模型即应用的皇冠 ,其实只有 GPT 跟 DeepSeek 这样的公司 。 类似于哥德巴赫猜想 , 说日活才是王道的人, 大部分是 70 到 95 前的老登 。
我们这些人, 享受过先发优势 、 网络效应和规模效应的时代红利 , 且有很重的历史包袱 , 包括深入骨髓的古典互联网的路径依赖 。
那就是我们这些人, 一切还没有到定局 , 每天都是日新月异的新篇章 , 动态变化的 。 然后我们从投资角度来讲 , 早期投资相对集中在刚才我说的第二个板块 ,也就是说各种各样的专业的 Agent。
但有人会说 , 那是因为通用 Agent 你们投不起了呀 。 对吧 ? 因为在做通用 Agent 的都是大家伙跟那几家头部公司啊 。
早期基金投不起了呀 。 对吗 ? 然后针对垂直行业的 , 刚才讲的那几个 Agent, 从美国意义上讲来讲 , 还是有待发展的 。
甚至可能跟美国的 ToB 的 SaaS 的行业的格局有些类似 。 在早年的 ToB SaaS 行业也经历了一些波折期 。 那讲到 ToB 跟 SaaS, 又引发了一些这个这个宿命题 。
对吧 ? 当年延续着美国企业服务跟 SaaS 的国内的投资人跟项目方们基本上全军覆没 。 那这一波 AI 来了会不一样吗 ?
然后下一个观点 , 基建 Infra 这一层非常的不完善 。 非常不完善导致的结果是 , 这一层的项目是最多的 。
做 AI Agent 的开发平台 , 做 Multi Agent, 做自动化执行 , 做 Web 端的 Search 跟工具应用的 , 做数据分析的 , 做支付的 , 做记忆的 , 都有无数的公司 。
你发现比如说举个很现实的例子 , 最近很多人问这样一个问题啊 ,是很多人问啊 ,不是一个人问 。
比如说 Deep Research,不是 , 那个 DeepSeek 叫这个 , 或者 Kimi。 你可以现在允许你用推理模型的同时用搜索 。 那大家会问 , 搜索那一层的服务是谁提供的呢 ?
DeepSeek 跟 Kimi 是不会自己做个搜索引擎的 。 对吗 ? 那一层的服务是谁提供的 ? 那美国有没有公司提供这种服务呢 ?
大家都是用 Google 中间的 API 吗 ? 对吧 ? 这叫基建设施 。
再次 Echo 前面讲的 , 所有人都不会放弃 Agent 成为平台的可能性 。 也就是说除了提供 Agent 之外, 所有头部厂商跟做相关应用的公司都会想做 Agent 的开发平台 。
在美国已经是这样 ,在中国应该也是这样的 。 同样的 , 为什么最近关于 MCP 的讨论那么多 ? 因为它是在做的事情就是基建设施 , 尤其是工具的调用 。
对吧 ? 最近两周关于 MCP 的文章非常非常非常的多 。 那这个逻辑我这么讲都很清楚 , 别人也不会不了解 。
所以看上这个机会的人很多很多很多 。 OpenAI 刚刚也做了动作 。 对吧 ? 他们发了他们的 Agent 的 SDK, 包括他们也兼容了 MCP,也在努力 。
当然也有很多享受到红利的公司 , 典型的比如说 Browser Use。 那知道 Manus 的实现原理的公司 , 朋友们应该知道 ,Manus 用了很多 Browser Use 的这个这个能力 。
就是它是让 Agent 去调用浏览器的功能的 。 这家公司在 3 月 22 号 ,3 月 22 号 , 两周之前刚融了新一轮 1700 万美金 。
另外一家公司 Browser Base, 听这个名字 Browser Base, 你也知道它大概是干嘛的 。 这家公司也很有意思 。 它是刚才我讲的我很喜欢那份报告 Enterprise Tech 30 今年的搒单的第一名。
早期公司的第一名。 无数公司看 , 无数投资人看我这家公司的未来 。 这都是做 Agent 的 Infra。 那再往下抠呢 ? 我发现一家更有意思的公司 。
我去翻 ,因为 YC 刚刚结束了 25 年这一波的项目的评选 。 有家公司叫 A1 Base。 我看到公司的第一时间把这个公司的介绍发给了张鹏老师 。
就是 Manus 的产品合伙人。 然后张老师跟我说 , 美国这个生态真的是产业链分工真的是太细了 。 这公司是做什么 ?
大家现在遇到一个问题 , 比如说你在用各种各样 Agent 调用的时候 , 它去访问一个网站 。 比如那个网站需要注册 , 那个网站需要一个身份 , 需要邮箱地址 , 需要个电话号 , 甚至需要一个接收验证码的邮箱 。
要不然你进不去 。 对吗 ? 怎么办 ? 这个 A1 Base 的服务 , 这个公司做什么呢 ? 它做的工作就是给 Agent 一个身份 。
它只做这一件事情 , 给你个 WhatsApp 号 , 给你一个 Email 地址 , 可以群聊的地址 , 一个电话号码 。 然后你的 Agent 就变成了一个有身份的人。
它只做这一件事情 。 所以什么叫产业链分工啊 ?
以上是正在发生的事情 。 最后一部分 , 我的暴论输出 。 什么他妈的叫他妈的 Agent?
暴论43:12
第一个暴论 , 边界不清楚的叫 Agent, 边界清楚的就不叫了 。 AI 搜索叫 AI 搜索 ,不叫 AI 搜索 Agent。 AI 代码编程叫 AI 编程 ,AI Coding,不叫 Coding Agent。
今天 Deep Research 是做研究的 , 大家似乎也不再提它是个 Agent。 对吗 ? 但凡边界被定义清楚了 , 它可能就不叫 Agent。
哇 ,Agent 是一个看上去这么包容万物的概念了 。 对吗 ? 我那天聊到这个角度的时候 , 一位群友说 , 上一次遇到包容这么多东西的概念还是 Metaverse。
死去的记忆开始疯狂的攻击我 。 然后前两天 , 我的第二个暴论 , 前两天有很多人转发一篇关于微信 Agent 的路径的截图 。
对吧 ? 应该很多人看过 , 说这个腾讯在人工智能领域的战略布局浮出水面 。 微信 Agent 或成为 3 月最值得期待的应用 。
那现在 3 月份已经过了 , 它没出来 。 对吧 ? 然后会说 IMA 是微信 Agent 的雏形 。 然后会有逐步的开放的权限 , 朋友圈 、 本地文件 , 然后会激活小程序的生态 。
然后微信成为这个 Agent 最大的入口 。 对吧 ? 那那个截图应该很多人看过 ,但我会觉得这是一个假的事情 。
因为 , 呃 , 当然了 , 就是现在你去转发这张截图的时候 , 微信会主动的提示你这是一个虚假新闻 , 做了辟谣 。
但为什么我看到第一时间我就反应这不是真的呢 ? 这特别简单 。 第一 ,IMA 是 CSIG 做的 。 微信怎么可能让一个 CSIG 的产品成为自己的中枢呢 ?
对吧 ? 第二 , 微信 , 亲 , 微信上的数据
几乎全部都是个人隐私数据 。 怎么来做 Agent 的调用是一个巨大的考验 。 微信以及张小龙一直都不是卖大步子的选择 ,他们一直都卖的比较小 。
回头来看 , 比如 DeepSeek 火之后, 微信上了 AI 搜索 。 直到今天 , 直到今天 , 微信的 AI 搜索依然没有全量放开 。
光一个搜索就不敢 ,Agent 它怎么敢全量放开呢 ? 但是纯从实现角度来看 , 我觉得对于微信的 Agent, 如果未来真的有这样一个东西的话 , 小程序确实是个好东西 。
它是那个手 , 它是那个行为的实现的方式 。 而且这种架构其实比较接近理想中的 Agent。 微信一定会干的 。
但怎么干 , 跟这个节奏会非常考验微信团队 。
第三个暴论 ,也是我无数次讲过的 。 黑猫白猫 , 抓到耗子就是好猫 。 对吧 ? 那对于很多今天这个时间点想做 Agent 的公司而言 ,有一些问题 。
比如说一定是一个大一统的入口吗 ? 比如最近夸克的更新 。 对吧 ? 它把所有的功能的模块包在了搜索的框框里面 。
对吧 ? 那如果是这样一个统一的大入口的话 , 那是不是超级 App 们又赢了 ? 微信 、 抖音 、 夸克
, 一定只能用自然语言作为输入方式吗 ? 别的不行吗 ? 我们可以给 Agent 浏览器权限 ,Agent 的小程序调用权限 , 甚至直接给一台虚拟机给到 Agent。
那除此之外我们还能给 Agent 什么呢 ?
我能不能给 Agent 一个网吧 ?
大家会说这一波的探讨当中 Workflow 工作流没有意义了 。 那垂类场景的数据有意义吗 ?
那这些问题看上去都没有边儿拿 。 又回到原来的我也无数次强调的结论 。 那我们只能看收入了 , 看 AR 了 。
对吧 ? 看 AR 的年度的 AR 的数字跟增速来去评判一个 AI 项目 。 那说到钱的时候又出现一个问题 。 也是前两天广明跟小俊的播客当中也提到这个观点 。他说为什么今天这个时间点投 AI 模型产品的定价都是 20 美金一个月 。
Agent 来的时候还延续这个定价吗 ? 我觉得不会的 。 我们看 OpenAI 的定价 ,Free 最基础版本不要钱 , 稍微好一点的版本 Plus 20 美金一个月 。
对吧 ? 更牛逼的 Pro 版本 200 美金一个月 。 然后 OpenAI 会说他们会发一个 2000 美金一个月的 Max, 跟一个 2 万美金一个月的博士模型 。
针对模型能力的提升 , 会以这样的方式做定价 。 这里面就出现了一个新的议题 。 我觉得在 Agent 年代 , 产品的定价会非常的重要 。
是一门艺术 。 也很巧合 ,也是在上周 Manus 发了他们的定价 。 两档 ,39 美金一档 , 提供 3900 积分 。
第二档 Pro,199 美金一档 , 提供 19900 积分 。 免费用户一个月送 1000 积分 。 也就是说如果按他们收费来看 , 就是一美金 100 积分 。
对吧 ? 然后他们给给了几个示例 。 比如说你想做一个 NBA 球员得分效率的象限图 。 这是一个数据分析加可视化的任务 。
大概这个任务需要执行 15 分钟 。 所消耗的积分是 200 积分 ,也就是 2 美金 。 比如说中难度的任务是做一个婚礼邀请的网页 。
涉及到网页开发代码跟部署 , 可能需要执行 25 分钟 。 需要消耗的积分是 360 积分 ,也就是 3.6 美金 。 比如说你做个复杂的 , 比如说基于位置的每日天气事件的 Web 应用 。
它需要应用开发 、 数据集成 , 还有网站式部署 。 那个网站还是可以交互的 。 它需要大概 80 分钟 , 消耗 900 积分 ,也就是说 9 美金 。
你听完之后, 包括 Manus 上了积分系统之后, 从用户角度而言出现一个巨大的挑战 。 你要去慎重的思考 , 什么任务值得你花几美金去执行 。
什么任务值得你花几美金去执行 。
最后, 这个 Epoch AI, 一个专门研究 AI 进展的科研机构 , 最近发了一篇文章 。 它说大部分 AI 的价值是来自于自动化 ,是来自于别的事情 ,而不是来自于研发 。
这个可能 Echo 了我前面讲的叙事的一部分 。 它说从商业角度来看 , 我们怀疑在可见的未来 。 它没有说的很死啊 。
它说我们怀疑在可见的未来 , 人工智能实验室专注于尝试自动化普通工作任务 , 将有利可图 。
例如创建计算机使用的代理 Agent, 可以胜任浏览互联网 、 操作商业软件 ,并执行标准的白领工作的任务 。
而不是专注于培养诺贝尔得奖水平的推理模型 , 能够狭义的帮助生物学 、 医药学等领域的研究人。
我们还认为 ,在 AI 与 AI 在研发任务中的表现相比 , 这些双引号的普通能力可能更重要 。
现实51:23
最后最后, 让我们回到现实 。 我们谈论了很多 Agent 的事情 。 无数的媒体写 Agent 年老来了 ,Agent 牛逼 ,Agent 强大到不行 。
但实际情况并不是这样 。 推理成本依然很高 , 复杂的环境 Agent 还是不行 。 用户不信任 , 交互体验依然有创新的地方 。
它需要不断的盯着 , 需要不断的调整 。 这就是现实 。 我们当然期待 Agent 会爆发 , 会来 , 会变得越来越好 。
但是在这个时间点 , 现实成就的状态 , 还有很多事情要做 。 感谢大家收听我的节目 。 我的 PPT 也会放在 show notes 里 。
如果有需要 , 可以自行下载 。 谢谢
。






