开场0:00
哈喽哈喽 , 大家好 , 我是明浩 。 呃 , 很久没录自己的单口播客了 , 然后这期节目为什么会拖了这么久 。
简单讲一下 ,是在春节之前 ,有一位很好的朋友找到我 , 说想希望我给他们内部做一次关于 AI 的培训跟分享 。
然后我说 , 那这个因为春节前找我嘛 , 我说那我有现成的内容 , 就是我之前做的 24 年的 AI 行业整理 。他说到时候可能春节之后来讲 , 到时候你做一点更新 , 我们来讲一下就好了 。
然后我就把这个事硬下来了 。 然后过去的这个春节 , 关注这个行业的人应该都知道 , 这个行业发生了非常非常非常大的变化 。
所以春节回来 , 然后我又跟我的朋友讲 , 我说我我发现我之前如果按原来那个方式来讲 , 感觉像上个时代的东西 , 对吧 ,因为过去两个月发生了非常多的事情 。
然后他说那怎么办呢 , 我说这样吧 , 我帮你更新一下我的内容 。 所以有了今天的这个 PPT 的内容 。
然后我其实是今天白天才在他们内部分享完 , 然后半夜呃把这一批内容更新上 。 呃 , 这个 PPT 的内容其实有大概 1/4 左右是去年我的呃年度的 132 页整理的内容 , 就是关于海外科技巨头的共识的 , 或者说过去两年整个 AI 行业最大的那个叙事结构的 。
呃 ,其余的三块内容其实完全是新的 。 呃 , 今天的整个内容有 74 页 PPT, 对 , 所以你会发现我经常又重做了一遍 。
然后整个创作过程应该是从 25 年 2 月份开始的 , 就是春节之后回来 ,2 月初开始的 。 然后今天是 2 月 24 号 ,其实一整个月的时间 , 大家基本上被以 DeepSeek 为代表的这一波 AI 内容的轰炸占据了你所有的这个带宽 , 对吧 。
所以呃 , 我们来进行一次梳理 , 然后算是给 25 年做一个开端 。 所以今天的内容大概是从 DeepSeek 说起 , 呃 , 说到 DeepSeek 的整个过程 , 包括 DeepSeek 的源头 , 包括一些粗浅的技术解读 , 呃 , 新的叙事的可能性 ,以及对 25 年的一些我个人的一些小的感觉跟看法吧 ,不是特别成体系 , 希望能够对大家有帮助 。
好 , 我们今天正式开始今天的内容 。 呃 , 我今天分享的内容这个标题叫 《 从 DeepSeek 爆火看 25 年 AI 行业的发展 》。
内容框架2:31
这其实也是一个呃 ,其实非常非常简单明晰的标题 , 没有做太多的比喻 ,也没有做太多的抽象的理解 。
呃 , 首先呢 , 我觉得希望大家了解一下当下 AI 行业的现状 。 我在我的 PPT 里放了一张我看到的梗图 , 非常有意思 。
呃 ,他画了一只大象 , 那大象代表 company, 然后旁边画了一只蛇 , 那只蛇代表 AI。 呃 , 所有人都希望自己的公司跟 AI 有结合 , 对吧 , 所以那只蛇开始咬大象 , 开始从它尾巴开始咬 , 然后说让我们建立一个 AI 的功能吧 。
它逐渐逐渐把这个大象咬上去之后, 咬到最后它变成了一只恐龙 , 就相当于你可以把那个蛇的整个身体套在了大象上, 大象把鼻子伸出来 , 然后它就变成了 AI 公司 , 对吧 。
这个可能就代表当下这个行业的现状 。其实很多公司的 AI 的业务本质上来讲都是呃 , 新瓶装旧酒 , 对吧 , 这是一个典型 。
然后呢 , 再回头来看 , 得亏我的报告之前的一版是在去年 12 月份就做完的 ,因为从 12 月份开始 , 整个行业发生了非常非常非常多的变化 。
现在回头来看 , 那 130 多页的报告就感觉跟真的跟上个世纪的叙事一样 , 对 , 所以得亏我那个报告是 12 月份做的 。
那如果我们今天对整个内容的梳理只用一页 PPT 来讲的话 , 我我做了一个非常简单的整理 ,是这样的 。
呃 ,OpenAI 去年在大概年中的时候 , 呃 , 发了一个 OpenAI 认为从现在到 AGI 的路线图 , 它用类似自动驾驶的方式去定义了 L1 到 L5,也就是说呃 , 五个阶段 。L1 就是我们看到的以 ChatGPT 为代表的 , 我们叫聊天机器人, 它是具有对话能力的 AI, 这个叫 L1。L2 呢叫推理者 , 它能像人类一样解解决问题 , 那推理模型就是 L2,也就是说 OpenAI 在 9 月份发的 O1,以及今天我们大家都知道
的 DeepSeek 的 R1,以及 Kimi 的 1.5, 包括最近一段时间所有头部的厂商都在或者都准备在推出自家的推理模型 。 推理模型是 L2, 那 L3 是什么呢 ?L3 就是 Agent 智能体 ,不仅能思考 , 还可以采取行动 Agent。L4 是创新者 , 能够协助发明创造的 AI 叫 L4。L5 就是组织者 , 可以完成整个工作 , 那变成 LG L AGI 了 。
这是 OpenAI 在去年年中呃定义的它的技术路线图 。 那现在的问题就变成了 , 我们今天这个时间点 ,在 25 年初这个时间点 , 我们走到哪 , 大概率一个比较共识的结论是呃 , 头部的厂商在 L2 跟 L3 之间 ,也就是说头部的厂商在推出自己的推理模型的同时 ,在往 Agent 走 ,在这个节点 。
所以如果今天只有一个结论的话 , 那其实就是我们从原来的基础的对话式这个形态开始进化到推理模型 , 然后基于推理模型的能力 , 我们开始尝试构建真正意义上的 Agent 啊 , 这个是就是今天唯一的结论 。
然后具体来看今天的内容 , 今天内容大概有四块啊 。 第一块内容是关于 DeepSeek 爆火的过程 ,因为即便到今天 DeepSeek 火成这个样子 , 关于 DeepSeek 还有非常非常多的谬论啊 、 误解啊 。
当然我的上一期播客跟 Lily 跟张鹏 、 张涛老师的那期播客应该已经解答了非常多的这些错误了 ,有兴趣可以回头去听 。
我那期节目没有上首页 , 没有上推荐 , 呃 , 好像上了锋芒搒一天吧 ,但是因为这个话题的火热程度跟当期内内容的讨论确实质量非常高 。Lily 上了首页 , 我当期应该现在回头看已经有 15,000 的阅读了 。
对于我这样一个只有 2 万多订阅的播客而言 ,在没有任何推荐的情况下, 这个阅读量我觉得还是挺挺挺让人能够理解 DeepSeek 的这轮的状态的 。
所以第一波的内容 , 今天的第一块内容是关于 DeepSeek 爆火的啊 。 第二块内容是沿袭去年我 132 页 PPT 中的一块 , 就是过去两年的主流叙事 , 讲呃头部的中美的科技巨头们在过去两年 AI 行业的核心逻辑 。
然后第三块是我开始探讨 , 或者说开始去整理新的这一波叙事的可能性 。 最后我们开始往 25 年推一推 , 看关于所谓 Agent 我有一些什么样的想法 。
所以大概四块内容 :DeepSeek 爆火 、 过去两年的叙事 、 叙事新叙事的可能性 ,以及万物皆可 Agent 四块内容 。
我们今正式进入第一块内容 , 关于 DeepSeek 的种种 。 呃 , 我用了一张外媒在 DeepSeek 爆火那几天的图啊 ,是梁文峰的那个在座谈会上的虚化的一个背景 , 然后 DeepSeek 的 APP, 然后以及股市增长的这种红线 , 就是它代大概代表那段时间大家去探讨这件事情的种种 。
DeepSeek爆火7:17
呃 , 回头来看啊 , 我不知道大家是否想过这样一些问题 , 比如说我们回头来看 ,在春节前后啊 ,其实国内的头部大模型厂商都爆发了 1.5, 呃 , 接月当时发了呃开源的两个小模型 , 然后最近两天接月也发了他们新的多模态跟语音的模型 ,并且开了发布会 。Kimi 其实是跟 DeepSeek 差不多时间推了他们的推理模型 1.5,Minimax 在呃 DeepSeek 之前也是放了他们两个小
的开源模型啊 , 包括通义千问也放了 , 对吧 。 然后那大家会想 , 为什么只有 DeepSeek 火了 ,其他人没有火 , 这是第一个问题 。
那有人会说 , 这个问题可能大家会引申到有很多这种模型是所谓的闭源的 , 那 DeepSeek 是开源的 。 那好 , 那其实在春节假期中间吧 , 啊 , 千问其实也发了一个非常好的模型 , 然后各种搒单成绩也非常棒 , 那为什么千问没有火呢 ?
那大家会说 , 呃 , 千问是阿里的 , 对吧 , 它是属于科技巨头的 。 那天然的 , 无论是中美还是无论是中国还是美国的 , 呃 , 所谓核心的科技圈跟媒体圈对于科技巨头的开源模型还是有一定顾虑的 , 对吧 。
那好 , 那 DeepSeek 我们现在知道的在用的 , 很多人在用的所谓推理模型叫 R1,R1 其实是 1 月 20 号才发布的 。在 R1 之前 ,DeepSeek 在去年的 24 年的 12 月底发布了他们的基础模型 V3。
那回头来看 , 对于整个事件而言 , 到底是 V3 重要还是 R1 重要 ? 第三个问题 。 第四个问题 , 呃 ,DeepSeek 此前如果用户想使用 DeepSeek,是只能用网页的 。DeepSeek 的自己的 APP 是什么时候上线的 ?
我查了一下,1 月 10 号才上线 。 可是 DeepSeek 上线 1 月 10 号 , 为什么就没有火起来呢 ? 它火了是在春节期间 ,是因为二十几号了 。
这两个时间点中间发生了什么 ? 我不知道大家是否想过这几个问题 。 如果大家想过 , 可能自己有答案 , 没想过也没关系 , 我今天会一一解答 。
首先我们回头梳理一下整个的事情的发展的时间线 。 嗯 , 我做了一张这个关于这件事情的一些重要节点的时间线的脉络的梳理啊 。24 年 12 月 26 号 ,DeepSeek 的基础模型的 V3 版本发布 。在那个时间点 ,其实中美的核心的技术圈对 DeepSeek V3 的评价就已经非常非常高了 。
如果大家有心回去翻新闻的话 ,其实在那个时间点已经就有媒体开始写 DeepSeek V3 是呃大语言模型里的拼多多 。
对 , 那个时候就有写了 。 然后刚才我们提到 1 月 10 号 ,DeepSeek 的官方 APP 发布 ,1 月 10 号 , 然后 1 月 20 号 ,DeepSeek 推理模型 R1 发布 。1 月 20 号晚上, 我国国家的总理李强总理做进行了一次企业座谈会 。
那天晚上, 梁文峰就已经出现在了这个座谈会的会议室里 。 可是刚才我提过 ,1 月 20 号当天才发了 R1, 梁文峰受邀参加这次座谈会绝对不是因为 R1,而是因为 V3, 对吧 ,因为他来不及 。
如果是因为 R1 的话 , 所以 V3 在那个时间点就已经得到了非常大非常大的关注 。 1 月 21 号 , 特朗普上任的第一个计划 , 星际之门计划 , 对吧 , 这个我之前在上一期播客我也有讲 。
整个星际之门计划是 5,000 亿美金的 AI 基础设施投资 。他把这个 AI 基础设施的投资用花很多钱 , 这件事情提升到了一个新的高度 ,1 月 21 号 。
然后 1 月 24 号 , 美国科技界的主流的一些大 V, 对吧 , 或者意见领袖 , 或者企业家们 , 或者投资人们开始针对 DeepSeek 来讨论 。
推特上也好 , 各种新闻媒体也好 , 各种各样的讨论就非常多了 。 典型的以比如说 HUZ 的创始人马克 · 安德森的言论 , 呃 ,Scale AI 的阿莱桑德王的言论都是发生在 1 月 24 号的 。
美国主流的媒体跟创投圈的表态就发生在 1 月 24 号 。 然后这些新闻跟表态被出口转内销 , 被国内媒体报道 。
1 月 24 号更重要的是另外一件事情 , 对于我而言 , 或者说对于我的观察而言 , 我回看了 DeepSeek APP 在 APP Store 的更新的版本记录 。1 月 24 号 ,DeepSeek 更新了一个版本 。DeepSeek 的 APP 刚刚上线的时候 ,是没有深度搜索功能的 , 它只有联网搜索 。
然后呢 , 发它发了这个深度思考的 R1,R1 的推理模型之后, 它多了深度思考的这个按钮 。 所以在我们现在看到 DeepSeek 的这个 APP 里面 ,有两个按钮 , 一个叫深度思考 , 一个叫联网搜索 。在 1 月 10 号发布到 1 月 24 号之前 , 这两个按钮是不能同时按的 。
也就是说 , 你如果都不按 , 那就是一个最简单最基础的对话模型 , 你问他答 , 很快给你结果 。
如果在 1 月 24 号之前 , 你摁那个深度思考 ,他会给你他的整个思维链的过程 , 就跟今天我们要一样 。
但是你不联网 ,他的数据只截止到 23 年 12 月份 。 同时在不能同时按之前 , 如果你按联网搜索 ,他是基于 DeepSeek V3 做的快速问答的搜索 ,他没有办法展示思维链 。
什么时候这两件事情同时可以一起按了 ?1 月 24 号 ,1 月 24 号这个节点 。 然后到 1 月 26 号 ,26 号晚上, 游戏科学的 CEO,也就是黑神话悟空的制作人冯骥老师 ,在微博上发了一条微博去推荐 DeepSeek。
第一次在公开渠道 , 我们看到了两个关键字 , 叫国运 , 对吧 , 至此这个事情就彻底引爆了 。1 月 27 号 ,DeepSeek 引发的关于美股的爆炸性事件 , 就是 NVIDIA 大跌了 17% 一天 。1 月 27 号 , 如果我没记错的话 , 应该是大年 28,因为今年没有大年三十 。
然后到 1 月 28 号 , 就是大年 29 那一天 , 除夕那一天 , 两篇 AI 写的假文章被无数人转发 。 先是早上起来黄仁勋的一篇所谓的内部信 , 回应前一天晚上 17% 的暴跌 , 最后被证明那封内部信是假的 。
到除夕晚上, 一篇关于梁文峰回复冯骥的知乎回答 , 被无数人转发
。 对啊 , 如果大家有印象的话 , 春节那天 , 除夕那天 , 这是整个事件的时间线 。 那我们回头来看 , 为什么会引起这样的讨论 。
我们先看里子 , 或者先看基础 。 我们看这个模型本身 , 首先呃 ,DeepSeek V3 跟 R1 的模型层的能力非常的强 ,在各种各样的搒单排名数据上都非常非常靠前 , 对吧 , 甚至有些成绩上已经接近 o1, 甚至 o3。
然后更重要的是 ,DeepSeek 代表的是中国的模型 ,是开源的模型 ,并且是极其极其便宜 , 双引号的便宜的模型 。
这个便宜在这里 , 代表的是模型的训练成本 。在这一轮讨论当中, 关于大模型的训练成本这件事情 , 讨论是最多的 。DeepSeek V3 的论文里面 ,有一条是明确的指出 ,DeepSeek V3 最后一次成功训练所需要的算力的计算方式是 280 万呃小时的这个这个训练的时间 , 然后乘以 2, 变成 560 万美金 。
然后很多人就拿 560 万美金去对比很多数字 , 比如说 5,000 亿美金的 AI 的星际之门 , 比如说 OpenAI 过去一年的亏损 50 亿美金 , 比如说这几家头部公司在 KPI 上投入以千亿美金来计 , 这两个数字之间的巨大的差别 , 造成了非常多的探讨 。
这个在我上期播客里我也有讲 , 我说呃 ,DeepSeek V3 的训练的最后一次成功的成本是 560 万美金 ,并不代表 DeepSeek 只花了 560 万美金就把 V3 做出来了 。
它的卡的钱 , 它过往投入的钱 , 人力人力的钱都没有算 ,但是你去对比那个几个什么十亿百亿美金 , 都是完全包在一起的 。
所以这种对比并不合适啊 。其实也有一些媒体做过一些推算 ,OpenAI 也好 ,Anthropic 也好 ,Meta 也好 , 呃 ,其实头部的美国这些模型的单次训练成本应该是在小几千万到五六千万美金这个体量 。
所以呃 , 可能 10 倍是一个能接受的量级差 , 甚至是几倍 ,但是远远没有到很多媒体渲染那个样子 。 所以模型层的能力首先够强 ,但它引发这么大的讨论 ,是因为它当然是因为是中国的开源的 ,并且是极其便宜实现的模型 。
这是模型训练成本 。在另外一个角度 , 从模型的使用成本来说 , 使用成本的指数下降是非常明显的 。
就是 DeepSeek 推了 R1 之后, 它的这个 API 的这个调用成本 , 无论是 input 跟 output 的成本 , 无数的媒体也拿来去跟呃 XAI 的模型 , 跟 OpenAI 的模型 , 跟 Google 的模型 , 跟亚马逊的 Nova 去做对比 , 去做这个模型的 input 跟 output 的使用成本的对比 , 确实也非常非常的便宜 。
然后也就是在最近一段时间 , 呃 ,因为 Sam 在 OpenAI 的 CEO,Sam 在全世界各地参加各种各样的事情啊 , 访谈然后发言 , 对吧 ,有一天他应该在一个很重要的场合 ,他说了是说呃 , 基于他们的经验 , 大概每 12 个月呃 , 头部模型的使用成本 ,也就是说你去调用这个模型 , 做输入跟输出的这个成本 , 大概 12 个月会降 10 倍 。
然后他又举个例子说 , 回头去看呃 ,OpenAI 自己从 GPT-4 的 GPT-4 应该是 20002023 年初到 GPT-4O,2024 年下半年,2024 年中吧 , 就大概一年零 6 个月的时间 ,OpenAI 的 GPT 的模型的调用成本应该是降了 150 倍的 , 就是它符合这个每年 10 倍的这个趋势 。
而且我在我那一次做年度总结的时候 , 我也用过 10 倍这个关键词 , 对吧 ,10 倍的意思是说两年是 100 倍 , 两年可不是 20 倍 , 对吧 。
然后这个刚才提到一个很重要的时间点 ,1 月 24 号 , 所有的主流的科技媒体 , 美国的头部媒体 , 包括呃 KOL 们疯狂的发表关于 DeepSeek 的所有事情 , 对吧 , 无数的讨论出现了 。
然后到 26 号 , 刚才我们讲冯骥老师在 1 月 26 号晚上 23:32 发了一条微博 ,他说了一句爆论 , 叫 DeepSeek 可能是国运级别的科技成果 , 国运 。
然后呃 , 时间点 1 月 26 号是一个周日,27 号是周一 ,28 号就是除夕 。 所以其实在那个时间点 , 很多国内的人就已经提前放假回家了 , 或者在回家的路上, 大家心情也不一样 , 对吧 , 然后有个国运这样的东西 , 所以自然就引爆了 。
然后在冯骥老师那条微博里 ,他列举了几个关键词 , 第一 ,他说这个模型非常的强大 , 呃 ,因为可能是推理模型的这个能力 , 对于没有接触过推理模型的人而言 , 确实非常的强大 。
第二 , 模型的成本非常的便宜 , 刚才我们前面讲过了 。 第三 , 又因为是严格遵守的非常宽泛的开源协议 , 所以它的部署是比较简单的 。
第四 , 冯骥老师说到免费 , 这里的免费相当于这件事情从原来的模型转到了 APP, 然后他说可以支持联网搜索 , 这是 APP 的体验 , 最后定义了叫国运 ,他把它定义到了这样一个状态里 。
所以自此开始 ,DeepSeek 的位置就已经不是一个简单的大模型的公司的位置了 , 它变成了一个中美对抗 , 尤其在科技 ,在 AI 领域的排头兵那样的一个角色 , 对吧 , 所以我找到了一张图 , 画的非常有意思啊 , 这张图是用那个 , 如果大家是跟我年龄差不多的话 , 应该是玩过街机上的街霸的 , 街霸上是有一张地图的 , 那个地图后面会带着国旗 , 然后中国的这个代表
选手就是 DeepSeek, 美国的代表选手就是 OpenAI。 当这件事情被推到这种程度的时候 , 很多事情就变得一发不可收拾了 。
所以那天出现了那两篇文章 , 对吧 , 就是早上起来黄仁勋的内部信 , 看上去在回应前一天晚上的暴跌 ,以及当天晚上梁文峰在知乎上的虚假的回复 , 对吧 , 呃 , 当天晚上我第一时间看到了那个梁文峰在知乎上的回答 , 我就转给了知乎的运营 , 我说这一定是个假的 ,因为其实我们如果用 AI 同学比较多的话 , 对于 AI 生成的文字内容的感觉
是有一定的感觉的 , 你是大概会嚼出来那个所谓 AI word。 然后很快知乎就把那个虚假梁文峰账号封掉 , 把那篇帖子删掉了 ,但是没办法 , 那个截图已经被无数人的转发 ,并且看上去写用 AI 写这篇文章的人应该非常熟悉 AI 的创作的方式 , 包括提示词的生成准备 , 包括怎么去一条一条回应冯骥列出来那几个微博上提及的内容 。
所以那篇文章那天晚上跟第二天被无数人转发 。 所以当时我在这个当年呃 , 就是除夕晚上吧 , 半夜后半夜我发了条即刻 , 我说谁曾想 24 年龙年的最后一天 ,是两篇 AI 写的 fake 文刷屏了所有人的社交媒体呢 。
然后我就睡了 , 然后当天初一早上起来一睁眼 , 我一刷手机看到还有很多人在转 ,因为我在前一天晚上就在很多人的朋友圈下面写 , 我说这是 AI 写的 , 这是假的 。
然后有些人就会说 ,但是写的很好啊 , 情绪很对啊 , 对吗 ? 然后第二天早上大年初一还是有很多人转 , 我还是去在底下评论 , 我说这是假的 。
然后叫了几把整个朋友圈刷完之后, 我又在即刻上发了这样一条 , 我说当天初一睁眼 , 又叫醒了几个被 AI 骗来的人类 ,但又想如果再发展几年, 谁是真谁是假 ?
如果绝大多数人都相信了那个假的东西 , 那它还是假的吗 ? 这是当年初一发生的事情 , 对吧 ?
然后自此开始 , 整个 DeepSeek 的爆炸就一发不可收拾了 , 对吧 , 我们从很多的搒单上都会看到 ,DeepSeek 的 APP 的增长曲线是非常非常夸张的 , 尤其是从春节开始啊 , 超过了我们所有的吉祥龙 , 然后在春节那天应该也超过了豆包 , 对吧 , 超过了去年看上去在国内唯一值得被讨论的非垃圾的自结的豆包 , 对吧 , 破天的富贵就来了 。
但是啊 , 就今天这个时间点是 25 年的 2 月 24 号 , 距离这件事情过去了已经快一个月的时间 , 大家可以去猜一下现在这个时间点 ,DeepSeek 内部破天的富贵还剩多少 ?
当然这里面有 DeepSeek 不想要的原因 ,但是从呃这个这个正常的发展角度来看 , 呃 DeepSeek 现在可能量已经跌了 70% 左右 , 无论是 Web 的访问量还是这个 APP 的 DAU 啊 ,因为也有些电脑媒体最近几天也出了一些数据 , 大家可以看一下 。
所以就是这里引发一些问题啊 ,因为我日常的工作当中是做这个偏企业战略的 , 跟嗯对企业很多决策做取舍的 。
我们做这样一个假定啊 , 如果今天你是梁文峰 , 你是 DeepSeek 的老大 , 当然你可以设想一下他的性格 ,他的偏好 ,他过往做事的风格 , 所有这些种种 , 包括各种各样媒体报道 ,他的访谈都可以去想一下 。
然后你假设你今天是梁文峰 , 先问你第一个问题 ,在过去这段时间 DeepSeek 爆火之后, 呃有很多的媒体也好 , 很多的合作方也好 , 很多的包括外国的呃声音也好 , 会说 DeepSeek 的安全是有一定的瑕疵的 , 呃无论是模型本身的对齐 , 还是 APP 跟网页端的数据的安全处理 , 亦或是针对各国的今天这个时间点 AI 政策的适配 , 这个大的泛的安全问题确实是一个问
题 , 它存在对吧 ? 我们不能因为有很多所谓的敌对的声音 , 就说他们是不对的 , 对吧 , 这些问题确实存在 。
那针对这个问题 , 如果你是梁文峰 , 你要做处理吗 ? 做什么程度的处理 ? 第一个问题 。 第二个问题 , 呃这个问题其实在呃海外读小说的那篇关于 DeepSeek 的文章里也问到了 , 我甚至也发了条微那个微博跟极客 , 我说呃广密问了一个非常好的问题 , 就是这一波破天的流量要去做承接吗 ?
这个问题再引申 ,APP 或者 Web 对于换方为 DeepSeek 而言重要吗 ? 或者说这波的个人用户重要吗 ? 如果不接这波流量 , 未来的关于模型的产品形态应该是什么形态的 ?
如果想接 , 或者想再往前做一些运营的话 , 往哪去做 ? 要做收费吗 ? 要做细分场景的尝试吗 ?
如果你是梁文峰 , 这些问题怎么选 ? 这是 To C 的 。 那第三个问题 , 自然而然是 To B 的 。 或许最宽泛的 MIT 协议就代表了 DeepSeek 的一定态度 , 那看起来就是我不针对任何人做所谓的倾向的偏重 , 你愿意接就接了 , 对吧 ?
同时因为这个快速提升的 API 调用量 ,他们没有办法做承接 , 换方的呃 DeepSeek 甚至把 API 的充值接口都给关了 。
当然这个后面肯定会打开啊 ,但是说
收钱就不重要吗 ? 或者说未来的定价跟商业化的选择应该是什么样的 ? 第三个问题是关于 To B 的 。
最后一个问题 ,其实在过去这一个月时间里面讨论非常多 , 要融资吗 ?
前两天对 Information 还发了篇文章 , 说 DeepSeek 在接触 , 对吧 ? 啊 , 然后点点名的是阿里跟国家社保基金 , 对吧 ?
但是那篇文章我觉得更像是在这个文章之前国内的一个假新闻 , 就是传阿里 100 亿美金投了 10 亿美金给 DeepSeek, 对吧 ?
阿里马上就辟谣了 。 我觉得是那个文章的发酵引发了外媒的关注 。 然后呢 , 我说当天晚上看到新闻 , 我就说这个大概率是假消息 。
第一呢 ,因为整篇文章其实没有任何意义上的信息增量 。 第二 , 接触跟考虑接触是一个特别宽泛的定义 。
什么叫接触 ? 大家最近关注新闻应该知道 , 这个大大们开了一次这个企业座谈会 , 对吧 ? 梁文峰也在啊 , 梁文峰旁边坐的是腾讯的老大 Pony 啊 , 那他们俩肯定在会上有聊天吧 ?
那看上去 DeepSeek 跟腾讯也接触了呀 , 对吗 ? 所以接触是没有任何意义的 。 那这个问题如果今天你是梁文峰
, 财务投资看起来是没意义的 , 对吧 ? 朱耀虎老师也表达说多少钱都愿意投 ,但是今天是你去拿一个财务投资干嘛 ?
甚至拿美元 VC 干嘛呢 ? 对吧 ? 那战略投资呢 ? 阿里 、 腾讯 、 华为
、 字节 , 嗯
, 看起来都是坏处 ,因为你站队 , 对吧 ? 那再延展这个问题 , 如果是像国家社保金这样的国家队呢 ?
接还是不接 ? 我觉得是一个非常非常难的问题 , 这问题我也没有答案 , 或者说我有自己的答案 ,但如果是梁文峰怎么选 , 我们静观其变吧 。
所以整个的这个是关于第一块内容的整理 , 关于整个 DeepSeek 的种种 , 希望对大家做一些澄清 , 或者对这件事情有一定的共识 , 我们再讨论别的问题 。
我们下面进入今天内容的第二部分啊 , 过去两年的行业的主趋势 。 我在 PPT 里放了一张海外一个非常有名的写 AI newsletter 的科技博主做的关于 OpenAI 过去两年估值上涨的时间节点的图 , 然后从 OpenAI 成立到它去年最后一轮融资 1,550 亿美金 , 呃过程中发生了一些很重要的节点数据以及对应的估值 。
主流叙事28:05
它拉一张非常好看的曲线 。 那为什么用这张图 ? 我觉得呃过去这两年, 从 22 年底 ChatGPT 发布到可能到 24 年底 , 我觉得这个行业有一个非常非常简单的叙事结构 : 更多的钱 , 更好的基础设施 , 做更好的训练 , 得到更好的模型 。
四个维度 : 更多的钱 、 更好的基础设施 、 更好的训练 、 更好的模型 。 所有的逻辑建立在这样一个非常简单质朴的递进关系上, 所以造成了以 Mag7 为代表的这一轮 AI 浪潮的暴涨 , 对吧 ?
这个这个部分内容其实是我去年做的整理 , 然后如果我们把区域头看成一个整体 , 区域头这七家头部代表公司 :Google、 苹果 、 特斯拉 、Meta、 微软 、 亚马逊 、Nvidia, 从年初的 24 年初的 11.8 万亿涨到了 24 年底 17.6 万亿 , 巅峰碰到过 18 万亿 , 这个数字还在涨 。
然后这七家公司贡献了 24 年整个标普 500 55% 以上的增长 ,也就是说其他所有公司只贡献 45%,他们贡献了超过一半 , 对吧 ?
然后这七家公司可能又分三个等级 :3 万亿美金以上的苹果 、Nvidia、 微软 , 经过一段时间就会争所谓的世界第一大公司的宝座 ;2 万亿美金的 Google 跟亚马逊 ;1 万亿美金的 Meta 跟特斯拉 , 当然 1 万亿美金之后现在又有了博通 。
然后拉长 20 年时间来看 ,在 2015 年之前 , 这些这些公司都不是那么大 , 过去的 10 年波澜壮阔 ,他们长成了所谓的参天大树 。
然后这些公司形成了一些共识 , 第一个共识是 Nvidia 自己 , 对吧 ?Nvidia 自己从原来的半导体行业的一家小公司 , 长成半导体行业一半以上的市值 , 所有的头部巨头都变成了老黄的双引号的狗 , 对吧 ?
然后呃同一时间又因为 Nvidia 的这样的状态 , 它估值的 3 万亿美金以上的这样估值波动性非常大 。
所以如果我们拉单天一家公司能够涨或跌的呃估值的这个这个表 , 前 10 跟后 10 名里面 , 这 20 个选项里面可能有 70% 是 Nvidia 贡献的 。
这张表我在去年年底做的时候是一个样子 , 今天又做又是另外一个样子 。 为什么 ? 因为有了那天 17% 的史诗级大跌 , 当天 Nvidia 自己跌了 560 个币 , 然后这个数字远远远远超过另外 9 次可能一两百币的单天的跌幅 。
但是但是截止到上周 ,其实 Nvidia 当天跌了 17% 已经涨回来了 , 一个月不到的时间已经涨回来了 。Nvidia 这家公司非常幸运的从游戏起家 , 赶上了游戏的爆发 , 又赶上了区块链的爆发挖矿 , 然后这波 AI 当然就是爆爆涨 , 对吧 ?
然后三浪叠加 , 造成 Nvidia 这家公司从 23 年可能 1.2 个 T 涨到了现在三点几个 T。
第二个共识是关于共有云的 , 呃 AWS、 微软以及 Google 云是美国共有云的前三家 。其实在 20 年左右的时候 , 这三家整个行业规模加在一起 , 每个季度还可以保持 35% 甚至 40% 的增长 。
这个数字在 2022 年到 2023 年跌到了每个季度只有百分之十几的增长 。 所以整个共有云市场在 2022 年到 23 年基本是趋于稳定的 。
但是 22 年底发布 GPT 之后,ChatGPT 之后 ,在 23 年的下半年开始 , 整个共有云市场开始恢复到 20%、25% 甚至以上的增长的速率 。
呃这个几个共有云的厂商 , 尤其是以头部的厂商为代表的 , 过去这几个季度的收入增长是非常快的 。
公式 2 共有云 , 公式 3capex 啊 , 这个数字或者这个图已经用了无数次了 , 然后无数次的更新 。 呃微软 、Google、Meta 跟亚马逊都是在春节前后发的去年 Q4 的财报 , 财报季上当然都会公布明年的预期 。
不约而同的 , 几家公司对明年的 CapEx 投入都巨幅的上涨 。在 23 年已经 23 年跟 24 年已经是一个增长的情况下, 又再一次的增加了 。24 年这四家公司在 CapEx 上投入是 220 个币 ,2,220 亿美金 。在 25 年的预期 ,因为四家的财报已经公布了 , 财报的电话师呃电话分析师会议上,CEO 们都讲了明年的预期 : 微软 800、 亚马逊 1,000、Meta 600、Google 呃 Google 呃 Google 应该是 700 到 750 吧 , 加一起 3,200 亿美金
, 涨了 44%。 然后大家要知道 , 特朗普的新一任命之话 , 第一年也是 1,000 亿美金的 。 如果再把这 1,000 亿加上, 要从相当于要从 24 年已经暴涨的 2,200 亿美金 , 涨到 25 年是要接近翻翻到 4,200 亿美金 。
所以过去两年这样一个更多的钱 , 导致更多模型的主流叙事结构 , 至少在 25 年是不会停下来的 。
大家拿这些钱疯狂的去买卡 , 对吧 ? 疯狂的去买卡 。在 25 年的预期 , 基本上这些头部公司的卡的数量是要翻几番的 ,因为这些钱是要去买卡的 , 当然也是要去变成大家的卖铲子的 , 所有人都变成 Nvidia 的买 Nvidia 显卡 , 然后再把 Nvidia 卡卖给别的人, 对吧 ?
就跟挖矿的时候去给掘金的人提供铲子一样 。 所以又用了这个 , 我用了无数次的这样一张图 , 大猛的名言 : 成年人的世界钱是最简单的标准 , 对吧 ?
什么叫科技巨头 ? 什么叫科技巨头 ? 衡量他在 AI 上投入的数字单位是百亿甚至千亿美金 , 这个叫科技巨头 。
刚才我们提到这些所有人在这个事情上的投入 , 一年的投入 ,24 年的投入 , 全部都是几百亿甚至上千亿美金的 。
什么叫主要的玩家 ? 一年投入几十亿美金的 , 对吧 ?OpenAI、Anthropic、XAI 几十亿美金的体量 。 什么叫主要的挑战者 ?
一年投入是几亿美金的 , 对吧 ? 这两天这个阿里涨得很好 , 对吧 ? 或者说中概股涨得都很好 。
阿里发财报之后, 吴妈说未来三年阿里云的基础设施的投入会超过过去十年的总和 。 有些这个分析师算过 , 大概就是一年 1,000 多亿人民币嘛 ,因为过去三过去十年应该是 3,600 还是 3,800 吧 。
那如果分三年就一年 1,200 到 1,300 嘛 ,1,000 到 1,200 亿人民币就是 100 多亿 ,不到 200 亿美金嘛 , 对吧 ? 将将到了所谓科技巨头的线嘛 。
所以不就是钱吗 ? 对吧 ? 二一市场是这样的 , 一市场也一样 , 对吧 ? 整个对 AI 领域的行业的投资在 24 年应该是 110 个币的 E 市场投资 , 然后 E 市场过去这一年九宗最大的单笔融资 ,其中有七个是给了 AI 公司 :OpenAI、XAI、SOPEC、G42, 对吧 ?AI 当然是 E 上 R 上绝对的主题 。
那同样的再提特朗普又上任之后的第一把火也烧到了这 , 对吧 ? 他联合了 OpenAI 甲骨文跟软银一起做了新一任门计划 。
然后关于新一任门计划的解读 , 大家有兴趣可以去翻我的上上期博客 , 那是我在新一任门计划发布的第二天做的一场直播的音频 , 讲的非常详细 。
所以那所有的这些事情 , 当然就再次成就了 Nvidia, 尤其是 Nvidia 的区域中心业务 , 可能是现在 Nvidia70% 到 80% 的收入来源 。
第四个共识往上有去 , 对吧 ? 首先所有人确实都在买卡 ,但同时也在做自己的卡 , 对吧 ? 做芯片啊 ,Google、 微软 、Nvidia 啊 , 那个 Meta、 苹果就不用讲了 , 苹果原来就有自己的芯片 ,他们甚至开始把手伸到芯片设计这一层 。
说白了就是很简单的道理 , 没有人想背卡脖子 , 同时又会扶持相关的投资跟并购的企业 , 引用他们的卡来建立整个生态 。
所以这里引发了关于往上游去 , 尤其是往芯片那层去的共识 。 那第二个往上游去的共识就是去能源了 ,因为庞大的数据中心已经开始触碰人类的能源的天花板了 。
我之前看一数据是说 , 预计到 2030 年, 整个美国只是在数据中心的用电量上, 可能已经超过日本还是英国国家一年的这个电的量 。
所以头部巨头们为了满足自身业务需要 , 开始去碰电啊 , 共识就是去碰核能 , 对吧 ?
第五个共识与之相辅相成的 , 你要扶持所谓的生态 , 你要让更多的人在你的生态里 , 那除了提供业务之外, 更重要的手段是投资与并购 , 对吧 ?
呃头部的这些所谓每年花几亿美金的 , 甚至几十亿美金的 AI 的主要参与者跟挑战者们 , 美国这些公司背后其实都有这几家科技巨头的投资 , 几乎全部都有 。
那当然了 , 就会出现一种 24 年出现的一种并购方案 , 叫掏空式并购 , 对吧 ?care.ai 卖给 Google,infraction 卖给微软 ,adapt 卖给亚马逊 ,01 把他的团队交给阿里 ,其实都一样 , 都是掏空式并购 , 对吧 ?
没有什么意外 。 当然最后的最后, 所有人的自身的业务都不会落下的 。Nvidia 的芯片 、 微软的 copilot、 苹果的 Apple Intelligence、Google 的模型 、 亚马逊的 Nova 模型 、Meta Llama 模型 、 特斯拉的 FSD 以及 XAI、OpenAI 跟 Cloud 自己的模型 , 所有的人都不会放下自身的业务 , 所以全部的都是共识 。
那中国的巨头们呢 ? 一样吗 ? 我在最早做去年这个版本的时候 ,也用了一张图吗 ? 或者用了一句话吗 ?
叫抄作业还不会抄吗 ?
阿里 、 百度 、 字节 、 华为 、 腾讯在模型层 ,在云 ,在应用层 ,在多模态 , 对吧 ? 全部覆盖 。 小一点的巨头 , 昆仑啊 、360、 科大讯飞啊 、 小米啊 , 包括最近表态要做自己模型的理想啊 ,其实巨头们都一样 , 抄就好了嘛 。
所以这个叙事结构在过去两年的美国出现了 , 然后今天因为中概股所谓的双引号的重估跟情绪的反转 , 你发现最大的几个家伙也可以用类似的逻辑再去讲故事 。
最典型就是阿里这这个季度财报 , 最最引人注目的就是关于基础设施的未来的投入 。 我当时我看到新闻的时候 , 我一拍大腿 , 我说 :" 哎呀 , 可以了 !
我去年写的报告还还有用 ,因为继续抄作业就行了 。" 对吧 ? 那再看所谓的中国的吉祥龙们 , 对吧 ?
量子位去年写年度报告的时候 , 对初创公司的模型是 6+2, 就六小龙加 DeepSeek 加那个面壁智能 。他写报告应该是 11 月份才写 ,DeepSeek 还没火呢 。
那现在来看 , 我们我们把面壁也不算的话 , 就 6+1, 对吧 ? 六小龙加 DeepSeek 一加 , 这其中很多公司其实已经出现了分化 , 或者说呃这些 CEO, 这些公司的 CEO 们已经做了一些选择 。
比如说刚才我们提到 01 开普老师已经把能拆的东西全部拆掉了 , 对吧 ? 安心做 ToB 的模型实施 , 呃小川总他们就安心做医疗去了 , 对吧 ?
因为医疗足够大 ,也没什么问题 。 然后接月跟知谱 , 一家绑定上海 , 一家绑定北京 , 然后都在沿着自己的技术路线在做实施 , 对吧 ?
接月最近一段时间 , 应该是在上海开了一个非常大的发布会 , 发了一堆模型 , 对吧 ? 呃剩下两家 Mimax 跟 Kimi,也就是说月之暗面 , 还在
基础大模型的研发的这条路上继续深耕 ,但同时对他们而言的战略的挑战变成了更复杂的问题 ,因为 DeepSeek 的出现 。
以上的内容 , 就是关于过去两年的这个行业的主流的叙事 ,其实是我之前年度报告的一次再再整理 。
那我们下面进入第三个阶段 , 我给第三部分起的标题叫新的阶段 、 新的叙事问号 。 也就是说 , 我们真的迎来新的阶段了吗 ?
新叙事41:23
那新的阶段真的会有新的叙事的可能性吗 ?
在这个 DeepSeek 爆火的第二天 ,也就是英伟达跌 17% 的那一天 , 呃维基百科上有一个页面的访问量暴增了 200 倍 。
这个页面是讲什么的呢 ? 是讲一个经济学理论 , 叫贾维斯悖论 。 贾维斯悖论讲的是事情特别简单 , 就是煤炭价格的降低 ,其实对于煤炭公司而言 , 最后证明是好事情 ,因为煤炭的使用的场景变得更多了 。
那大家就去探讨 DeepSeek 的出现 ,是说 AI 大模型的成本降低是好事还是坏事 , 对吧 ? 看起来可能长远来看 ,是对行业而言非常好的事情
。 那新的这个叙事结构到底是从什么时候出现的 ? 其实我们回头来看 , 呃先用了一张图 ,也是去年我在做年底报告的时候一张图 , 就是关于 AI 大模型的预训练的数据的收敛的问题 。
呃在 28 年, 人类的数据可能极限情况下, 就没有东西再喂给大模型了 。 所以在去年年底 , 大概九十月份的时候 ,OpenAI 的前联合创始人伊利亚在一次大会上就说 :" 如果你有一个巨大的数据集 , 训练一个超大的神经网络 , 那么必然是成功的 。"
但是现在这公式失败了 ,也就是在那个时候开始 , 大家谈论所谓的预训练的 SkyNow 失效了
。 去年 9 月这个时间点 ,也差不多是这个时间点 , 呃张小俊去访谈呃海外读小说跟石像的广密的时候 ,也是去年 9 月份 。
广密说到在硅谷 ,在 9 月份那个时间点 ,其实很多头部的公司就开始尝试用强化学习的方式去训练模型 。
当时说法是 , 让 AI 用随机的路径尝试新的任务 , 如果效果超预期 , 那就更新神经网络的权重 , 使用 AI 使得 AI 记住多使用这个成功的事件 , 再开始尝试下一次的尝试 。
这个就是强化学习 , 去年 9 月份 。 但是在去年 9 月份的时间点 , 这件事情的共识并没有真正以上形成共识 。
同样的 , 比如说去年 6 月份 , 呃 Cloud 发了 3.5, 模型能力得到了极大提升 , 呃 Anthropic 内部把 Cloud 3.5 也定义成是推理模型 ,因为 Cloud 3.5 的能力的提升 ,在文案以及 coding 这个领域的爆发出现了 。Cursor 是基于 3.5 的 , 对吧 ?
然后 9 月 OpenAI 发了 O1, 真正意义上可能在那个时间点开始引领大模型技术范式的改变 , 纯粹意义上的推理模型出现了 。
强化学习跟后训练的能力被提到了一个新的高度 , 数学领域 、 编程领域 、Agent 领域开始被频繁提及 。 所有这些事情是在 24 年 9 月份那个时间点出现的 。
那在那个时间点 , 我们回头来看啊 , 对于其他公司而言 , 一个很核心的命题就变成了如何复现 O1, 就是我们自己的推理模型该怎么做 , 对吧 ?
所以那个时候就有一些团队在尝试的方式是说 , 既然我们大模型的呃语言模型的基础的逻辑是说 , 我给了模型一段 token, 对吧 ?
提示词 , 然后这段 token 刺激了这个模型当中一部分的信息 , 这个模型反馈给我它的答案 。 那如果是这样的话 , 今天这个时间点 , 这种模型的一问一答的方式是一种快的问答方式 , 那我能不能让模型慢下来 ?
能不能让我的这段简短的输入的 token 变长 , 让它有所谓的双引号的思考 , 然后思考之后, 我的这段输入词变成了一个更长的 token, 去刺激到这个模型更多的内容 , 然后给我返回一个更长跟更复杂的内容 ?
那是不是就实现了所谓的推理的这件事情 ? 那为了复现这件事情 , 所以当时有两个呃这个这个方式 , 一个叫思维链 ,COT 思维链 , 就是我今天输入一段话 , 同时大模型针对这个问题去做思考 , 就跟今天我们用到所有的 DeepSeek 的应用一样 ,有一个思维链的过程 。
第二 , 我针对刚才我们像广密来讲 , 我针对这个思维链的过程的每一步进行激励 ,也就是说 PRM 针对过程的激励 , 来去让模型达到更好的效果 ,并且不断的加权重来实现这件事情 。
所以在那个时间点 , 如果很多人都开始尝试用思维链的方式 , 思维链讲理的方式去做模型的训练的时候 , 就产生了一个边际增强的效应 , 跟需求是什么呢 ?
数据标注 ,因为相当于你要对所有的问题都要进行再一次的标注 , 然后对每一个过程 , 这个叫我们叫思维链的每一个环节 , 每一个 step 再去做过程中的激励 。
所以它是一个边际增强的效应 。 所以在那段时间 , 呃美国的这个头部的做数据标的公司叫 Scale.ai 的发展很好 , 对吧 ?Scale.ai 去年其实拿了一轮非常大的融资啊 , 几乎所有头部的科技公司 、 基金 、AI 公司全部都是在投资者 。
呃它在 24 年的 AR 应该涨了非常多 。 所以如果针对过程激励的这个方式的强化学习路径是对的的话 , 那故事应该这么演进 。
但是今天我们回头来看 , 这故事是错的 , 对吧 ? 在这个这个这个 Kimi 其实是跟 DeepSeek 差不多时间发了他们推理模型 1.5 的 。在知乎上有个问题是问如何评价 Kimi 发布的多模态推理模型 1.5,Kimi 的一位员工回复了这个问题 ,并且相当于把 Kimi 内部当时在 9 月份开始尝试复现 O1 的整个过程做了一次非常完整的整理 。
如果大家有兴趣 , 可以去找一个这个这个这个问题 , 我放在我的 PPT 里了 。他说他这个结论其实都特别简单 , 要训练大语言模型通过强化学习做题 ,有精确的奖励 ,不要采取结构化的方法 , 最终所有的结构化方法都会限制模型的效果 , 要让模型自己探索思考范式 , 思考包含了搜索过程的允许犯错 。他不是针对过程 ,也没有做任何结构化的限制 ,
只针对结果做激励 。 所以回头来看 , 就是大家如果关注行业的话 , 应该知道 DeepSeek 发的基础模型叫 V3, 推理模型叫 R1,有一个中间模型叫 R1 zero。
为什么会定义 zero 这样一个代号 ? 我呃有一个自媒体作者写 ,他说这个可能是向当年的 Alpha zero 致敬 。Alpha zero 是什么 ?
大家知道 Alpha go 是这个模企 , 嗯 , 夏威夷企业的吗 ? 对吧 ?Alpha go 在击败了李世石跟柯洁之后 ,他们团队说我们其实有一个更牛逼的模型没有出战 , 那个模型叫 Alpha zero。Alpha zero 是怎么来的呢 ?
他们说其实根本不需要给 AI 为人类高手的对局棋谱 , 只需要告诉他围棋的基本规则 , 让模型自我对弈 , 赢了就奖励 , 输了就惩罚 , 模型就很快能从 0 开始学会围棋并超越人类 。
研究人员把这个模型称为 Alpha zero,因为它不需要人类的任何知识了
。 它摆脱了人类的经验 ,在此之后, 围棋变成了比谁更像 AI 的游戏 ,因为 AI 的棋力已经超越了人类的认知范围 。
所以想要超越人类 , 必须让模型摆脱人类的经验 , 好恶的判断 , 哪怕是来自最强的人类的经验也不行 , 要摆脱这些限制 , 只有这样才能让模型自我博弈 , 真正超越人类的束缚 。
这是当时做 Alpha 以及 Alpha zero 的时候 。 现在呢 , 从 DeepSeek 的 V3 基础模型到 R1 zero 其实类似的逻辑 ,也就是说这是另一个 Alpha zero 时刻 。在 R1 zero 的训练过程中, 完全不依赖人类的智商 、 经验和偏好 , 仅靠强化学习去那些客观可测量的人类真理 , 最终让推理能力远强于现有的非推理模型 。
这是 R1 zero。 然后那又怎么从 R1 zero 到我们今天用到的 R1 的呢 ? 先收集少量的高质量的数据 , 尤其是思维链的数据 , 然后对 V3 的基础模型进行初步的监督的微调 , 解决了输出语言不一致的问题 。
因为 R1 zero 做出来之后有语言不一致的问题 ,在 DeepSeek 发了 R1 之后,OpenAI 很快的发了它的推理模型 O3 mini。 大家在用 O3 mini 的最初始版本会发现 ,O3 mini 会经常中英文混杂 , 那就是因为这种方式训练的初代的状态 , 模型本身对于语言的一致性是做的不好的 , 你还要再调 。
然后他们在这个冷启动模型上进行了类似 R1 zero 的纯强化学习训练 ,并加入了语言一致性的奖励 , 就是你都用一种语言 , 我对你奖励 。
最后为了适应更普遍 、 更广泛的非推理任务 , 比如说今天我问北京的天气怎么样 , 我问从上海到北京有多远 , 对吧 ?
问这些基础问题 ,他们进行了一次数据对模型进行二次微调 , 结合了推理跟通用数据使用混合奖励信号进行了最终一次强化学习 , 出现了 R1。
这是 R1 产生的过程 。 所以我们回头来看 , 从 DeepSeek V3 基础模型到我们今天用到 R1,其实大概分了几步 。
第一步 , 基础模型纯靠强化学习产生了 R1 zero, 当 R1 zero 有些问题 ,有对呃语言的一致性的问题 ,有对一些呃思维链做的过于复杂的问题 ,有对一些基础的非推理需要的问题 , 回答的不好的问题 , 对吧 ?
那怎么解决 ? 先用冷启动的数据 , 再加一些基础的呃是推理型的文案写作 , 包括一些事实型的数据的冷启动 , 再加一点点思维链的高级的已经被证明是不错的思维链的数据之后, 再进行一次强化跟微调 , 产生了 R1。
这个就是我们用到的 R1。 但是在技术圈 ,R1 能够被讨论这个样子 ,不仅仅只做到这一步 , 它又做了另外一件事情 , 就是说刚才我们调我们说的这套强化学习 , 再加一些冷启动数据 , 再加一些思维链 , 再加一些事实型数据的这套训练方式 ,不仅可以用来去训练跟调整 R1 的模型 ,也可以去调其他今天这个时间点上市面上的开源模型 。
所以 DeepSeek 团队又去做了 DeepSeek R1 蒸馏千问的各个大小的模型 ,以及 DeepSeek R1 蒸馏拉玛的各个体量的模型 。
所以你在 DeepSeek 的论文里面 , 我们看到一张打分表 ,是它蒸馏的那些其他模型的评分也得到了提升 , 就相当于我这套方法论不仅局限我能用 , 别人也能用 , 对吧 ?
那这个事情就引爆了所有的讨论 , 甚至今天时间点 ,其实很多我们看到一些所谓的教程 , 所谓的教你怎么本地部署 R1 模型 ,其实部署都不是 R1 那个所谓满血版的 , 都是部署的这些模型 。
那故事讲到这 , 你就会知道为什么在 1 月 24 号 ,Scale.ai 的 CEO Alexander Wang 在达沃斯论坛上一定要跳反 , 一定要去抵制 DeepSeek, 一定要把这件事情推到中美对抗的这个高度上 。
因为如果真的所有人都认可了绝对意义上强化学习的能力的话 , 那 Scale.ai 的业务就就萎缩了呀 ,不需要人类的标注 , 或者不那么需要大范围人类标注了 , 对吧 ?
所以这故事讲到这 , 然后出现一个结果 , 大家开始探讨 DeepSeek 瞬间超过了纪晓龙 , 瞬间超过了豆包 , 接近 ChatGPT 70% 的量 , 瞬间屠搒所有 APP Store 的搒单的第一名。
看上去没有人所谓有护城河了 , 对吗 ? 没有人有 。 所有这套内容 , 我强烈推荐上一期我们这个关于 DeepSeek 的讨论过程中, 那个张涛老师的这个他做了一次分享 ,是在真格基金内部啊 , 真格基金的官方公众号 ,以及他自己的 B 站视频号都发了这个两个小时的内容 , 就是刚才把刚才我讲的那个内容 , 那个关于整个 DeepSeek 从 V3 到 R1 的过程 , 做了一次非
常深入浅出的整理 。 如果大家对这个东西有感兴趣的话 , 我非常推荐大家花两个小时时间把那视频看一下 。
这是关于今天探讨的第三部分 , 新的叙事结构的可能性 。 我们进入今天的最后一部分
Agent延展54:53
, 我们进入今天 , 我们进入今天内容的最后一部分 。 我给这部分起的标题叫 "1,000 个人眼中有 1,000 个 Agent 的概念 ", 对吧 ?
每个人对 Agent 都有自己的概念 , 这个概念太过难以解释了 。 我们先回头来看 DeepSeek, 我刚才是也很多次的讲到 DeepSeek 最开始的功能叫智能对话 , 就跟我们现在用到的所有头部的大模型的产品一样 , 跟它对话 , 对吧 ?
然后它的 APP 里面加了功能叫联网搜索 , 就是 AI 搜索 , 对吧 ? 你可以跟它搜一些东西 。 后来呢 , 它的 R1 模型发之后, 它加了功能叫深度思考 , 大家可以看到整个 AI 模型的思考过程 , 看到思维链 , 看到怎么去解析我们的问题 ,并且给我们答案 。
到 1 月 24 号 , 两个按钮完全一起可以按的时候 , 真正意义上这个事情变成了完全体 。 所以 DeepSeek 有四种用法 , 对吧 ?
什么按钮都不按 , 就是最基础的基础的问答 , 然后联网搜索按上去 , 就是普通的 AI 的搜索 。
第三种用法 , 深度思考 , 它帮我去想一个问题 。 最后一种是最完全的用法 , 两个按钮同时按掉 。
我为什么一次又一次的强调同时按掉的重要的性 ,其实这件事情在张涛老师的这个上一期播客里面也提及 。
首先 ,在 DeepSeek 出现之前 , 即便市面上已经有了 O1 这样的真正意义上的推理模型 , 可是 OpenAI 的 O1 要使用的话是要付费的 , 哪怕是 20 美金的门槛 , 对于很多人而言也是很高的 。
所以市面上绝大部分人没有用过推理模型 , 更没有见过 AI 的整个思维过程 ,也就是思维链的展示 。 同时如果不联网 , 它就会有数据的时效性问题 。
你问它一些非时效性的问题可能还可以 ,但是但凡你问的问题涉及到了一些新的东西 , 如果不联网搜索就没有办法解决 。
同时这个问题再引发大模型的 Chat 产品出来的第一天 , 无数人就说过这个事情是瞄着搜索去的 。
所以你看 ,其实在 Kimi 差不多时间发了它的 1.5 之后, 它的产品里面也是有两个按钮 , 一个是 Kimi 的长思考 1.5 的模型加联网搜索 。
那我们头提到搜索了 , 对吧 ? 我们走到搜索这 ,在 DeepSeek 火了之后, 很快的 , 比如说 Meta 作为搜索的接了 R1 的模型 ,360 的纳米搜索也接了 R1 的模型 , 对吧 ?
知乎的知乎直达也接了 DeepSeek 的深度思考功能 , 然后知乎最近长得也很好 , 对吧 ? 那这里出现问题 , 这不都是做 AI 搜索的公司吗 ?Rosicky 也接了 AI 搜索 ,也接了 DeepSeek, 对吧 ?
那大家原来会说 AI 搜索公司之间的差别 , 可能更多来自于所谓的信息源 ,因为我在去年的总结报告里也这么写的 , 对吧 ?
这个小红书有点点 , 知乎有知乎直达 , 小宇宙甚至都有它的 AI 搜索 , 那元宝就更不用讲了 , 对吧 ?
因为能搜微信公众号 。 信息源上的差距真的能造成差距吗 ? 第三个问题 , 产品设计上有差异吗 ?
大家发现基本上没有差异 , 全是两个按钮 , 对吧 ? 还有一个问题 , 之前很多人会说 , 或者会问一个问题 ,是说 AI 搜索公司应不应该做自己的模型
, 现在看上去都不做了 , 对吗 ? 就是 AI 搜索
, 然后 AI 搜索再一次在这个时间点被进化了 。 一个讨论的标志是什么呢 ? 我觉得有几个例子非常有意思 。
第一个例子呢 ,是呃 , 前两天我想买一个充电头 , 我就上拼多多上去找 , 然后大家知道国内的上市公司安克的充电头不是口碑很好吗 ?
安克最近在推一款 140 瓦的充电头 , 安克官方店这这款主推的 140 瓦充电头的详情页的第一张图
,是两个 AI 大模型的聊天记录 , 分别是 DeepSeek 和豆包 。 上面这张图的标题叫 " 热门 AI 首推的充电机器品牌 , 数据无任何修改 , 未训练 , 直接回答 , 真实可测 "。
什么意思 ? 也就是说品牌商卖东西的 , 把 AI 大模型的答案认作是一种标准 。 还有上海最近有一个拉面店 ,他在门口摆了一张牌子 , 牌子上也是 DeepSeek 的聊天记录 。他问了 DeepSeek 什么呢 ?
他问上海最好吃的日本拉面有哪些 , 第一名的答案是他们家 , 牌子上写的 DeepSeek 推荐的上海日本拉面 。 第三个图是元宝街的 DeepSeek, 很多人搜索的过程中发现 , 元宝给予的回答会引到什么五八同城 、 什么易家宝 、 什么各种各样应用下载的页面 。
然后很多人会说 :" 哎呦 , 这不是 SEO 吗 ? 搜索引擎优化吗 ?" 对吧 ? 但其实这些都不是真正的 SEO, 至少在这个节点没有人在做这样的事情 。
但是当 AI 搜索再往前推进一步的时候 , 这些看上去今天时间点是自然产生的结果 ,在未来会不会跟 SEO 产生关联呢 ?
这可能就是 AI 搜索发展的一个标志 , 对吧 ? 然后还有一个角度 , 比如说这一波 DeepSeek 爆火之后, 它没有办法承接那么多的需求 , 所以无数的云厂商 、infra 厂商把这个需求接下来了 。
我觉得这个影响是非常深远 , 它甚至可能今天是没有办法去评判的 。 对于中国所有的云厂商 、infra 厂商而言 , 要感谢 DeepSeek。
典型比如像硅基流动最近拿了点融资 , 对吧 ? 他们的流量暴涨 , 某一段时间甚至我看第三方统计 , 它的流量甚至要超过腾讯云 , 对吧 ?
这个对于一家初创公司而言简直不可想 。 然后我们看到了无数的产品去接入了 DeepSeek, 对吧 ? 典型的比如说我看上上千做炒股的接了华为的小艺 , 呃 , 智能助手 , 对吧 ?
接了 OPPO 的最新发的 Find N5 的折叠机的这个这个助手也接了 。 然后到比亚迪的车机系统 , 到飞书的多维表格 , 到
百度的文心一言 , 所有人都接了 , 对吧 ? 所有人再到微信接了 , 对吧 ? 呃 , 微信这个测试接入 DeepSeek 当天下午 , 新华社发了一篇推送 , 确认微信测试接入 DeepSeek。
我的一位腾讯的好友发了条朋友圈转发的新闻 ,是说哇 , 都惊动了国社 , 对吧 ? 对啊 , 你想嘛 , 一个呃 , 一个产品接了一个模型 , 这件事情值得新华社单独发一篇推送吗 ?
我在我朋友的朋友圈回复 , 我说国运级的大模型加国民级的微信应用的合作 , 当然需要国社来报道了 , 对吧 ?
所以自此引发了这段时间关于所谓中概股的这个讨论 , 对吧 ? 就是原来是 ABC 是呃 , 只有中国 , 我这个只不要中国 ,其他都可以 , 对吧 ?
现在 ABC 是 AI88 跟 China, 对吧 ? 就只有中国的 AI 才能才能有代表意义 , 对吧 ? 所以你看 , 从可能从 1 月份开始 , 阿里腾讯都已经涨了非常多了 , 这么大的家伙已经涨了非常多了 。
就大家开始唱唱多中国资产 , 对吧 ?
那微信精英派接入 DeepSeek, 抖音怎么做呢 ? 抖音也在这段时间做了一个小事情 , 我觉得挺有意思的 。
这个是特工宇宙的公众号 , 特工少女发我的 , 呃 ,他们用 code 的方式去创建了抖音的 AI 分身 。 你可以 , 如果你是个抖音的创作者 , 你可以在 code 上创建一个你的分身 。
你的分身能来干嘛呢 ? 可以分发到搜索 , 分发到直播间里 , 比如说你卖货 , 这个 AI 可以帮你回答 , 分发到群聊里 , 甚至分发到评论区里 , 对吧 ?
所有人都在接 。 那就产生另外一个问题啊 , 比如你是 AI 搜索公司 , 所有 AI 搜索公司都接了 DeepSeek, 那怎么构建所谓的护城河呢 ?
靠产品执行吗 ? 靠用户运营吗 ? 靠品牌效应吗 ? 靠网络效应吗 ? 还是你要扎根垂直行业呢 ?
没有答案 , 对吗 ? 那怎么弄呢 ? 对吧 ? 或怎么评判呢 ? 反正那如果没有更好的分类方式 , 那钱依然是最好的标准 。
所以对吧 ? 所以在美国 ,其实一市场的投资者看 AI 公司 , 最核心的指标一定是 AI2 跟 AI2 的增长 , 对吧 ?
典型的比如去年 Cursor 涨得非常好 , 对吧 ? 去年 Cursor 应该是最快达到 1 亿美金 AI2 的 AI 公司 , 对吧 ? 然后看 OpenAI 也好 , 看 SOP 也好 , 看 SAI 也好 ,也是看他们的 AI2, 对吧 ?
钱依然是最粗暴的标准 ,但是钱呢 , 又过于简单了 , 对吧 ? 然后我们再讲另外一个案例 , 刚才讲的是偏搜索的案例 , 我们再讲一个场景叫 coding, 代码生成 。
代码生成这个事情啊 , 我们看从 ChatGPT 发到今天 ,ChatGPT 发布的时候就能做代码吧 , 只不过做的不好而已 , 对吧 ?
能 , 所以在那个时候 , 它就解决了根据输入词产生代码 ,但是它没有办法做调试 , 没有办法做后面的所有事情 , 那是 0-1 的阶段 。
然后后来 GitHub 的 Copilot 出现了 , 很多人原来就在 GitHub 上做代码的托管 , 对吧 ? 然后 GitHub 的 Copilot 可以做理解你的代码 ,并且给你建议 , 帮你提升这个执行效率 。
然后到 Cursor 出现了 , 大家认为哦 , 代码生成的 Agent 也好 , 或者说 ChatGPT 时刻出现了 , 它有逻辑理解 , 支持文件跟命令行的执行 。
然后这没几天 ,Devon 又出现了 , 大家说哇 , 这个初级代这个程序员不需要了
。在代码执行这个板块 , 我们看上去经历了从 0 到 1, 到真正意义上出现了双引号的 Agent 的过程 , 对吧 ?
那我们看这两个故事啊 , 一个是搜索 , 一个是代码生成 。AI 搜索公司是不是就是 search 的 Agent? 它分析你的问题 , 分析你的任务 , 用各种各样的工具 、 信息源收集整理信息 , 再总结 , 再整理 , 再做呈现 , 给你答案 , 解决你这个问题 。
那它是不是叫 search 的 Agent?coding, 你告诉他我今天要做个抖音 ,他其实也在吭哧吭哧做 , 做不做得成是另外一件事情 ,但是他知道你要干嘛 , 未来某一天没准是可以做成的 。
那是不是就是 coding 的 Agent? 那如果是这样的话 , 你会发现 Agent 这个概念其实被严重泛化了 。 当一个场景能够被定义得非常的清楚 ,并且能够实现不错的交付的时候 , 它就是应该是叫那个场景的什么 AI, 叫 AI 搜索 , 叫 AI, 叫 AI coding。
但是今天有太多的场景跟太多的方向 , 没有办法定义得这么清楚 , 跟有这么好的交付 , 所以我们叫 Agent, 对吧 ?
看各种各样的第三方报告 , 关于 AI Agent 的什么 map, 行业的梳理 , 无数的厂商都在上面 , 特别的复杂 。
我们回头去翻 , 最早对 Agent 的定义 , 一 , 它有计划性 ; 第二 , 它有记忆 ; 第三 , 它能用各种各样的工具 ; 第四 , 它能跟其他的 Agent 通信跟交互 。
这是我们传统定义 Agent 的逻辑 。 所以在 24 年, 其实 24 年关于 Agent 讨论就很多了 , 对吧 ? 有一些趋势 , 比如说之前我们的各种 APP 是基于各种 API 来构建的 ,但在 24 年, 它是基于 Agent, 用资源源模型调用各种各样的 APP API。
第二 , 原来大家的是类似刚才我们总的最开始的大模型 ,是从快问答的方式 , 今天开始变成有思维链 , 开始做分类 , 做垂直场景 。
第三 , 之前的 Agent 是基于代码进行搭建的 , 你用函数跟 API 的 , 可是你发现在 24 年, 大家开始基于窗口拖拽 , 对吧 ?
工作流基于这种方式来做 。 第四 , 之前的只能解决一些简单的单线的任务 , 现在开始出现了多个智能体 , 或者多个 Agent 之间构建了一个解决复杂问题的 。
那同时的 , 我们对 Agent 的评价 , 原来可能更多集中在模型本身的评价上, 现在我们在评价它去解决问题的能力 , 对吧 ?
这可能是过去这一年在 Agent 领域上已经在发生的趋势 , 这些趋势在 25 年依然会延续 。 我们再举一个更现实的例子 ,Agent 的翻译有很很多的吧 ,有些人会翻译成智能体 ,有些就会说是机器人, 对吧 ?
那我们就看一个真的机器人案例 。 今年的 CES 上, 头部的扫地机器人公司不约而同的做了一个战略选择 , 给扫地机器人加手臂 。
我昨天看韩露的微博 , 说石头已经给他发了这个加了手臂的样机了 , 就这已经不是一个概念产品了 ,是真的已经在做了 。
那大家形成一个共识是说 , 新一代的扫机器人可能都会增加一个机械手臂 。 为什么在这个时间点 , 头部厂商不约而同的选择了这样一个方式呢 ?
追根溯源 , 如果只有一个原因 , 一定是因为 AI 大模型的能力到了 , 尤其是视觉模型 。 对大家想一想 , 一定是因为视觉模型的能力到了 , 大家会觉得这个事情可以做了 。
好 , 那我们就看这个案例 , 为了实现扫地机器人加一个手臂 , 我们要做什么 ? 首先确定场景 , 对吧 ?
这个手臂拿来干嘛 , 对吧 ? 做杂物的清洁 , 它要能辨别出来物品的种类 , 它能辨别出来什么东西是垃圾要扔到垃圾桶 , 什么东西是鞋要放在鞋柜上, 什么东西是脏衣服它要放在洗衣机里 , 对吧 ?
要分类整理 , 它要记忆 。 那甚至场景里面要有重量的线 , 什么东西夹得起来 , 什么东西夹不起来 , 无数的场景的限定的边界要考虑 。
然后我们再去考虑技术的边界 。 刚才我们说过 , 最重要叫什么 ? 视觉模型的能力肯定是到了 , 推理模型到没到 ?
看上去也到了 , 对吧 ? 实施路径的规划 , 抓取的精度 , 避障的逻辑 , 这些技术的边界开始设定 。
然后到产品 ,是主动服务还是被动的选择 , 怎么跟现有的扫地机器人模块做搭配 , 兼容性的测试 , 承诺的服务范围 , 包括定价 , 所有这东西都是产品要解决的事情 。
然后给到用户 ,不是完了喽 , 要测试啊 , 要更新迭代啊 , 要用户的反馈 , 意见的整理 , 包括严重事故的处理 , 就跟自动驾驶一样 , 要寻找原因 , 要做更新啊 。
你会发现 , 场景确定 , 技术边界 , 产品交付 , 更新迭代 , 看起来好熟悉啊 , 对吗 ? 所以今天在现在这个 AI 的年代里面 , 我觉得场景到技术到产品的结合是难点 。
大模型本身的技术边界其实是在逐渐清楚的 , 即便它在疯狂的变化 。 而从场景到产品 , 恰恰是我们这些对互联网比较熟悉的国内互联网人的擅长的经验 , 对吧 ?
当然如果是这样的话 , 这件事情提出了另外一个很大的挑战 , 就是关于组织架构的挑战 。 比如说 , 模型的研发 ,是不是应该只能在类似实验室这样的形态里存在了 ?
模型跟做产品的团队是不是要严格的分开了 ? 一个公司的产品只能用自家的模型吗 ? 那现在看着答案不是这样的 , 对吧 ?
模型的产品的呃 , 模型的迭代需要产品的跟进吗 ?
以上的问题全部只集中在了模型跟产品 。 那如果组织架构层面又有运营跟商业化的团队呢 ? 这个事情变得非常的复杂 。
既然是复杂的 , 我们就看现在人是怎么做的 。 很有意思的是 ,在最近的两个月时间里面 , 头部的中国的科技公司 , 尤其做 AI 业务比较多的公司 , 都做了非常大的组织架构调整 。
阿里把阿里的通义的团队 , 通义那个 APP 的团队 , 划归给了智能信息事业群 。 这个信息群还有谁 ?
有夸克 ,有 UC 浏览器 ,有小说 ,有网盘 , 这个团队是专门做 ToC 产品的 。 而把通义千问的模型团队留在了阿里云 , 这是阿里 。
百度文心一言的 APP, 包括百度文库 、 百度搜索 、 百度地图 、 百度网盘所在的事业群 , 叫移动生态事业群 ,是做 APP 的 。
它的文心大模型团队留在了 TPG 技术中台事业群 。 字节更是 , 字节的 flow 跟 seed 两个团队 , 一个是做应用 , 一个是做技术模型研发的 。
甚至最近一段时间 , 基础的大模型研发的 team 的新的负责人也已经找到了 , 就是原来 Google 的那个很核心的那个技术的大拿 , 对吧 ?
腾讯更是 , 腾讯在年前春节前 , 把腾讯元宝的团队划归给了 CSIG 云与智慧产业事业群 。
同时, 腾讯元宝的产品研发跟腾讯会议的产品研发团队是在一起的 ,是做 APP 的 。 更更更近的事情是在上周 , 腾讯又把搜狗流搜狗输入法 QQ 浏览器 ,以及最近有点红的做知识管理的 IMA,也划归到了云与智慧事业群 。
也就是说 , 腾讯内部关于 AI 的应用层的尝试 , 现在全部放在了云与智慧产业事业群
。 而腾讯宏源的模型研发团队放在了 TEG,也就是技术工程事业群 。 似乎大家有了一定阶段性的共识
,但是 DeepSeek 的爆火又打破了一些共识 。 比如说 , 还有读者说的广密说 ,DeepSeek 也验证了一件事情 ,是说模型即应用 。DeepSeek 在产品形式上没有任何创新 , 核心就是智能加开源 。
我也不禁思考 ,在 AI 时代 , 任何产品和商业模式的创新 , 都比不上智能的创新吗 ?
在另外一个讨论当中, 呃 , 出海同学会做了一次关于 AI 原生的社交产品的讨论 。 核心的大家讨论是说 , 今天这个时间点想做 AI 社交效果都不是很好 , 原因是是什么 ?
其实很简单 , 就是技术不到位 。 理想状态下,AI 应该能够实时生成匹配感情文字 、 语音和嘴型 , 真正多到端到端的多模态交互 。
但目前这个技术仍需两三年才能成熟 。 所以这个时间点 , 产品跟模型要分得那么开吗 ? 李翔总更直接 ,DeepSeek 火了之后 ,他说能力是没有收敛之前谨慎做应用 。
同样是出海同学会 , 关于 AI 原生社交的讨论当中有这样一段话 ,他说乐观一点的是 , 多模态 AI 终将走入千家万户 , 文字和语音已经较为成熟 , 视频和动态图像也到了勉强可用的阶段 。
关键问题是 , 如何在当前产品形态中合理的接入逐渐成熟的模态 ,以增强情况表达 。 这既需要技术理解 ,也考验产品决策 。
结尾1:15:32
小公司可以快速堆叠新技术 ,但真正的挑战是在正确的节点投入资源 , 确定何时开始买量和投流 。 大家在过去的一周已经看到了 DeepSeek 的元宝疯狂的在买量和投流 , 对吗 ?
我今天内容就这些 , 然后大家会觉得 , 哎 , 怎么突然间结束了 , 对吧 ? 我在做最后一页的时候 , 我发现整个的内容有什么结论吗 ?
似乎没有任何结论
,但我觉得挺好 , 权当是为这疯狂的两个月做一次记录 。 好 , 感谢大家收听屠龙之术 。 我的 PPT 在声诺特里 ,有需要可以随便下载 。
再次感谢
。






