开场介绍0:00
本期节目我们想讨论的是近期的大热点 :DeepSeek R1。 这个春节我觉得可以说是 "DeepSeek 春节 "。 我想大家可能都有看到 ,不管是在自己的朋友圈还是小红书 、 微博 , 各个媒体都有看到关于 DeepSeek 的疯狂讨论 。
但是同时, 我看到国内狂欢的同时, 我也看到由这种爆火所带来的一些全球挑战 , 包括有监管方面的 , 比如欧盟各国对于 DeepSeek 的一些调查 。
还有关于美国方面的 , 比如说会说到 DeepSeek 用的蒸馏技术 , 可能涉及到所谓的 " 偷到美国的知识产权 " 的问题 。
所以整个状况就是众说纷纭 , 说它好的也有 , 说它是骗子的都有 。 所以这期节目 , 我们邀请到了几位大咖来跟我们讨论一下关于这次的 DeepSeek R1 爆火的状况 。
我们这次邀请到了三位嘉宾 : 第一位是 《 屠龙之术 》 的主播庄明浩老师 , 庄明浩老师一直是我们节目的老朋友了 。
春节前庄老师还做了一期 132 页 PPT 解说 2024 AI 这一年的节目 ,也是剧作 , 很多朋友可能也都听过 。 所以这次也是邀请庄老师作为一线的 AI 行业观察者 , 来跟我们进行她的分享和讨论 。
然后其次我们是邀请到了 Hicow 的张涛老师 , 张涛是 Monica 的产品合伙人, 也是在 《42 章经 》 和 《 十字路口 》 节目上都被称为 AI 顶级产品经理 。
这次也是想请张涛作为一线的创业者和产品经理的角度 , 来跟我们进行她的视角的分享 。 此外我们也请到了张鹏老师 , 张鹏老师是公众号东不压桥研究院的主理人 、 作者 。
东不压桥研究院一直以来在中美关系 、 地缘政治 ,以及尤其是在科技领域相关的一些议题都有着非常深的研究 ,也发出了很多很多的专业文章 , 包括之前我们节目有聊到的关于美国对华投资禁令的讨论 、 关于中美数据脱钩的一些法案的讨论 ,以及近期关于 DeepSeek 引发的关于出口管制和中美人工智能脱钩法案的一些讨论 , 都有非常非常专业的研究 。
我们先请三位嘉宾跟我们打个招呼 。
感谢 Lily 邀请 。 我是 《 屠龙之术 》 主播庄明浩 , 然后一直在关注 AI 行业的进展 。 确实如 Lily 所说 , 春节期间看到 DeepSeek 有一个很大的感触是说 , 得亏我的报告是在 12 月份做的 。
如果 1 月来做 , 感觉有很大的篇幅要推翻重写 。
好的 , 张涛 。
大家好 。 确实就像 Lily 讲的 , 这个春节基本上是属于 DeepSeek 的 。 我今年没有选择在老家过年, 本来在外面玩 ,但其实基本没怎么玩 ,因为白天要跟国内的咨询 , 晚上要跟美国那边的讨论 。
所以基本上整个春节都交给 DeepSeek 了 。 甚至我远程给我老爸拜年的时候 , 我给我妈说完拜年的话 , 然后我就听到我爸在旁边问 , 说 :" 你问一下儿子 , 梁文峰到底是不是真的那么厉害 ?"
我当时就特别绝望 , 就已经到这种程度了 。
好的好的 , 谢谢张涛 。 那张鹏老师 。
嗨 , 大家好 。 感谢 Lily 邀请 , 很高兴参加这次交流 。 我是微信公众号东不压桥研究院的主理人, 自己也在做一些人工智能跟地缘政治 、 跟法律和政策的交叉领域的一些研究 。
也感谢大家关注我的公众号 。 然后我自己现在是在英国 , 所以在英国这边其实也感受比较强烈 。 虽然我们中美两边其实聊得挺嗨的 , 然后其实英国这边 , 包括欧盟这边 ,他们也很关注 DeepSeek 这个事件 。
我儿子的小学里边同学和老师也都在聊 , 所以确实是特别火 。
爆火复盘4:08
欢迎欢迎 , 谢谢三位嘉宾的初介绍 。 我第一个话题的话 , 特别想聊聊从各位的视角 , 尤其是作为一线人员的视角 , 来简单评价一下 DeepSeek 这次的爆火的事件 , 尤其可能是你们对于 DeepSeek 爆火的一个观察 。
我自己的观察下来是这样的 ,因为我自己也是一线的在这个领域在看 。 我觉得最开始的时候 ,1 月 20 号的时候 ,DeepSeek 发布了 R1 的模型 ,但是当时其实我觉得并没有引起一个特别特别特别广泛的关注 。
有一些公众号上可能会再去聊这个事情 。 但是说实话 , 我觉得国内的很多公众号在一些新的进展方面确实是有点过于激进 , 经常会去取一些特别唬人的标题 。
所以那个时候我其实并没有特别去注意到这个模型 , 一直到有一件事情引起了我的注意 ,是什么呢 ?
就是何菜头发了一篇文章 , 就去专门去写 DeepSeek 给他带来的一个震撼 。 然后第二个带给我的震撼是什么呢 ?
是我当时正好是可能是 25、6 号的时候 , 我春节回家了 , 我姐姐 , 一个接近 40 岁的中年人, 然后两耳不闻窗外事 , 根本不懂 AI 的人。
她那天来问我 , 好像现在网上都在讨论 DeepSeek。 那个瞬间我就意识到 , 好像这次是真的出圈了 。 然后我也在小红书上有广泛的看到这次的爆火 。
我不知道在你们看到的视角里面 , 所观察到的情况是怎么样的 ?
我的感受跟文丽差不多 。 我的观察是 , 实际上这个事是在春节前后那两天突然在国内火起来的 。
爆火我理解有点出口转内销的这个意思 , 就是说它实际上是在美国那边先有了很多的关注和讨论 。
一两天之后, 很多国外的媒体的分析和评论的文章 , 被国内的很多的公众号 , 包括一些专家去引用 , 突然在国内也开始火起来 。
我发现一个很奇怪的现象 , 就是实际上它先发了 V3, 然后 V3 出来之后, 实际上没有引起太多的舆论的反响 。
但事后很多人分析 ,其实从 V3 发布开始 , 就是一个比较大的突破了 。 后边的 R1 实际上相当于 V3 的一个强化版 。
当时我也很奇怪 , 我还请教了很多美国方面的一些政策专家和观察者 , 我说为什么 V3 发布了之后, 包括 R1 发布之后的大概几天时间之内 , 美国的主流媒体对这个都没有什么反应 。
大概是在几天之后,《New York Times》 发了一篇文章 , 后边才是铺天盖地的 。 然后美国的朋友那边的解释是说 ,因为 DeepSeek 这事相对来说 , 它比较技术性 。
然后美国的媒体那两天因为别的一些事 , 比如川普就任 , 然后包括科技界发生的一些事情 , 实际上占据了他们的版面或者空间 ,并不是说他没有关注到 , 只是他还在理解这个事情到底意味着什么 , 到底对美国 AI 产业具体带来什么冲击 、 什么影响 , 包括对中美人工智能竞争具体是什么影响 。
后来我觉得是慢慢的他们开始发现这个事情确实是个大事 。
特别想听听庄老师的观点 。 作为一线的观察者 , 我想你的观察是不是肯定是要早于我跟张鹏老师 ?
对 , 很有意思 。 其实 DeepSeek 在 V2 的时候的版本 , 大概是去年 9 月份的时候 ,在整个开源社区跟技术圈的讨论其实就蛮多了 , 只不过那一波是还集中在核心圈 。
然后 V3 发布的时候 ,其实就有一些更大范围的传播 ,但那个时候还是相对集中在科技 、 技术跟产品 , 包括互联网这个圈子 。
确实如张鹏老师所说 ,1 月 20 号川普上任 , 那一周美国的媒体的关注热点确实全部在特朗普上任 。
这一波关于 DeepSeek 的探讨的状态能到这个样子 , 确实在第一步上有一定出口转内销的状态 。 然后很有意思的是这样 , 川普上任的第一天当天晚上, 我跟潘乱做了直播 , 我们直播聊的是川普上任对中美科技行业的影响 。
我们两个完全不懂政治学的科技博主来聊这个话题 , 对吧 ? 因为当天现场 , 白宫现场不是几个科技巨头的 CEO 都在 , 然后我们就闲扯了一段时间 。
第二天百度的直播运营又找到我 , 说因为第二天川普跟 OpenAI、 软银跟 Oracle 发布了一个所谓的新一门计划 , 就是 5000 亿美金的 AI 基础设施的投资计划 。
然后百度直播的运营说 , 庄老师能不能针对这个问题再直播一次 。 所以我在第二天晚上又直播了一场 ,是讲新一门这个计划 , 包括跟 AI 行业的影响 、 可能措施 , 包括这个计划的一些细节 。
那天晚上直播完的第二天 , 我就把这期直播的音频剪辑好了 , 做成了播客 。 然后第三天我就上传到了小宇宙 , 第四天这期节目就上了小宇宙的首页 。
然后我在那期节目当中有一小段涉及到了 ,因为那个时候 R1 已经发了 。在美国那边其实关于 V3 以及 R1, 尤其是在成本端跟架构端的创新这个层面 , 对整个过去这两三年基于 AI 基础设施投资建设的巨大的宏大叙事结构的碰撞 ,其实已经讨论非常多了 。
所以我在那期音频的节目当中有一小段聊到了这个话题 , 就是我说这个事情被讨论到这个样子 , 核心原因就在于 , 或者说最基础的原因在于 , 无论是中国还是美国去探讨过去两年在巨大的 KPIs 投入基础上构建的这个以美股 MACD 为代表 AI 浪潮的大浪 , 这个主叙事结构是不是受到了巨大的挑战 。
但是当时我没有想到这个事情会被推到这个状态 。 那天我的节目上了首页之后的再一天 , 我觉得有个很核心的事件是 ,24 年可能中国有一个最火的创业者叫冯骥 , 就是 《 黑神话 : 悟空 》 的创始人。
是的 。
《 黑神话 : 悟空 》 游戏科学的创始人在 1 月 26 号的晚上发了一篇微博 ,是讲他怎么看 DeepSeek, 第一次提到了两个关键字叫 " 国运 "。他把 DeepSeek 推到了这个 level, 然后 1 月 26 号我没记错的应该是当天晚上 Nvidia 大跌 17%, 这个事情彻底引爆所有的事情 。
然后 1 月 28 号上午 , 一篇号称是 Nvidia 老黄的内部信在朋友圈疯狂转发 ,但是那封内部信是 AI 写的 。
然后在那天的晚上, 号称是梁文峰回应冯骥的一篇知乎的回答被无数人转发 , 那篇回答也是 AI 写的 。
那个账号是一个虚假的账号 , 那个账号的举报是我点的 ,是我跟知乎的运营说我说这个人一定是假的 , 这篇文章一定是 AI 写的 , 赶紧把它禁掉 。
但是从那天晚上那篇文章开始 , 那天我没记错的话应该是 24 年龙年的最后一天 , 我跟我的太太 、 我的儿子跟我的女儿在外面的酒店过着春节 , 我看着无数的人转发那两篇文章 , 无数的人被 AI 所欺骗 。
我跟无数的人的朋友圈底下评论说 , 我说这是 AI 写的 , 这是假的 。 我叫醒了无数的人。 但是当我大年初一早上睁眼睛看到很多人还在转 , 然后又跟很多人去评论的时候 , 我写了一条即刻 , 我说虽然我叫醒了很多被 AI 欺骗的人 ,但是我又想到说 AI 发展到今天这个样子 , 尤其是 R1 为代表的推理这一波的模型的进展跟演化出来的状态
, 已经越来越难分辨什么是人 、 什么是 AI。 当一个共识形成 , 哪怕它是假的 ,有很多人去相信的时候 , 那它还是假的 。
所以到那天开始 , 这个事情就已经不可控制了 。 后面的事情可能大家就都知道了 。
对 , 你刚刚说的这个我也特别想分享一下 ,因为你刚刚提到的梁文峰的回应 , 我也看了 。 我还在一个群里回复 , 我说哇塞 ,他写的这个好感人。
然后我紧接着就在朋友圈里面看到你说这个是假的 , 我当时就震惊了 。 我觉得那是我第一次真正的感受到这一次真的跟之前是不一样的 。
我确实没有从 , 当然可能也是我水平有限 , 就是我确实没有从那篇文章里面看到有特别特别明显的 AI 的痕迹 , 我反而它还写得挺动人的 。
现在不光是在这个事情本身上 ,在于它相关的一些政策和法律这些 ,其实应当说对市场预期影响比较大的问题上 ,也有很多的 AI 的小作文 , 很多的假消息和误导性的文章出来 。
比如说前段时间我们政策圈子里边一直在传的 , 就是所谓的特朗普的 AI 沙皇 David Sacks 提出来 , 就是为了应对 DeepSeek 对中国 AI 产业采取的五步绝杀 , 每一步绝杀都很绝 。
但事后证明好像是用 DeepSeek AI 代写的 ,但是确实看不出来 , 很多人转发 。 后来我也写了一篇文章 , 把 David Sacks 整个的访谈的全文放上去了 ,也是希望能够以证试听 。
文丽提到中美人工智能能力脱钩法案 , 我看也还有很多的文章 。 最近突然冒出来很多说 , 这个法案会导致每个下载 DeepSeek 的人被罚 1 亿美元 , 我看到很多这种自媒体的标题 , 这个确实匪夷所思 。他们肯定连这个法案的文本都没有看过 ,也没有充分的去理解 。
但是这种标题就非常耸人听闻 , 传播的也特别快 。
是的是的 , 我觉得张涛应该在这件事情上也很有发言权 ,因为我也有看到你写了一篇文章 ,是关于这方面的观点的 。
对 ,因为我们这边的话 , 可能整个的观察会更靠前一点 , 原因是因为我们直接做 C 端产品 ,其实可能相比我们所谓的我们做业界的人 ,但其实有一些比较资深的以及特别深度的这种 AI 用户 ,其实他对于 AI 的敏感性 , 对于 AI 能力进化的敏感性 ,其实比我有时候觉得我觉得是比我们从业者要高的 。
比如说我在这个里面可以大家讲一个非常有意思的话题 , 就是我印象中那个应该是在 23 号的时候 , 就是我们的用户群体里面有一些是那种 , 比如说偏社区 KOL 或者说一些非常深度的用户 ,他已经把他日常的很多的工作的 workflow 已经跟 AI 整合起来了 。
所以说他们对于各种各样的新的 AI 技术 、 新的模型 ,他们都会积极去尝试 , 然后看能不能改进他们的工作质量 ,因为这个会显著的增加他们的工作效率和他们的工作产出 。
所以说在 23 号的时候 ,不管是国内还是海外的用户 , 就已经开始来找到我们说 , 你们有没有接 DeepSeek R1 的东西 。
虽然说我们在 22 号接了 ,但有部分用户他还是不知道 。 然后我其实说实话 , 我之前的时候不管是 V3 还是 R1 出来的时候 , 我都会跟我们公司的首席科学家 Peake 我们会去聊 ,因为我基本上读 paper 有很多不懂的东西都是他教我的 。
我对于 V3 的创新点我也了解 , 对于 R1 这是做什么事情我也了解 。 但是对于这个模型实际的能力 , 我觉得我的第一手体验没有用户来的直接 。
我是从 23 号开始 , 就是有用户不断的跟我们反馈说 ,他们需要接入 DeepSeek R1, 然后他们给我讲他们在 R1 上实现了什么样子的一些 case。
我在那个时候我突然感受到 , 这可能不同于以前我们所有的其他的开源模型发布 , 然后我们开始投入精力去研究它 。
然后就像我后来写一篇公众号专门去解释外界谣传的 ,也是可能颇受攻击的一点 , 就是所谓的 600 万美元的训练成本是怎么样子一回事 ,其实跟早期的火也是有特别大的关系的 。
因为我自己日常在推特上的话 , 我会有关注一些 AI 圈子的一个 KOL。 我印象中在春节前正式大火之前 , 最早期的时候转发的 KOL 都是一些真的是 AI 圈子的 , 比如说像 Hugging Face 的 AK,是吧 ?
就不是 OpenAI 的 Andrew Capacity,是 Hugging Face 的 AK。他经常会转发各种各样的 paper, 各种各样的新的模型 , 都是限于你看到就像在 Hugging Face 的这样一个很业内人士 ,他会去关注的这种 KOL 上面 。
所以说那个时候大家讨论的都是 V3 和 R1 的创新点 , 然后训练方法或者是这个有什么样子的意义 。
从我的视角上, 我觉得在美国那边第一次真的大破圈是 Mark Andreessen。 大家也知道 Mark Andreessen 其实传统意义上来说 ,他是一个甚至是有点反华 ,是吧 ?
有点对中国是有一些对抗情绪的这样子的一个美国大 V。 但是北京时间的 24 号的时候 ,Mark Andreessen 开始转发 DeepSeek R1 的消息 ,他开始是只是 reply 别人的这个 tweet, 然后后快他很快的他就开始自己开始发 , 开始发那个主推 。
从一开始的什么这个东西确实很厉害 ,但是我很坦白的告诉大家 , 我并不为这个厉害感到开心 , 这个还是跟他以前的立场是比较像的 。
但是很快他自己发的主推就在一天的时间里面没有过很久 ,他就已经变成了什么呢 ? 已经变成了 DeepSeek R1 是给到我们人类世界的一个 。
就是我也看到了 。
对 , 一个最好的一个礼物 , 你知道吧 ? 然后包括什么说 R1 是 AI 的斯普特利克 moment, 这个东西其实很多都是 Mark Andreessen 在 24 号到 27 号 , 就是在春节前夕 , 你会看到他的情绪的一个变化 。
然后 Mark Andreessen 在美国不管是科技界 , 甚至说就是卖出科技界 ,其实他的影响力都非常的大 。 所以说我们会看到说其实早期我大概可能在 24 号之前 , 更多还是圈内讨论 。
然后 24 号从我的观察的视角上来看 ,以 Mark Andreessen 入场开始 , 就在美国那边的话 ,其实他已经完成了一个破圈 。
所以说以我个人的情绪而言 ,其实我从 Mark Andreessen 开始转发的时候 , 我不得不承认我是有点心潮澎湃的 , 就是你看到中国的一个工作 , 就是受到了一个原来在立场上是比较跟中国对抗的这样的一个 KOL 的认可 。
所以说一直到 26 号我看到冯骥发的那篇 , 怎么说呢 ? 有一种呼应的感觉吧 , 就觉得就是真的是成了 , 真的是厉害了 。
而且再加上我自己因为也是一个黑神话的忠实粉丝 , 所以说 Lily 应该也记得我那段时间就发了不少的帖子 , 就是感觉自己欣赏的两个工作居然有这样子奇妙的连接 。
所以我自己也是非常开心 。
冯骥发那篇文的时候 , 很多人在朋友圈都在说双厨狂喜 。
对对对 。
对 , 然后我觉得张涛他刚好把这个话题引入到我们接下来想讨论的方向 , 就是我想可能也是很多人, 尤其像我这样的普通大众 , 非常好奇的问题是 DeepSeek 的 R1, 它到底在这次是有一些什么样的核心突破 , 导致它出现了这么大的一个全球范围内的一个讨论度 。
这个方面的话 , 要不先请张涛涛哥帮我们解释一下, 毕竟你是专业人士 。
核心突破19:23
OK, 如果说我们先就模型本身而言 , 我觉得首先像刚刚明浩老师其实也已经提到 , 就 V3 本身的创新点是非常强的 。V3 那篇 paper 里面用了大量的工程和算法结合的很多的 , 我这里说奇技淫巧是一个绝对褒义的词 , 就是有大量的这种工程跟算法结合的奇技淫巧 , 使得 DeepSeek 能够在算力受限制的情况下, 用一个就是我们在 paper 里面提到的 2048 张 H800 的卡
,也能够训出 GPT4o 和 Claude 3.5 级别的 base model。 这个事情本身的创新点很多 ,但我觉得可能因为那 V3 那篇 paper 它的技术细节 , 我觉得可能不是很适合在我们今天这个里面分享 ,但它即使如此 ,但对于整个业界来说 , 那你无非就是 just another GPT4o,是吧 ?just another Claude。
我觉得它不会带来那么显著的 impact, 就是到现在这样子的破圈的程度 。R1 当然是在这个上面更推波助澜 , 就是它第一次验证了说业界之前在复刻 O1 的方向上大家去走的所谓的 PRM, 它是强化学习的一种方法 ,是通过激励过程的方法 , 就证明这个路走完了 ,是吧 ?
我们应该用一种更直接的方法走 ORM。 这两个背后可能也有很多的技术细节 ,但大家可能就是作为非搞技术的同学 , 一个 take away 的话 , 就是这个方向之前很多人想过 ,但是没有人能想到怎么把它做出来 。
然后 DeepSeek 是第一个 , 当然有些人说 OpenAI 可能才是第一个 ,但是你知道在学术和开源的世界里面 , 你如果不发 paper, 你不放出你的模型的权重 , 我们就等于你没有 。
所以说在真实的学术和开源的世界里面 ,DeepSeek 是第一个把 ORM 的这种强化学习的方法跑通的厂商 ,并且把它开放了出来 。
但是我个人觉得 , 即使是这两个点 , 它对于我们产业内部来说影响非常的大 ,但是也不足以形成后面破圈的整个一层一层的过程 。
我自己就是从 22 号我们开始自己接 R1 的 API 开始 , 然后我们看推特上面的用户的 feedback, 全球各地的用户大家会截图 , 就是自己在用 DeepSeek 的过程当中, 觉得用得特别爽的点 , 觉得为什么世界上有这么好的东西 , 它比 ChatGPT 好 , 它比 Claude 好 。
然后我们这个时候在推特上去看那些全球各地的用户截图的时候 , 就发现了一个特别有意思的一个点 , 就是我们发现说 DeepSeek R1 好的 case 里面 ,有 80% 如果你去看它的截图 , 它都是打开了 search 的 。
所以说我觉得这可能是大众舆论在讨论的时候很容易忽略的一个点 。 大家认为这是 R1 很厉害 ,但是事实上我们认为说这一次 R1 其实它是打了一个非常好的一个时间差 。
这个时间差是什么时间差呢 ? 就是在此之前 ,reasoning model, 就是我们所谓的这种有思维过程的这样子的 model, 就是类似于 GPT 的 O1, 它其实在全世界范围之内 , 即使是在已经用了 AI 的用户里面 , 真的用过 O1 的用户是少数的 ,因为 O1 是一个相对比较贵 , 它需要买 ChatGPT 的不管是 Plus 还是 Pro 这样子的高级会员 ,20 到 200 刀才能使用 。
这个就使得其实在 DeepSeek R1 他们把它模型和产品同时发布之前 ,在这个世界上真的用过 reasoning model 的人是少数 。
然后在这少部分用过 O1 的用户当中, 又会有另外一个问题 , 就是 O1 在这之前它没有接 search,也就是说如果你在 ChatGPT 里面用 O1 的时候 , 它是只能自己 reasoning 的 , 它没有办法去获取到世界实时的通过搜索的方法去获得实时的知识 。
那么 DeepSeek R1 除了本身的技术很厉害并且开源以外, 我觉得它破圈还有一个非常重要的一个点就在于 , 它在全世界范围之内第一次提供了一个既有 reasoning model, 又可以通过搜索获取现实知识 ,不断的结合反思的这样子的一个产品 。
你要记得这是一个产品 , 这不是一个模型 。 而这样子的体验 , 就是 reasoning model 去调度 search 的这样子的体验 ,在这个发布之前是不存在的 。
所以说有大量的自来水用户是在接触了一个完全全新的没有体验过的高质量的体验之后, 自己变成自来水的 。
这是我自己在观察推特上面的整个舆论 , 我觉得一个非常重要的一点 。 我觉得也是我们在讨论的时候 , 我们不能永远都是说因为它开源 ,因为它什么 。
我是觉得如果能形成那么广泛的破圈的讨论 , 一定有很多核心的自来水是来自于产品本身的体验本身 。
而我们在这个其中的话抓到的一个很关键的点 ,其实就是 R1 加 search 这样子的一个组合 。 所以我们甚至判断如果当时只发了 R1, 没有把 search 能力加上的话 ,也许不一定会后面破圈破得这么厉害 。
这是我们的一个观察 。
我 echo 一下涛哥的说法 , 就是 DeepSeek 在之前是没有 App, 它的 App 应该是 1 月 10 几号才上线 。 上线起初它的 App 里面底下就有两个按钮 , 一个是 R1, 一个是联网搜索 。在它最开始的版本里 , 那两个按钮是不能同时点的 。
你要么用联网搜索 , 然后搜索的反馈的结果类似于今天这个时间点 , 我们用各种各样的 AI 搜索跟 Chat 的结果 , 你要么用 R1,但是 R1 的不联网的内容的信息的数据源应该截止到 23 年 12 月份 。
所以在那个时间点确实没有达到爆点的前提准备 ,但是就是在这一波浪潮开始之后, 可能也就是七八天之后吧 ,App 的两个按钮可以同时点了 。
因为当时我在最开始 DeepSeek 发 App 的时候我就装了 , 然后两个功能我都试了 ,但是就是觉得确实没有达到让用户 Wow 的状态 。
但是当那两个按钮同时可以被点的时候 , 这个事情就出现了变化 。
这个我也确实 , 我作为一个普通的用户 , 我也特别的有感受 ,因为不管是之前一直以来最头部的 OpenAI 的 Plus 的账户 , 还是 Claude 一直以来在写作方面最优秀的这种模型 , 我其实都试过 ,但确实都没有我在使用 , 尤其是刚开始 DeepSeek 那个时候还没有被各种天量的用户量给冲垮 , 导致各种服务器繁忙的时候 , 那个时候还是很流畅 。
我试用的时候 , 我觉得我所得到的那种体验和它给我的答案是从来没有过任何一个 AI 的应用所给我的 。
当然今天我从涛哥的叙述当中, 我终于理解了是为什么 , 确实就是你讲到的推理模型和搜索的结合所带来的体验 。
为什么我有这个感受呢 ? 是因为我这几天就明显的发现 , 我在问类似的问题的话 , 它给我的答案我觉得是没有最早的时候我使用的好的 。
我自己发现里头有一个核心的区别 , 就是它的联网搜索是不能用的 。 我就发现这两个答案上的质量是有一些明显的区别的 。
然后我们要不再聊聊说其他一些可能在 DeepSeek 的核心突破上, 可能一些比较有争议性的一些观点 , 尤其刚刚其实涛哥有讲到的关于极大的节约了成本 600 万美金的事情 。
这个事情我看到不管是国内 , 尤其是美国那边对这个事情的质疑真的是非常非常多 。 我不知道你怎么看这个事情 。
我就先讲 ,因为这个我专门写了一篇文章 。 我在观察 R1, 就是大概在春节 , 应该就是除夕吧 , 就是截止到除夕的时候 , 我就有一种很明显的感受 , 就是美国主流的媒体 , 包括美国的学界 ,其实对于中国的整个的 AI 其实是一个长期是冷落 , 或者是说很刻意的去忽视的一个环境 。
所以至于说我们突然有个东西火了之后, 你会发现他们想来了解我们的时候 ,他们的英语世界的信息是极度落后的 , 极度滞后的 , 甚至会有很多的 fake news。
比如说像我那篇文章里面我提到 , 当时因为 R1 火了 , 你也知道如果你作为国外的 KOL 或者作为主流媒体 , 你要去写这么一篇新闻 , 你肯定就会去调查 DeepSeek 是个什么样子的公司 , 对吧 ?
所以这个时候就出现了三个比较出名的谣言 , 甚至到今天你在推特上面 , 如果你去搜 DeepSeek 英文世界的话 , 这三个谣言还在继续流传 。
第一个就是关于罗弗利 , 对吧 ? 罗弗利其实大家在搜的时候很容易搜出来 , 她因为是一个女生 ,而且很年轻 ,也是 V2 模型时候的一个研究员 , 然后很多的 KOL 就去推罗弗利 。
但是其实你是在中文世界里搜索的话 , 你就会发现罗弗利其实有很多的报道 , 比如说她已经去小米了 , 已经不在 DeepSeek 了 ,有很多很多这样子的一些事情 。
但你可以想象在英文世界 , 可能这个消息是比较滞后的 , 即使到今天也有很多人把它描绘成罗弗利是 DeepSeek 背后的秘密武器 。
第二个就是关于说觉得 DeepSeek 是 R1 这个东西是我们中国的一个量化基金的一个 side project,他们特别强调 side project, 就说好像描述的叙事就是中国有个量化基金 , 主业是做量化 , 然后一不小心干了个 side project, 就干到全球第一了 。
但是你知道这种感受在我们国内 , 只要是在从事这个行业的人, 我相信绝对不会有哪个人会觉得 DeepSeek 是一个 side project。
我们肯定是很认真的在对待这家公司的 ,但是这样子的叙事在英文世界可以流行 ,其实就是因为你也理解 , 它长期以来对整个中国的观察是非常缺失的 。
成本迷思29:12
然后到了第三个最经典的谣言 , 就是说 DeepSeek R1 训练成本只要 600 万美元 , 相比起我们的 Meta 动不动要上亿美元 , 这个完全就把 NVIDIA 的叙事给打垮了 。
我们 Meta 随便一个 Fair 的 director,他的年薪可能都有 600 万美元 , 反正就越传越广 。 但这个过程当中, 为什么我们讲训练成本 600 万美元 , 我要讲这三个谣言 , 我是因为我觉得训练成本这个谣言的背后 ,是来自于长期的他们对中国整个的 AI 的学术界的不关注 ,以导致说初期传播的时候 , 就没有一个很正确的声音 , 或者是说一个很好的信息来源的去了解 。
这是一个背景 。 具体到 600 万美元这个事情的时候 , 我的观点一直是这个样子的 , 就如果你要去攻击一个对象 , 那么我们首先要看你攻击的对象它最原始的表达是什么 。
这个训练成本 600 万美元 , 它最初的根源 , 甚至都不是来自于 R1, 它是来自于 V3,也就是说 R1 的去做强化学习的 base model,V3 的技术报告里面 , 它里面有提到说他们总共的训练时长是在用了差不多应该是 280 万 H800 的 GPU 小时 。
如果说按照每个小时两美刀的成本去计算的话 , 就是租金去计算的话 , 那么差不多就是五六百万左右吧 , 好像是 550 多万 , 我记不太清楚了 , 反正我们就忽略一个 , 算个 600 万吧 。
那么首先是 DeepSeek 在它的表格里面非常清晰的告诉了你 , 整个的这 550 万的成本 , 它的构成是什么样子的 ,pre-training 花了多少钱 , 然后去做 context 的扩展的时候花了多少钱 ,post-training 部分花了多少钱 , 它的模型的整个的参数的尺寸 , 它用来训练的数据量 , 全部都是在报告里面是清晰的数字 。
那么如果是业内人士 , 你根据模型的尺寸和激活的参数量 , 再加上训练的数据量 , 那么你最后的训练时长是完全是一个公式是可以算出来的 。
那么这样子的成本的话 ,其实对于行业内来说 , 大家是不会有任何的质疑的 , 就会觉得 OK, 如果你是做成这样子的一个 MoE 的架构 , 用这样子的数据量来训练 , 那么就是这个样子的成本 , 这个其实是没有任何的疑问的 。
并且 DeepSeek 在自己的技术报告里面也非常清楚的 , 就在表格的下面有很长的一段来讲说 , 我们这个地方提到的训练成本只是指的是 DeepSeek V3 最后一轮的训练的成本 。
那么在这个之前所有的研究成本 , 所有做实验的成本 , 所有去做那些算法研究 、 结构研究 、 数据准备 、 清洗相关的这些成本 , 都没有算进去 。
那么作为我一个第三方的观察者来说 , 我觉得它给出了一个在数学上是绝对可以被证明的成本 ,并且它也没有刻意去忽略说其他成本还存在 , 只是我没有列在这里 。
那么所以我首先不会去 blame,不会去怪 DeepSeek。 那么我们看到当时在推特上整个舆论发展的过程大概什么样子 ,其实也就是在我刚刚提到的说 ,在 Mark Andreessen 介入之前 ,也就是说还停留在比如说像 Hugging Face 的 AK 他们讨论之前 。
那么大家就说 DeepSeek 用 600 万干了 Meta 的 Llama 模型几千万的活 , 那么这个我觉得是一个完全正常的对比 ,因为这个事实上就是我们指的单次模型的训练成本 , 就是 600 万对几千万 , 这个首先它确实是有优势的 , 就它真的是节省了很多 。
但是这个节省也就是 600 万和几千万 , 就是单次训练成本的这样子一个对比 , 这个讨论是完全没有问题的 。
但是我印象中差不多就是在 Mark Andreessen 介入之后, 然后有更多的 KOL 和传统媒体 ,因为他们不太了解这个技术 , 很快的就把 600 万的单次训练成本背后的信息给忽略掉了 , 然后把它直接拿去跟比如说 Meta 在 Llama 上的整体投入 , 比如说多次训练 ,是吧 , 甚至把整个团队的投入都算上去 。
这个时候就已经开始变得已经有点离谱了 ,是吧 , 就是说它把上下游的人员工资 、 各种 infrastructure 的开销都算进去 , 这个时候就已经有点偏离了 。
然后到最后就是到更多的媒体介入了之后, 这个 600 万就甚至都不是跟训模型相关了 , 直接去跟 Claude, 比如这个公司的融资规模 , 甚至它的骨质规模去对比 , 这个时候就完全已经变成了一个神话了 。
然后这个时候你知道 , 一旦变成神话之后, 就会有人开始进来攻击你 , 对吧 , 说你这个是骗子 。
但是我们想一想 , 首先这个事情最开始的时候 ,DeepSeek 压根就没想过骗 ,而所有中间的编出来的所有的这些发展过程 , 全部绝大部分都是英语世界的 KOL 和媒体 , 就是不懂这个行业的 KOL 和媒体所产生的 。
所以说我觉得在整个这个过程当中, 屁股决定脑袋吧 , 就到最后的话 , 它已经完全演变成了一个跟技术没有关系 , 纯粹是一个地缘政治 , 或者是说对于企业管理思路 , 对于产业发展路线的这样一个辩论 。
但它跟 DeepSeek 一开始最原始的表达是什么 , 已经毫无关系了 。 所以我自己对于这个的观察差不多就是这个样子 。
明浩老师要不也来分享一下 ,因为你对不管是中国还是美国的各个创业企业 , 尤其是 OpenAI, 包括你之前也提到的新机之门这些计划都非常的熟悉 , 我想在这方面你应该也有很多的想法 。
对 , 就是也是 Echo 张涛涛哥的说法 , 就是 560 万美金仅仅是一次训练模型的成本 , 这跟整个幻方或者 DeepSeek 在 AI 大模型的投入完全不能相比 。
但是因为在美国的主流的 AI 这波叙事里面 , 关于各家巨头 , 包括 OpenAI、Anthropic 的投入 , 我的 PPT 之间其实有一页是非常明显的 , 我那页的标题是特别简单 , 是一个我很喜欢的主播大猛说的一句话 , 说在成年人的世界里面 , 钱是最简单的标准 。
依据整个 24 年的情况来说 , 大概它会把整个 AI 相关的公司分成三类 , 第一类叫科技巨头 。 什么叫科技巨头 ?
就科技巨头每年在 AI 上的相关的投入 , 尤其是以 KPIs 为主的投入 ,是以百亿美金为单位计算的 。 正好这一周是这几家巨头发新的一年财报 ,不约而同的 Meta、Google、 微软 、Amazon 都公布了明年在 AI 相关的基础设施的投入都是大几百亿美金 。
没记错的话 , 微软是 800,Meta 是 650, 亚马逊是 750, 昨天晚上 Google 应该是 700。 这个叫科技巨头 ,也就是说主流的媒体跟主流的 , 比如说美国的这些 KOL 的认知里面 ,AI 相关的大的家伙们每年在这件事上投入是几百亿美金级的 。
然后第二类公司叫 AI 的主要的参与者 ,是以 OpenAI、Anthropic、Claude, 包括 XAI 为代表的这些公司 ,他们的计量单位是 10 亿美金 。OpenAI 去年应该亏了 50 亿美金 ,Anthropic 应该也是小有几十亿美金 , 然后 XAI 去年大概也融了几十亿美金 。
就是说这些公司在 AI 相关领域的投入 , 这个投入包括硬件 、 数据中心 ,也包括人员 , 包括 infrastructure 所有这些 , 可能是几十亿美金来计的 。
这类公司叫主要的参与者是几十亿美金 。 第三类公司叫挑战者 , 就简单就是几亿美金为计的 , 比如说 Midjourney、 什么 Carry.ai 这种公司 。
所以在主流的媒体叙事里面 , 钱的计量单位我刚才讲过是亿美金 、10 亿美金跟几百亿美金的体量 , 甚至如果把科技巨头的所有的 KPIs 加起来 , 整个去年美国的前六大科技巨头在 AI 的相关基础设施的 KPIs 的投入应该是 2300 亿美金左右 , 然后今年预计可能会涨到 3000 甚至 4000。
如果再算上新一支门计划的 1000 亿美金 , 这个数字就更大 。 所以你发现我刚才讲的所有数字 , 最小是亿美金 , 旁追的是 10 亿美金 、 百亿美金 、 千亿美金 , 这些数字偏偏出现在所有的媒体跟所有的讨论当中, 然后突然间有一个人告诉你 , 我这边只需要 600 万美金 , 这个的落差之大 , 对吧 , 就我不需要再去解释别的任何事情 , 就是任何一个哪怕
不懂这个行业的人 ,他也知道这之间的差别是几个零的差别 。 所以当这个事情被演绎到一个神话跟大家已经不去探讨细节的时候 , 这个事情就已经没办法 。
但是过程中其实也是有清醒的人, 像那个 Anthropic 的 CEO 在接受一次过程中采访也提到是说 , 就跟刚才涛哥讲的逻辑是一样 , 就是它确实 560 万到 600 万美金的一次训练成本确实是一个成本很低 , 工程上有非常多创新的方式 ,但是我们这边可能常规的 , 比如说是一个 2000、3000 万美金的体量 , 本质上来讲不是一个遥不可及的数量级的差别 。
但是没办法 , 这个故事被演化到这个程度之后, 这个事情的演绎跟推演就不可控了 , 就出现了后面未来的大跌 , 大家去探讨这个行业的乱七八糟的事情 。
我其实完全同意前面张涛老师跟明浩老师的分析 , 就是这些数字本身 , 我理解实际上它有些时候是超越了事实 , 添加了很多的情绪 , 尤其是双方的民族主义情绪 , 包括中美 AI 竞争的一些争论在里面 , 科技竞争 。
因为从技术社区之外的普通人的角度理解 , 我理解普通人对它最直观的认知可能就是两点 , 一个是它用最低的成本实现了几乎比肩 OpenAI 的这种模型性能 , 然后再一个就是说它在更低端的硬件 、 更低端的 GPU 上实现了高级推理 。
我觉得普通人可能更加倾向于从这些方面去理解 。 然后从中美两边实际上民间其实都有一些动力去夸大 DeepSeek 的这种它怎么省钱这方面 , 然后包括也去质疑美国的这些 OpenAI 这些 AI 的科技巨头为什么花了这么高的成本 ,但好像没有跟中国模型拉开多大的差距 。
因为我理解在美国国内实际上对 OpenAI 对这些领先的这种 AI 的巨头一直是有一些质疑的 , 就是说政府对他们的支持非常多 ,不管是政策工具 、 出口管制 , 然后包括国内的一些资本的投入 ,其实支持是非常大的 。
然后突然又冒出来一个好像一直是比你要落后的 , 你看不起的中国的大模型出来 , 然后人家花这么少的钱给你实现了同样多的效果 , 我觉得肯定毫无疑问会极大的加剧了对它的进一步的质疑 。
然后从中国国内本身 , 这肯定对我们来说是一个突破性特别大的事情 。 所以我觉得两边其实都掺杂了很多的情绪 , 这个时候事实反而不是特别重要的 。
也就是我为什么前段时间一直在说 , 这个讨论需要适当的降一下温 , 然后需要有更多的产业界和技术社区的人们来去澄清一些基本的事实 。
对 , 这件事情我也特别想问一个问题 , 就是 DeepSeek 这次的模型我们也有观察到 , 这一次最近 DeepSeek 爆火之后 ,其实硅基流动和华为云他们联合合作在华为的生成的技术基础上也去提供了 DeepSeek R1 的服务 , 包括前面我们最早的时候有讲到 DeepSeek R1 爆火之后, 英伟达其实暴跌 17%, 尤其前面我想涛哥也有提到说 DeepSeek 的这一次 R1 包括 V3 的很多创新 ,其实都是因为他们
只面临了有限的资源情况下做了很多工程上的创新 、 技术上的创新 。其实我觉得它揭示了一个问题 , 之前美国包括国内的有一些 AI 行业的人也在说 ,其实是有一点 AI 算力门槛论的 ,也就是刚刚庄老师说的 , 你必须要有几十上百亿美金的投入 , 你才有资格去做大模型 , 包括前面 1 月底的时候李开复老师的零一万物的退出训练大模型这件事情 ,其实也
给这个事情也是一个注脚吧 。 我其实特别想听听几位在这件事情上的看法 ,也就是 DeepSeek 在这种资源匮乏的情况下所做出的这种创新 ,以及它可能对当前的这种包括芯片 、 英伟达这些造成的冲击方面 , 包括它可能运用到国内的生成 , 就华为的芯片上的一些运用 , 它所带来的打破的一些传统的叙事这方面的观点 。
我的感受是我觉得都是细节 。 第一个细节是国内的这一波做 infrastructure 的厂商跟做 chatbox 的厂商可能因为 DeepSeek 的爆火 ,但是 DeepSeek 本身没有那么强的面对这种大流量的运营的能力 , 导致的用户蜂拥的寻找所谓的本地部署跟云端部署的替代方案 , 导致的用户增长是一个巨大的促进作用 。
就这个促进作用本身是所有人未曾预期过的 。 举个最简单的例子 , 就是硅基流动的 CEO 袁老师其实之前在极客朋友圈也写 , 就之前 DeepSeek V3 上线的时候 ,他也没有特别就跟涛哥的 Monica 差不多 , 就是大家觉得一个开源模型技术能力不错 ,也没有想特别多 ,也没有最快的做兼容 , 包括 R1。
但是当事情火了之后 ,他们马上跟进之后, 无数的人注册硅基流动 , 然后开始做自己的 API, 然后做调用 、 做部署 , 包括我看好几个 KOL 都用自己硅基流动的邀请的注册码 ,因为他们现在邀请是每个人, 如果你用我的邀请的话 , 注册成功之后会有 14 块钱的奖励 , 我看已经有 KOL 下来他的奖励已经这个数字已经很庞大了 。
但是小红说那些评论下面全都是邀请码 。
对 ,B 站上今天应该在首页应该有不下三个教大家怎么在本地跟在云端部署 DeepSeek 的视频 , 我点一看都是一万人同时在线在看 。
这一步对于这个生态的促进跟影响的长远性可能是今天这个时间我们没法预估的 ,因为在这之前所有这些厂商的知名度也好 , 影响力也好 , 包括他们做的事情 ,他们的业务 ,他们能做什么 ,不能做什么 , 怎么跟上游结合 , 所有这些事情对于一些非行业内资深人士而言是完全未知 、 完全陌生的 。
但这一波之后很多事情大家都知道了 , 这是第一个 。 第二就是当 DeepSeek 出现之后, 包括我们前面在探讨的成本的问题 , 所以市场的最直接的第一反应就是砸 Android。
英伟达冲击43:50
但是你要知道就是股票市场本身来讲 , 它是一个多方博弈的过程 , 出现一个巨大的下跌一定是有一些别样的因素导致 , 它不是一个单纯的因素 , 它可能是本来空头就比较多 , 然后积压情绪已经到了 , 需要一个时间点的引爆 , 这个事情彻底就把它点着了 。
我反正在之前写年的报告时有一张图 , 用的是 Nvidia 的过去一年的股价变化 , 然后旁边有一张附图是标普 500 的公司一天的涨跌幅的排名 , 然后涨幅前十跟跌幅前十 , 这 20 个选项里面应该有 16 个到 17 个都是 Nvidia 贡献的 。
为什么是这样 ? 因为就是我有个说法叫盈亏同源 , 就是它既是 AI 这波大模型的最大的受益者 , 然后它又是七巨头之一 , 它的波动当然就是最大 , 关于它的争论也是最多 , 所以当天跌了 17%。
这个跌了之后, 更多的反面的探讨开始出现 , 大家会觉得如果真的出现了一些更低成本的方式的话 , 那是不是对未来的我们期待中的无论是应用层的爆发 , 还是 Agent 的爆发 , 还是个人使用门槛的降低 ,有了更多的促进 ,也就是说它把需求的门槛降得更低了 ,是不是能带来整个生态的更大的繁荣 。
这个观点引发的讨论是说 , 如果是这样的话 ,其实对于芯片也好 , 对于上下游的厂商的需求也好 , 应该是一个长期看上去更多的 、 更好的事情 。
所以这两方的观点在过去这一两周的时间也疯狂的做对冲 , 谁也很难说服谁 。 两方的观点疯狂的在各家几个头部公司的股价上做对抗 , 又很巧合的是这几家公司这几天都在发财报 , 昨天晚上应该是 Google 发的 , 然后 Google 非常激进的在明年的 AI 的相关基础设施的投入应该是预期要涨百分之多少 , 百分之四十还是百分之几 。
但是即便是这样 , 即便是 Gemini 最近一段时间的表现也很好 ,但是财报发完 Google 也跌了 8%。Nvidia 大跌那天 Apple 没有跌 , 大家会认为对端侧模型可能是一个好处 , 包括这两天港股开盘之后联想涨得很好 , 联想的涨的逻辑就是认为端侧模型对于有端的厂商而言是一个好事情 , 包括小米也是这个逻辑 。
所以你会发现同样的一个信息 , 至少在我们所熟悉的二级市场跟股票市场里面 , 对于不同公司的不同解读 , 影响了这一波短期的操作 。
明白 。 涛哥有什么补充吗 ?
我觉得对于算力的这块影响 ,其实它就是分成短期情绪和中长期的看法 。 我记得春节期间的话 , 我和增格基金的雨森 , 我们有个交流 , 然后雨森跟我提到一个特别有趣的观点 ,他说他看身边的朋友 , 比如说美国那边的朋友 , 西岸的都在买 , 西岸的都在买 Nvidia, 东岸的都在卖 Nvidia,其实就是说西岸的都是产业界 , 都是 AI 产业界的 , 大家都觉
得像 R1 这种开源社区的这种新的技术的突破和发布 , 它一定是会带来整个行业的更加繁荣 , 造成未来的不管是推理还是训练的需求量都会大大上涨 。
但是东边就是华尔街搞金融的 , 大家短期的这种情绪都会觉得说这是个重大利空 , 我要赶紧卖 。
我觉得之所以会出现分叉点的一个很大的原因 , 就是大家对于未来的看法 ,以及说股票市场其实和长期的产业发展 , 它不一定在任何时间段之内都是完全是同趋势同向的 。
但我自己毕竟不是个专业的金融人士 , 我自己只是一个从业者 ,但在我的视角上来看的话 , 我肯定对于未来的算力需求是有非常乐观的预期 ,不仅仅是因为 R1, 还有很多其他的方面的一些原因 。
我整体上我会觉得 , 比如说我会很乐观的看到 , 可能也就是不需要 3 到 5 年, 我觉得太长远了 , 我觉得可能就是 3 年之内 , 整个推理的算力需求会比现在扩大 100 倍 , 就不是 10 倍 ,是 100 倍 。
所以说站在我这样的观点前面来看的话 , 我就会觉得整个的算力需求一定是会大大上涨的 。
但是对于 Nvidia 来说 , 这个叙事最大的变化是推理需求上涨了 ,但是不是都由 Nvidia 来吃掉这个推理需求 , 我觉得这可能是关于未来叙事最大的一个变化 。
就像最近大家也看到华为的 910C,是吧 , 硅基流动已经部署上开始来推理 R1 了 , 大家也会去想说你华为能行 , 我是不是其他的那些厂家也能行 。
我觉得这一次可能是因为开源世界之前一直没有一个真的能够跟一线闭源模型能打的模型 , 所以说大家去大规模去部署开源模型的动力并没有那么强 。
这是第一次产生了这样子的一个时刻 , 然后当大家真的有实际的部署需求的时候 , 大家突然发现好像不用 Nvidia 也行 , 我觉得这个是造成这个叙事一个特别大的一个变化 。
但如果从整体的大的推理需求量来说的话 , 我自己是非常看多算力需求的 。
明白 。 这里我其实特别想引入接下来的一个话题 , 就是其实有一些人我看到对这次的事情的评价 , 就是认为其实美国一直以来的这种芯片出口的管制政策并没有真正的限制中国的 AI 技术的发展 , 反而导致了很多的技术上的创新 。
这方面的话 , 我其实想先听一下张鹏老师的观点 ,因为你也一直有在关注美国方面对 DeepSeek 这次 , 尤其是他们政府方面对这次 DeepSeek R1 爆火的一个反馈 。
芯片疑云49:35
DeepSeek 这块我理解美国那边从一开始它的一个非常重要的关注点 , 就是一些涉及到芯片相关的一些事实的问题 , 比如说它到底有没有最开始大家流传的 5 万块的 H100 的芯片 。
因为这个事情最先缘起的实际上是 2024 年 11 月 , 那个时候也是美国一个半导体 AI 产业界的一个非常著名的一个观察家 ,他自己也运行一些 newsletter, 叫 Dylan Patel,他实际上在去年 11 月份的时候 ,他好像发过一条推文 ,其中提到 DeepSeek 有超过 5 万个 Hopper GPU,他没有说是 H100, 实际上当时他说的是 5 万个 Hopper GPU,S800 肯定也是 Hopper, 对吧 , 只是说因为美国制裁 ,他们的内存带宽比 S100 受到更多的限制 , 实际
上属于一种阉割版 , 后来这个阉割版也被美国进一步的出口管制 。 然后后来实际上是在达沃斯论坛期间 ,Scale AI 的首席执行官 Alexander Wang 他接受采访就谈 DeepSeek 这个事情 , 包括他的算力的供应这块 , 直接就说 DeepSeek 有 5 万块的 H100 的芯片 , 然后他理解这违反了美国的出口管制 ,而且 DeepSeek 不敢对外去说 。
所以这个事情我觉得在美国的商务部 , 包括这些主管部门 , 我觉得引起了他们非常大的关注 , 包括白宫国安会 ,因为我们都知道 H100 是美国严格出口管制 , 对大陆禁运的芯片 , 那么你这 5 万块到底怎么来的 , 你是不是通过走私过来的 。
所以说后来我们看到媒体放出来的消息 , 白宫国安会等于说牵头成立了一个类似的这种调查机制 , 实际上我理解现在这个调查仍然在进行当中, 这肯定是它需要去搞清楚的一个问题 。
我觉得现在大家普遍的理解就是说它这个 5 万块的 H100 应该是一个假消息 , 它应该主要还是依赖的 S800, 包括我们前面张涛老师跟明浩老师提到的 DeepSeek, 它主要的创新点我理解也都是围绕着 S800 克服它内存带宽不足的问题来产生多余的计算能力 。
因为我看到很多分析说 DeepSeek 实际上是在每一块的 S800 的 132 个处理单元中专门编程了 20 个用于管理它的跨芯片的通信 , 那么这在 CUDA 架构当中实际上是很难做到的 。
所以很多分析也指出来说 DeepSeek 的工程师实际上是使用了另外一种叫做 PTX 的指令集 , 实际上是跟 CUDA 是不太一样的 ,也就是说只有你在使用 S800 的这种情况之下, 你这种通过工程化的这种优化 , 它才是有意义的 。
但是这个事情确实毫无疑问的激发了美国那边的非常密切的关注 , 对这个问题是有两派 , 一派是有人认为正是因为美国前期的过于严格的出口管制 , 所以对中国公司产生了一种倒逼的效应 , 逼得它在工程方面就像 DeepSeek 一样去做到了极致 , 然后才开发出了现在的这种 DeepSeek 的 R1 的模型 ,V3 的模型 , 实际上这是美国出口管制所导致的一个恶果 , 属于自食
其果 。 另一种观点认为说你看 DeepSeek 还是在依赖你的英伟达的芯片去做出来这个模型 ,是吧 , 还是用的 S800, 你当初就不应该放 S800, 你应该把 S800 一块管了 , 包括它的等效的一些芯片 。
所以现在前几天彭博吧 , 我记得也传出来说美国政府正在考虑进一步的管制目前还合规的英伟达的阉割版 H20, 我理解目前国内其实对 H20 这种芯片还是有一定的依赖的 , 如果管制了之后肯定会产生相应的影响 。
目前的走势来说 , 我理解 H20 可能大概率的会被管制 。
明白 。 这方面也想听一下张老师和涛哥的想法 , 尤其是关于 DeepSeek 的芯片来源这件事情 , 我还蛮好奇的 。DeepSeek 的论文当中它其实有明确的提到它是用的 H800, 然后我记得其实暗涌有一篇文章 , 梁文峰他也是明确有提到说他们其实很多都是老卡 ,而不是真正的现在最先进的卡 。
然后但是我也有记得有一个新闻 ,其实是我印象里面 DeepSeek 第一次出圈的一个新闻 ,其实是当时说 DeepSeek 幻方是国内唯一一家拥有 1 万张 A100 还是 H100 芯片的一个新闻 , 这个是当时我记得幻方出圈的一个很重要的事件 。
不知道这个庄老师怎么看 。
对 , 就是第一波关于 AI 的基础设施投入跟买卡的讨论的时候 , 大家就在探讨中国的哪些巨头的卡的数量比较多 。
幻方是做量化的 , 量化说简单一点就是用机器的方式炒股 , 它的整个运作方式就是推理 、 计算 、 分析 、 总结 、 整理 , 整个过程听起来跟大模型一模一样 , 对吧 , 就是所以在人家做幻方做炒股的时候的卡就有了 。
所以在那一波在美国还没有完全出明确的禁令之前 , 幻方集团公司里面就有不少的卡 。 所以那个时候有一波新闻是说中国可能除了字节跟腾讯在那个时间点之外, 拥有万卡的只有幻方 。
幻方在那个时候拥有万卡的原因是因为它是做量化的 ,但是那个时候其实幻方已经开始做大模型的研发了 , 就这两件事情是那个时候它相当于在并行在做 。
然后后期当出口管制限制出来之后, 至少在今天我们看到的 V3 跟 R1 的一些论文跟 Paper 上来讲已经是合规的 。
但是你要知道其实中国的公司有非常多的方式想用到被管制的卡还是可以用到的 , 无论是租用 , 然后海外公司实体还是从新加坡转移到各种各样的方式 ,其实有很多 , 非常多 。
涛哥这件事情怎么看 ? 你作为一线的 AI 领域的创业者和产品经理 。
这个感觉好像也不是什么该我们看的事情 。 我觉得这个方面可能我最信实的来源就还是 SemiAnalysis 上周他们发的那篇报告吧 , 就是说 6 万张 ,1 万张 A100,1 万张 H100,1 万张 H800,3 万张 H20, 这个数字应该是一个比较可信的数字 。
而且我讲真 , 如果真的是把他们的 V2 和 V3 那两篇 Paper 从头读到尾 , 当然我也是因为有我们公司首席科学家陪读 , 就是读的过程当中你就会不断的问自己 , 就是但凡他们手上如果真的是那种如 Alexander Wang 所说有那么好的 5 万张卡 , 我觉得他们都不会去做那些事情 。
就是你在 V2 和 V3 的 Paper 里面读着读着就会有一种为什么要干这个呢 , 就是它为了去解决一些那种卡件互连的带宽上的问题 , 为了解决传输量和运算量的问题 , 它用了很多的一些偏 Hack 的一些方式 。
如果说他们不是受限于卡的话 , 我觉得他们根本就不会去干这些事情 。 所以说我觉得真的是认真读过 V2、V3 报告的人都会可能跟我们产生一样的疑问 ,并且得出一样的结论 , 就是他们是真没卡 , 或者是就是真没满血的那么多的 H100 的卡 , 像 Alexander Wang 说我们有 5 万张 。
我觉得如果真有这样的话 ,他们就不会去干 V2、V3 里面提到的很多的一些工程上的一些优化了 。
明白 。 另外我特别想讨论一个问题 , 就是关于其实也是一直以来 , 尤其是美国那边对这一次 DeepSeek R1 的一个非常主要的抨击 , 就是关于蒸馏的问题 。
蒸馏争议57:25
有时候到 DeepSeek R1 可能是用了 ChatGPT 模型的一些模型的技术来进行蒸馏 ,由此就涉及到一个可能侵犯到美国的领先知识产权的一个问题 。
这个问题我可能想请涛哥帮我们先简单的介绍一下什么是蒸馏 。
OK, 好 , 就是 Distillation 它在机器学习领域里面其实早期的时候是一个更加有确定性的这样子的一个用语 , 就是说比如说你已经训练出来了一个大 size 的一个模型 , 比如说你训了一个 70B 的 , 对吧 , 然后这个时候你把这个 70B 的模型给它去 prompt, 开始疯狂的输出一些数据 , 然后这个时候你把这个 70B 的模型中间的某些层给抽掉 , 只留下比如说以前我可能有个 200 层 ,是
吧 , 我抽掉之后剩下 100 层 , 这样子我模型参数变小了 , 层数也变少了 , 整个网络结构是变简单了 , 然后我用前面那个 70B 满血的版本的输出去调教它 , 试图让之后的更小的 size, 比如这个 32B 的 size 的模型也能够表现得尽可能的跟它的 teacher model 70B 的一样 , 这个叫 Distillation。
那么最严格的 Distillation 的定义里面 , 它一定是同样的一个模型 , 同源 , 对吧 , 就同样的模型我抽掉一些层 , 这个叫蒸馏 。
后来这个东西相对来说被泛化一点 , 就是说我也不要求模型是一样的了 , 我就是用一个更大的模型让它的输出来调教我的一个 student model, 这个 student model 可能在架构上都有可能跟 teacher model 不一样 ,但是它最终的目的都是希望通过一个 teacher model 的 output 输出来引导这个 student model 能尽可能的它的整个的输出能够跟 teacher model 一样 。
但是这个里面有一些限制 , 首先就是蒸馏是大尺寸模型对小尺寸模型 ,其次就是 student model 理论上来说它是不可能强过 teacher model 的 , 这是关于蒸馏的一个基本的概念 。
蒸馏这一个问题也是我看到美国那边好多的 KOL 都在讲我们是偷了他们的领先的技术 ,但是我也其实有看到说 OpenAI 的它的有一个研究员 ,他是自己在那边承认说认为 DeepSeek R1 的一些发现是独立于 OpenAI 的 , 这一点上我不知道你怎么看 , 包括你怎么看认为 ,因为我听说蒸馏技术应该在 AI 行业里面其实都是一个非常普遍运用的技术 , 包括其实之前有新闻 , 就当时
应该是美国已经是限制了一些中国的企业去使用 ChatGPT 的模型 ,但是当时应该是有一个新闻是说字节还仍然在通过 API 使用的方式在蒸馏 ChatGPT 的模型等等 ,有这样的一些新闻 , 所以这些方面我不知道你们怎么看 。
涛哥要不你还是先说 。
首先蒸馏在行业里面是绝对普遍 , 当然每家都不会承认 ,但这个事情就是真实存在 , 中美我觉得都有 , 关起门来说大家都是认的 ,但是公开来说就没有人会认 。其次就是说大家不要把蒸馏想得那么厉害 , 蒸馏这个词是因为大家有时候对蒸馏原理不了解 , 所以说就觉得蒸馏好像就是跟我们做汤做饭一样 ,是吧 , 就是把水分熬干 , 剩下
的精华就是蒸馏 , 就大家这样子就会觉得好像是一个剽窃 , 是一个过程 。 但是如果说你真的去看 V3 的整个的训练过程 , 包括 R1 的训练过程 , 你就会发现所谓的蒸馏即使存在 , 它在这个里面能够影响的点是一个非常小的这样子的一个点 。
好 , 然后这是首先一个前提条件 。 那么其次我们再来看 , 说蒸馏这个话题一开始是怎么产生的 , 就我们讨论任何一个事情 , 我们都要看它最开始是怎么产生的 ,因为不能说把原因这个起始点给抛开 , 我们就空对空的来说蒸馏有没有 , 存在不存在 。其实你会发现真的在美国那边舆论发酵起来 , 包括也有一些华人在质疑这个事情 , 就都是来自于大家
的一些截图 , 就是说你去问 DeepSeek 的官方的应用的时候 , 它有时候会出现自我身份认知的错误 , 它会说 I am ChatGPT, 或者是说在它的 R1 的 reasoning token 里面 , 就是它的思考过程里面 , 它会提到作为 OpenAI 的一个 ChatGPT, 我不能怎么怎么样 , 然后大家以此截图传播说它果然是剽窃了 OpenAI, 最夸张的就是说这个是一个 OpenAI 的套壳 , 这个就有点过分了 , 这个我们就不去回应它
了 ,但更多的是说这个是使用了蒸馏技术 。 但是我是觉得所有拿这种 case 来说的人 ,其实它本质上是对于现代的模型训练过程 , 包括说 LLM 的这种模型的基本原理能力 , 它其实是不太了解的 , 所以它只能够通过最后的输出的这一句话来做判断 。
我们来简单分析一下, 首先任何一个语言模型它都不知道自己是谁 , 就是我们在做 pre-train 的时候 , 我们真的在预训练一个模型的时候 , 用全世界所有的语料把这个数据各种各样处理的时候 , 大家对 AI 因为不太了解 , 总有一些比较偏玄学的想象 , 就觉得 AI 好像真的是一个人, 它有个自我认知 , 所以说我问它的时候 , 它就说 Hey I am ChatGPT,但事实上在做 pre-train
的时候 , 通常不会去训这个 ,而是在做 post-train, 做后训练的时候 , 会专门有一个对齐过程 , 对齐有很多方向 , 偏安全的 , 偏有害性的 ,是吧 , 偏各种各样的 ,其中有一个方向就叫 self-cognition, 就是自我认知 。
那么在那个部分的对齐里面 , 就会通过大量的 instruction, 就是指令级去训练一个模型 , 让这个模型知道我是谁 ,也就是说大家理解吗 , 就一个模型它本身 , 它在训练的过程当中 ,其实它是没有一个所谓的自我认知的 , 它的自我认知是通过后期的对齐的方式来实现的 , 这是一个前提之一 。
那么 R1 中间有一个比较 tricky 的一个地方是在于说 , 至少行业里面有不少的同学会觉得 R1 它是通过少做对齐来实现了在模型能力上的一些提升 ,因为大家要知道所有的这种我们所谓的对齐的部分 ,不管是偏安全的 , 偏什么方面的对齐 , 都会通俗意义上来讲 , 会让模型降智 , 它的智力会降低 。
比如说如果你仔细去看 R1 的 Paper 里面 , 它会提到他们在最终一轮的 SFT 里面引入了 Hamlet 的数据集 , 那是一个有害信息的 , 事实上如果不加有害信息的对齐的过程的话 ,其实在有一个 benchmark 上 ,他们还能再提升七八个点 ,但为了去对齐那个 ,也牺牲了一些能力上面 。
所以说其实 R1 我们大家一致比较认可的就是它少教了很多的像 OpenAI 和 Claude 他们要教的所谓的叫 alignment tax, 就是对齐税 , 就是说很多的商用模型 , 它最后为了符合各种各样的法规 , 包括社会价值 ,是吧 , 公众的意义 , 它要去做很多的安全对齐 , 这个过程当中其实它会损失很多的智力 。self-cognition 就是自我认知也是后对齐的一部分 , 它事实上也会丧失这个 ,R1
不得不说在这个方面做得比较少 , 所以说它能力很强 ,但是造成的另外一个问题就是它对自己的自我认知其实不是那么的强 。
现在互联网上不管中文还是英文互联网上充斥着大量的语料 , 那些语料里面各种地方都有 I am ChatGPT 什么什么什么的 , 那么它在做 pre-train 训练的时候 , 数据集里面不小心混淆进去这样的数据 , 首先这个是一个非常正常的事情 , 我先解释这一点 。
那么另外一个点就是大家对于蒸馏这个事情的理解还不太对的一个点是什么 , 就是如果说假如说你真的要去做蒸馏 , 真的做蒸馏是怎么做呢 , 首先它现在做不了真正的蒸馏了 ,因为真正的蒸馏的话是需要 teacher model 它在输出每一个 token 预测的时候 ,不仅要输出概率最高的一个 ,也还要输出比如说 Lily 曾经是一个律师 , 那么推理到一个的时候 , 除了要输出律师
这个 token, 我们就假设这是一个 token, 就律师可能是 99% 的概率 , 可能有 95% 的是一个女生 ,是吧 , 女生可能 95% 的概率 。
也就是说在每次推理的时候 ,其实 next token 它的是一个概率分布 ,是有很多很多个可能性的 。 那么我们真的要蒸馏的话 ,其实是每一次 next token prediction 的时候 , 要把完整的每一个词的概率分布都拿出来 , 这样子蒸馏学习才可以学到真东西 。
但是 OpenAI 早在一年多之前就在自己的 API 里面把每一步推理的时候的所有的可能性 token 和包括概率的数值都已经屏蔽掉了 , 所以说首先其实你现在做不了真正的蒸馏 , 你想靠这种方式 , 就想靠他们线上的有的那个 API 做蒸馏 , 学不到什么特别多的东西 。其次如果你真的要做蒸馏 , 大家想一下你会去怎么构建 prompt, 难道你构建的 prompt 会说你输出的每一
句话都要以 I am ChatGPT 开头吗 , 就如果你真的要去让 teacher model 教你 , 你肯定不会让它开头输出 I am ChatGPT, 对不对 , 比如你可能就是说你教我 5 加 5 等于几 , 直接输出答案 , 那 API 就只会输出一个 10, 你学到的就这个 10, 你不会学到 I am ChatGPT。
所以说现在网上所有那些拿 DeepSeek 的官方应用回答里面的它的表达说 I am ChatGPT 或者说作为一个 OpenAI 的 AI 这个东西来说 , 它是蒸馏的 ,其实在我们从业者看来其实都不是特别懂行 , 大概就是这样子一个背景 。
明白明白 。 张鹏老师也特别想问问你的看法 ,因为我记得你在这个问题上应该也是有发一篇文章来讲的 , 就是关于美国那边可能认为我们通过蒸馏去所谓的叫偷窃他们的领先技术和侵犯他们的知识产权这一点上 。
是 , 我理解的这个事情 , 就是美国那边其实有一些情绪化的表达 , 比如说你刚才说的偷窃美国模型的问题 , 我们要严格的从法律上去分析的话 , 实际上你要从知识产权法的角度去分析 , 对吧 ,因为我们通常说如果说存在一个偷窃模型的情况 , 什么情况才属于偷窃模型 , 我觉得无外乎这么几点 , 一个就是说你这个设法获取了别人无意间公
开或者共享的模型 ,是吧 , 既可以是在物理意义上你去窃取了存储模型的设备 ,也可以说你是在破解他人在终端设备或者模型接口上实施的一些安全保护 , 从而去获得了这个模型 , 要不就是说你通过网络入侵的手段你获得了模型 , 总之这些都是没有争议的所谓的偷窃模型的行为 , 你不仅可能因为这个违反一些相关的协议承担民事责任 , 同时还有可能因
为你违反网络安全保护相关的法律法规 , 需要承担行政和刑事责任 , 这个是中美其实在这方面我觉得是没有什么差异的 。
然后再一个就是说套壳的行为 ,是吧 , 套壳我们大家也知道 , 尤其是前期 AI 发展起来的时候 , 国内还是比较多的 ,也就是说你这个模型是合法获取的 ,但是你既没有引入新的数据或者模型的架构 , 你也没有在训练代码微调对齐或者推理生成上去引入任何的实质性的修改 , 你实际上就是把别人研发共享的模型说谎说成是自己研发的 , 这
个我觉得整体上也是没有争议 , 它属于一种偷窃的行为 ,并且很可能会构成知识产权法上所谓的对著作权的版权的侵害 , 包括一些欺诈违反开源协议的这种行为 。
再就是说你虽然这个模型你是自己研发的 ,但是你在一些关键的环节 , 比如说在数据的配比 、 架构设计或者其他一些非常对你这个模型的性能提升非常重要的优化的环节 , 你用的一些参数是吧 , 实际上不是你自己的 , 你是不知道什么渠道从别人那拿来的 , 那么也有可能会有侵害商业秘密的风险 。
但是说模型蒸馏这个我理解是非常复杂的 ,而且这个事情实际上之前大家在讨论 AI 相关知识产权版权问题的时候 , 很少有人会提到蒸馏的问题 , 所以说下一步它肯定是 AI 知识产权法领域需要去研究的一个问题 。
我的理解是说目前的情况之下, 蒸馏不是说当然的去它是违法的或者违法了协议的 , 很多的应用场景就像张涛老师和明浩老师提到的 ,其实都有合法蒸馏的需要 , 包括一些行业里边大家都在做的一些事情 。
那么什么情况下你去蒸馏他人的模型 , 属于说的窃取 , 我理解这个要求应该是非常严格的 ,而且应该是有非常明确的双方之间的这种使用协议或者其他类型的合同的规定 ,并且它一般情况下来说 , 我觉得不应当是构成知识产权法上的一个侵权行为 ,而更多的可能会构成一些违反合同法导致违约责任的行为 。
但是目前我们看从美国方向来说 , 实际上把这个事情就简单的有很多人简单的定性为一个偷窃的模型 , 所以我理解很多这个时候它其实已经不再仅仅是从法律上去说这个事情 。
像 David Sacks 我理解就是说他作为特朗普任命的 AI 沙皇 , 未来在 AI 监管方面 , 包括对华 AI 竞争这块应该是有比较大的话语权的 。
我就注意到他已经连续三次提到了模型蒸馏 ,他认为是侵犯知识产权的行为 。 我认为这是一个非常值得引起大家警惕的信号 。
未来根据他的说法 ,他理解美国的 OpenAI 这些币源的模型企业会采取更多的措施来防止中国企业去蒸馏他的模型 。
至于说他怎么去防止 , 怎么做到 , 这个技术上我其实我不是特别懂 , 我不知道他是不是真正能够做到 ,但实际上我理解他是有这个意识 。
还有人在讨论未来美国是不是会出台相关的这个领域的监管的法规 , 比如说要求托管币源模型的这些美国的云服务商履行一种所谓的像我们银行业反洗钱的这种了解你的客户的尽职调查规则 ,know your customers, 就是必须去监测中国企业去蒸馏美国模型的这种行为 , 然后采取相应的报告或者预防的措施 。
但是 again 就是在技术上它到底能不能做到 , 这个我觉得要打一个问号 。
能不能做到这一点上涛哥有补充吗 ? 有没有这方面的研究 ?
你是说就是它有没有什么方法来防止我们吗 ?
对 ,是的 。
我觉得这个很难 , 说实话 , 如果是只是大家现在在讨论的蒸馏层面 ,因为只要你的模型是一个开放出来让大家用的 , 那么你就避免不了这件事情 。
同意 , 我其实就这个蒸馏 , 包括美国那边认为我们所谓的叫偷窃他们技术的这个问题 , 我有一点自己的小小的看法 , 就是我认为他们这件事情上真是非常的双标 。
你 OpenAI, 你 ChatGPT 当年训练的时候 , 扒遍全网的数据 , 包括其实很多人可能关注 AI 的人之前也有记得一个事情 , 就是他们当年的 CTO 在有一次主流媒体的采访的时候 ,有人问到说他们是不是有去在未经授权的情况下去下载 YouTube 的视频来进行训练 ,他也是装作茫然无知的情况来回复 。
所以在这件事情上, 包括我觉得 AI 的这一波的大语言模型的发展上 ,其实大家也都知道 , 我们都一直在说其实数据一直都是我们的瓶颈 , 全网的数据已经都耗光了 , 所以大家这种互联网的数据一直以来说实话就是粗广一点讲叫做就是被侵犯的 ,其中最大的犯罪者我觉得就是 OpenAI, 就是 ChatGPT,但他们反而来在这一件事情上来指责我们 , 就一个行业
通行的蒸馏的技术来指责我们 , 我觉得他们在这件事情上真是非常的双标 。 不知道张老师怎么看 。
对 , 我理解 , 就是这个事其实它是一个不同的问题 , 就是你刚才说的它使用训练数据 , 包括很多的训练数据实际上是一些本身有版权的文本图像 , 它没有在获得版权人许可的情况之下去使用这些数据进行的模型训练 。
这个我现在实际上是关于大模型领域知识产权争端的一些主要的问题 , 比如说训练数据的爬取是不是构成侵犯版权 ,AI 生成内容的版权归属是吧 ,API 滥用是不是违反服务条款等等这些 , 实际上中国和美国法院的司法实践当中都有一些比较有名的案例 。
但是这个跟美国人他说的模型蒸馏 , 知识蒸馏的问题 , 它实际上是不同的问题 ,因为你前面说的那些实际上涉及到它在获取训练数据过程当中一些侵犯知识产权的行为 , 等于说是输入端的 , 从输入端它认为的一种侵权行为 。
那么这个模型蒸馏实际上我理解的它实际上是使用了美国的前沿模型它输出的一些数据 , 所以这其实是不同的问题 。
美国人之所以这么敏感 ,他就认为是吧 , 虽然是大家都在 ,其实都在搞知识蒸馏 , 就你说的 OpenAI、Anthropic、Google 他们这些其实都在做这种事情 ,但是他们可能觉得因为你是在蒸馏我的模型 ,而我的这个模型我现在把它训出来 , 实际上前面我承担了大量的 , 包括训练在内的全部的成本 , 你这个蒸馏我的模型实际上是某种程度上去搭了我的便车 , 我觉得是不
公平的 , 就是说它有一种所谓的不公平的这种 sense,但是这个到底是不是一种违反知识产权法的行为 , 这个在法律上它是两回事 。
明浩老师在这方面有补充吗 ?
我基本没什么补充 ,因为这个话题从蒸馏到什么是蒸馏 , 到大模型行业大家常见的对数据获取跟数据操作的处理 , 再到中美两国之间对于数据的敏感跟安全的考量 , 命题一步一步被放大到不可解释 , 对吧 , 就是最可解释的是最前面的那些问题 ,但是到后面很多问题其实就没办法解释了 , 都不是技术问题了 , 对吧 , 所以能发展
到这个样子必然是后面那些最大的命题导致的 , 既然已经不可解释 , 那就让它存在着吧 。
包括其实最近在 DeepSeek 的爆火这件事情上 ,他们也面临到欧洲欧盟那边的意大利 、 爱尔兰 、 法国 、 比利时这些国家的一些监管的挑战 , 包括在美国这边刚刚我们提及的一些挑战 , 我觉得这个议题上本质上它其实涉及到的一个问题并不是仅仅属于 DeepSeek 这次的一个问题 , 我觉得它实际面临的一个问题是在一个有着很大潜力的技术发展与我们既有的一些规则体系之间的矛
地缘监管1:16:44
盾 , 包括其实我们前面也有提到说 AI 的发展这一波对本来对知识产权就是一个极大的挑战 , 前面也说了他们可能扒了全网的数据来进行各种各样的训练等等 , 这本质上就是一个核心的矛盾 。其实我觉得各国包括各个产业界各方面其实都还在这方面去进行一些探索和摸索 ,其实都没有去定论 。
我觉得这个问题甚至可以聚焦到今天这个时间点 , 欧盟 、 美国 , 包括我看上午澳大利亚 ,他们的集中点如果狭义来看是集中在这个 APP 本身的问题上, 可能更多是关注数据安全跟隐私 。
确实实话实说 ,DeepSeek 这家公司在产品端 、 运营端 , 包括安全端的投入肯定是不如国内那些大厂的 ,他们在这件事上的经验应该也没有很丰富 , 所以一定是有一些双引号的瑕疵的 , 对吧 。
但是这件问题我觉得他们怎么讲很双标的问题是在于第一 ,DeepSeek 是一个创业公司 , 它可能整个成立就是一年多的时间 , 对于一个创业公司来讲 , 它本身的任务就是去开发最有创新性的技术 ,而这就是它目前所做到的事情 ,但是所有人却在指责它在监管合规上面的一些没有做好的地方 ,但明明这方面根本就不是人家的主要任务 , 甚至都排不上次要任务这一点 。
与此同时 ,其实全世界有各种各样的网站也好 , 供应商也好 ,其实都在这方面有着巨大的问题 ,但是他们就偏偏枪打出头鸟 , 要挑 DeepSeek 来讲这个问题 。
对 , 所以我觉得引发的新闻就是我们把这个话题延展 , 就无限的开脑洞 。 第一 , 就这个事情可能跟 TikTok 的事件又有些关系类似的 , 对吧 ,APP 层面的无论是推荐算法隐私数据 , 然后再一个你看这两天 Sam 在亚洲 ,他先去日本去跟软银成立了合资公司 , 相当于在日本软银来负责 OpenAI 的落地 , 当然软银会付给 OpenAI 很多的钱 , 这个双引号的落地在解决的问题
, 你可以理解就是刚才我们说的这些问题 。他去完日本 ,Sam 马上去了韩国 ,OpenAI 跟卡扣 , 就是韩国的微信成立合资公司 , 卡扣负责 OpenAI ChatGPT 在韩国的落地 , 这个落地又是刚才我们讲的这个问题 , 这个又想到比如说类似我们云上贵州 , 对吧 , 就是你会发现在今天这个世界的地缘政治环境下, 任何一个高科技相关的头部的应用跟服务跟技术在当地落地都
不是一件简单的事情 , 都非常的复杂 。
就是刚刚庄老师提到的这一点上, 我其实特别想聊的一个问题 ,也是可能张鹏老师主要的一个研究方向 , 就是尤其是中美之间的这种地缘政治科技方面的一个竞争 , 然后包括其实之前我觉得您可以就是把好多个议题带到一起来跟我们分享一下, 尤其之前的美国对华投资禁令 , 然后数据脱钩的法案 , 还有现在正在讲的中美的人工智能脱钩法案等等的这些东西
, 我觉得它是可以去印证一个话题 , 就是庄老师刚刚讲到的这种地缘政治上的问题 , 然后这个也可以 echo 到您之前写的那篇 《 特朗普 2.0 时代的中美科技战争 》 这一方面的 , 这个也想请您跟我们分享一下 。
对 , 这个当然是一个比较大的一个问题 , 就是毫无疑问的就是 AI 这个领域现在肯定是中美地缘政治竞争 , 中美科技竞争一个核心的议题 。
我们其实看到拜登政府时期其实对华科技竞争主要是围绕 AI 的 ,是吧 , 它实际上是从几个角度去对中国进行的限制 , 首先是算力方面 , 严格控制高端 GPU, 包括能够生产制造高端 GPU 的这种半导体制造设备的 , 包括它的上游的零部件原材料的这种出口管制 , 这个是非常严格的 , 实际上是贯穿它整个四年任期的一条主线 , 我们国内对此进行大量的研究
。 然后再从数据方面 ,其实在他任期的末尾也出台了切断美国人敏感数据跨境向中国流动的一些法规 , 虽然他有意的 , 实际上为了照顾美国公司的商业利益 ,他对敏感数据的去做了一个定义 , 就是还是希望能够限缩在特定领域的数据 ,但是实践中操作起来的话 , 仍然会感觉到非常的宽泛 。
这个尤斯瓦布发布的联邦法规应该下个月就会生效 , 我理解这对中美双边的数据跨境流动实际上会产生比较大的限制的作用 。
那么此外在人工智能发展高度依赖的另外一些其他的要素 , 比如说资本人才方面 , 它也有相应的限制措施 , 资本方面就是刚才 Lily 提的比较多的反向投资审查 , 它实际上是框定了三个领域 , 先进半导体 、 量子计算和先进 AI, 三个领域去限制美国资本支持中国这些产业的发展 。在 AI 方面 , 它整体上也是设定了一些标准和参数 , 核心的理念就是说美国
的钱不能用来支持和帮助中国去发展能够跟美国 AI 公司去竞争的这种前沿大模型 , 反向投资审查的规则是已经生效了 。
当然川普时期理论上来说 ,他仍然是有足够的工具去修改甚至是彻底推翻这个法规的 ,但是主要的问题就是说他这么做的理由是什么 。
我理解实际上跟他在美国内部的一些政策辩论 , 包括中美下一阶段围绕贸易问题 , 川普最关心的问题 , 关税的问题 , 整个的中美双边关系中的其他的敏感问题 , 这个应该是放在一个大盘子里去进行谈判和沟通的 , 所以未来的发展其实还是很难说 ,但是这个法规是已经生效了 。此外在人才方面 , 我理解川普政府有可能会出台相应的一些限制措施 , 可能
会主要的对标 , 首先是中国企业在美国的公司去招聘当地的人才 , 然后包括持有中国护照的中国工程师在美国参与相关的 AI 模型的研发活动等等。
我们也得到过一些消息 , 就是说其实本届政府是在从签证政策和移民政策的考虑去研究出台一些对中国的限制的措施 , 核心就是说美国的 AI 人才不能去支持中国的前沿 AI 产业的发展 。
那么它整个的背后大的战略逻辑 , 我理解就是因为首先它美国政府把 AI 模型 , 尤其是谁能够先实现所谓的通用人工智能 , 它作为一个影响到中美双边战略稳定的类似于核武器的这么一个东西 , 它要确保美国首先实现 AGI, 至少不能让中国先实现 , 所以它实际上采取了两步走 , 就是一个是我自己拼命的去发展 ,是吧 , 我通过资金的扶持 , 产业的补贴
, 我自己去发展 , 包括前面有嘉宾提到的星际之门的这个计划 , 这个实际上都是怎么让自己跑得更快的一种路径 。
然后另外一个就是拜登政府时期实施的 , 我怎么来尽量的拖慢中国 AI 发展的步伐 , 确保中国要始终比美国要辣些一截 , 至少不能先实现 AGI。
那么其实为什么 DeepSeek 这个事出来之后, 对美国政府的冲击会这么大 , 我理解也是他们有非常大的紧迫感 , 就觉得前期的一些限制措施 , 让美国公司跑得更快的一些措施 , 似乎没有起到应有的效果 , 中国模型公司还是很快的去追赶上来 ,并且甚至有一定潜力的可能去超越美国公司 , 所以我理解他们内部现在也是有点慌的 , 肯定是在通盘的研判和考虑怎么去
在本届政府继续限制中国的 AI 公司的发展 , 怎么让美国公司的竞争力变得更强 。 因为前期他任期的头三个月 , 头 100 天是非常关键的 ,是他整个的对华 AI 竞争政策顶层设计的一个过程 , 所以目前我们没有看到太多的公开的信息 ,但毫无疑问像美国商务部 、 国务院 、 财政部 , 包括白宫 、 国安会这些部门肯定是在密集的去研究 , 准备向川普去提交一个报告 , 里
边包含下一步要实施的对华的具体的限制政策 。 我觉得这三个月中间他的政策讨论的过程还是非常值得关注的 。
同时我理解 DeepSeek 这个事对美国对华 AI 竞争这块整体是一个负面的 , 我是说对美国的对华 AI 政策来说 , 它整体是一个负面的 , 就是它突然更前所未有的感觉到了中国扑面而来的在人工智能领域对美国形成的竞争压力 , 从而也可能会促使它出台更多的一些激烈的过度的回应和反制的措施 。
比如说我们前段时间谈到美国国会参议院的情报委员会主席 Josh Hawley 他提出的中美人工智能能力脱钩法案 , 这个法案是非常极端的 , 基本上要实现中美在人工智能技术和知识产权 、 人工智能研发 , 包括人工智能领域的资本流动三个方面完全的脱钩 , 这也代表了某种程度上代表了美国国内对这个事的一些情绪和反应 。
就是对于这些做出海的 , 尤其可能是以北美市场为目标的这些中国的创业企业来讲 , 您刚刚提到的数据脱钩的法案 , 包括一些人才流动方面的 , 包括整个特朗普 2.0 时代他们的一个政策的倾向 , 这些东西肯定对他们的影响会非常非常大 , 我理解对吧 。
对 ,是 , 这肯定是影响非常大的 。 实际上一直以来我觉得对中国的还不是说 AI 企业 , 整个科技企业在美国的出海应该说全球范围内压力是最大的 ,因为从欧洲方向我们其实也看到一些不利的动作 ,但是我理解欧盟它对中国科技企业 , 比如说前段时间实际上是对社交媒体平台的这种监管 , 它本质上还是怎么说 , 就事论事 ,是吧 , 关注具体的
数据内容方面的合规问题 , 还没有整体上把它上升到国家安全 , 包括对中国的科技竞争的这么一个高度 。 所以说整个的来说 , 我在欧洲的感觉是整体上还是一个比较偏向理性和客观的一个态度 , 它的强监管也有一些自己的竞争性的考虑 , 包括很多人说实际上像 GDPR, 包括数字市场法 、 数字服务法这些法案 , 实际上是一种变相的监管税 , 它通过这种高额的合规
要求 , 包括天价的一些罚单 , 实际上变相的达到了收钱和收税的这么一个目的 。 川普我记得在达沃斯论坛期间 ,他发表了一个视频讲话 ,也是非常直白的批评了欧盟的这种做法 , 说你这种强监管实际上是在变相的收税 。
从美国的角度来说 , 就是完全不同的情况 , 美国是认为中国的在美国发展的科技企业整体上构成了对美国的一种国家安全威胁 , 所以我理解是实际上从川普第一任期开始 , 就在有意识的推动这个领域的脱钩 , 比如说首先是从社交媒体领域的 APP, 我们看到它其实相关的国内的监管的法规是在不断完善的 ,在信息通信技术和服务领域 , 它有商务部的一套规
则 ,在财政部这个方向也有关于投资和资本流动的一些限制规则 。 再就是说在司法部 , 司法部作为现在美国政府可以说在国家安全领域的一个主要的负责部门之一 , 实际上这几年的动作是非常频繁 。
那么比较具有标志性影响力非常大的一个动作 , 就是说在双向的数据流动这个领域 , 实际上是它通过卡住中美双向的数据流动 , 变相的希望去实现把中国的 APP、 中国的科技公司排除出美国市场的这么一个效果 。
我理解现在实际上是从硬件开始 , 最后慢慢蔓延到软件应用程序 。 那么现在毫无疑问 AI 的应用 , 比如说像现在在美国商店上架的 DeepSeek 这些 AI 的应用 , 未来会成为一个重点的打击的目标 , 它可能会出台单独的针对 AI 的监管法规 。
我们理解其实从大模型从 AI 的角度来说 , 如果说讨论国家安全风险的时候 , 美国很多人国会议员也好 , 政府的官员也好 ,他会认为比社交媒体要带来的风险要更大一些 ,而且是更加底层的深层的涉及到中美在人工智能领域的竞争这个主线 。
好的 , 谢谢张鹏老师非常全面的解释 。 庄老师和涛哥 , 我特别想问一下, 听了刚刚张鹏老师说到的这一段 , 我不知道你们两位的感想如何 ?
有没有一种焦虑 ?
还行 , 还行 。 对于做应用方向的来说 , 比如说我们也不是去模型 , 然后本来 Monica 我们整个的面向也是面向全球市场 , 绝大部分的模型调用都还是 OpenAI 和 Cloud 这边的 , 所以我觉得整体对我们影响没有那么大 。
当然如果你说最终对立程度到了那种程度之后, 那再另说 ,但创业这个事情永远都是你要去解决那种不确定性 , 然后有什么问题解决什么问题 , 你现在焦虑也没用 , 还得看最后到底动作是什么 。
庄老师怎么看 ?
这个命题 , 对吧 , 连接我们之前讨论的很多次的命题 , 就放弃幻想 , 对吧 , 兵来将挡 , 水来土掩 , 创业不就是这样吗 , 对吧 , 就是我们能改变的是我们可以改变 ,但我们改变不了那就是环境 , 对吧 , 环境那就是适者生存 , 对吧 。
我觉得这里面有一个最大的问题以及最大的不确定性 ,其实是我最担心的是什么呢 ? 就是有点像 TikTok 这个事情上, 就是如果说你像欧盟那样的 , 你只是说出台一些法规要求 , 那没有问题 , 我可以去做出努力来满足你的要求 , 包括我们可以看到 OpenAI 在欧盟其实也是这样的做法 ,因为他们前段时间也被意大利罚了 1500 万美元 , 然后他后续就采取了一些措施去做
这样的一些符合欧盟监管规定的一些动作 。 但是我最害怕的是像 TikTok 这样的情况 , 就是它其实就是想搞你 , 你做再多的合规动作可能都是没有用的 ,因为我们其实也知道 TikTok 的在这几年跟美国政府的长期的交战当中, 已经做了非常非常多的合规化的措施了 ,他们的合规监管的程度 , 我所知道的就是他们在这方面的不管是人力上的成本 、 精力上的以及经济
上的成本都是巨大的 ,但是他们现在仍然去面临着这样的问题 。 所以我最担心的反而是这个 , 就是它是不是在某种程度上说明了即使你既做了努力 ,但是我最后还是面临的是一个不好的结果 , 这可能是我最担心的问题 。
行业洗牌1:33:06
略微有点悲观了 , 我们可能就先放在这里 , 我们且走且看 , 然后我们进入到节目的最后一盘 , 就是我其实特别想跟你们讨论一下, 就是在狂欢之后, 我们特别想来看一下 DeepSeek R1 的出现给我们的行业带来的一些深远的影响 。
第一个部分我其实特别想讨论的是这次的 DeepSeek R1 的出现对于国内 , 尤其是国内的这些大模型公司的一些影响 , 可能大家有可能都在说的这些大模型公司的护城河到底在哪里 ,因为就像我们我前面也有提到 , 豆包其实可能是做了一年多的投放 , 才投出来了 2000 万的日活 ,而另外的一个当红炸子鸡 Kimi 其实从来都没有到达过 1000 万的日活 ,但是 DeepSeek R1 可以说是在十几天
的时间内就已经超过了这个程度的日活了 。 所以很多人就认为其实大模型公司的护城河到底在哪里 , 这个事情是很难去判断的 。
不知道庄老师在这个问题上怎么看 ?
我觉得就是它其实验证了一个字节在去年年底的结论 , 就是 Chatbot 这个产品形态本身并不是一个特别理想的形态 , 它可能是一个中间态 , 或者是一个在现阶段各方都能接受的一个 OK 的自由解 , 战略重心不应该放在这个形态的产品上, 这是字节在去年年底内部的一次类似战略探讨上得出的结论 。
我觉得这个结论本身其实跟我们今天看到这个结果是匹配的 , 就是字节也好 ,Kimi 也好 ,其他几家也好 , 或多或少砸了那么多钱砸出来的这个数据本身其实并不代表任何事情 。
今天我看 AI 产品的新版又发了 1 月份的数据 , 大家的留存时长还不是特别理想 , 依然不是特别理想 , 所以这个形态本身可能确实就不太适合用这样的方式去做衡量 。
反过来讲 ,DeepSeek 从来也没有想过是说我要做多大的 DAU 跟 MAU, 我觉得他们内部是没有这个 KPI 的 , 就是又回到我们原来去年录那期播客 , 就是我们原来那些熟悉的移动互联网的所谓的 KPI 跟叙事结构 , 可能真的不太适合 AI 这一波的叙事了 。
涛哥怎么看 ? 你作为一线的从业者 , 你可能也接触到更多的用户的信息和他们的需求 , 你怎么看这个问题 ?
其实春节期间的时候 , 美国那边的舆论已经发生了很大的变化 , 就是我不知道 Lily 有没有注意到 ,有人开始说也许到了最后我们发现最大的护城河不是模型 ,是套壳 。
我看到了 。
对 ,其实一个很重要的一个原因就是因为之前虽然开源也一直都有在往前面长进 , 我们国内也有很多 , 然后美国也有不同的这种开源模型的方向 ,但不得不说 ,不管你各种 benchmark 刷得飞起 ,但是在用户的实际体感上, 相比 Cloud, 相比 GPT4, 还是有比较明显的差距 。
你可以理解成说这是开源世界不叫超越 , 叫第一次真的赶上了闭源模型的这样子点 。 那么在这样子的情况下的话 ,其实对于应用这边来说有无限的想象力 , 就包括说像 OpenAI 前两天刚刚发布了 OpenAI 自己的 Deep Research 这样子的一个产品 , 很快大家就用 R1 加上一些开源的一些 agent framework, 就复制了一个 Deep Research 出来 。
那么这种东西你在之前是无法想象的 , 就你之前做这种功能 , 你一定要依赖 OpenAI 自己的最新的模型 ,有很多功能它如果不开放 API 出来 , 你都没法做 。
现在很多事情变成了可能性 , 我自己会认为说这个事情在中期的影响 , 就是说在今年一年的之类的影响其实会非常大 , 就是会有很多新的应用场景诞生出来 。
像前两天我们在另外一个交流的时候 , 我有提到过 , 我说就包括像我们今天这个分享开始我提到的 , 我说这次 DeepSeek 之所以能火出圈 ,有一个很大的原因是 R1 加 Search, 它其实本质上是构造了一种新的应用场景 ,R1 并不是只能加 Search, 它还可以加很多东西 。
据我了解的话 , 现在不管是在美国还是在国内 , 这种 R1 加另外一个东西 , 比如说我 R1 加 RAG,是吧 , 这个 RAG 可以是 Search, 可以是 Document, 可以是很多很多东西 , 它都能实现不同的场景 。
所以我觉得今年在这个事情上的应用还会再爆发一波 , 我是比较乐观的 。
明白 。 可不可以浅浅的对这一次 DeepSeek R1 的爆火 , 对于国内的 AI 六小龙 , 尤其是其中可能比较知名的几家的影响 , 对于他们来说整体是一个利好 , 还是一个负面的信息 , 这方面我们可能稍微做一些分析 , 庄老师来做这个分析可以吗 ?
涛哥毕竟从业人士可能不好讲 。
我觉得从大面上来讲 , 对于所谓的绿小龙而言 ,其实也分有几家其实在之前已经做过选择的就还好 , 就是直接点名 , 比如说对于零一跟百川而言就还好 ,因为他们之前已经做了选择 , 零一把 Infra 跟训练的团队跟阿里去走了 , 然后自己专心做方案的实施 , 做一家 ToB 的技术方案商 , 然后百川去做医疗方向的探索 。
这俩所谓的大模型厂商在这件事情上的 , 我觉得影响是有限的 。 对于剩下的四家当中, 我觉得智谱的影响稍微可能是最小的 , 就是说因为智谱其实在 OpenAI 之前 , 或者说跟 OpenAI 差不多时间 , 就有自己内部对于技术路线的比较明确的实施的节奏 。
接月我觉得可能接月对大家对接月的熟悉程度没有那么深 , 接月成立时间也比较短 ,在这件事情上我不太好评价 。Kimi 跟 Mini Max 是值得多聊两嘴的 ,在 DeepSeek 刚刚发完 R3 的时候 ,Kimi 也发了一个类似的推理模型 ,其实效果也很好 ,也保留了整个推理的过程 。
你在 Kimi 现在的产品里面是可以直接体验到的 , 你说纯从体验端有那么大的差距吗 ? 我觉得是没有 ,但问题在于 Kimi 现在是闭源的 , 它是一个商业化的产品 , 它没有开源 。Kimi 的考验就变成了 , 如果继续坚持技术的这条路线往下走的话 ,是否要跟进 , 比如说跟进开源 , 还是跟进什么其他的事情 , 同时商业化那条路到底怎么办 。
同样的问题也交给了 Mini Max,但 Mini Max 很巧的是它的 CEO 在这段时间不是接受了晚点一个采访吗 ? 明显感觉 Mini Max 已经内部有了一个比较明确的结论是说还是继续要往技术这条线去走 。
如果去走的话 , 同样的问题 , 就像那次采访严俊杰说了一句话是说他应该最早在 Mini Max 最起初就应该开源 ,他也是看到 DeepSeek 的这一轮的成功 。
所以对于这两家公司而言 , 过去两年的很多的战略的实施 , 本质上来讲是浪费了时间跟浪费了钱 , 浪费了人。
未来的一段时间竞争会更加加剧 , 如果认准了依然要往技术高峰去走的话 , 怎么去跟 DeepSeek 以及阿里的通义之间做竞争 , 怎么去衡量开源 、 闭源 、 商业化 , 这些事情变成了一个非常非常重要的事情 。
所以对于这两家公司的 CEO 而言 , 挑战会非常大 。
这里我想问一个特别小白的问题 , 就是我其实没有特别的理解说做开源的话 ,他们的商业化怎么办 ,他们又怎么去获得这个利益呢 ?
尤其这几天 ,因为我看到 DeepSeek 他们官方的服务其实很多时候都是在宕机 , 都是服务繁忙 ,但是像微软 、AWS 各个平台 , 还有国内的各个云服务商其实都自己上线了 , 托管在他们自己服务器上的 DeepSeek 的模型 。
我一直没有搞明白的是像 DeepSeek 他们这样的一个完全公开的开源的 , 包括他们的一些技术细节 , 还有他们的模型的参数等等这些东西完全去公开出去了之后, 怎么去盈利呢 ?
包括你刚刚提到的像比如说 Kimi、Mini Max 这些 ,其实已经是一些在大模型的竞技场上已经是存活了一段时间 ,也做了一些商业化尝试的一些这些公司 ,他们如果再去转向开源的话 ,他们又如何去做这种商业化呢 ?
我其实没有太理解这里面的问题 。
所以说这件事情又回到了所有讨论 DeepSeek 最原始的起初的一个节点 ,DeepSeek 没有外部的投资人,DeepSeek 的母公司幻方有绝对强的资金实力支持类似科研的机构继续往下走 , 它甚至在这点上比 OpenAI 还要强 。OpenAI 已经拿了融资 ,并且绑定了那么多商业的关系 , 它一定要考虑商业化的问题 ,但 DeepSeek 可以任性的在可见的我觉得至少两三年内不用太考虑商业化的问题 。
明白 。 涛哥我其实也想听听你的观点 , 我不知道你了不了解开源生态的问题 , 就是他们这种东西是怎么去赚钱的呢 ?
它到底能从比如说它如果是完全开源的话 , 它到底能从中获得什么样的利益呢 ?
这个可能就分 ,因为开源其实也分很多协议 , 比如说像在大模型这边的话 , 比如有一些开源模式这个样子 , 就是它本身开源 , 然后全数开放出来 , 你自己有机器你可以去部你去跑 , 我也不管你 ,但是如果你是商业化的使用的话 , 那么你就必须要找我来买 license。
典型的比如说像 Stable Diffusion 是吧 , 对那样子的一些模型 , 包括千问它全系列模型 , 虽然大部分是 MIT 的 ,但是也有一部分的是他们千问专有的一个 license, 那个是商业的话是需要授权的 。
但是这个东西在 DeepSeek 这个上面它不太适合 ,因为 DeepSeek 它本身是一个完全的 MIT 的协议 , 所以说理论上来说 , 比如说硅基流动如果它要去部署 , 然后来卖钱的话 , 这个也没有什么 。
所以说你如果让我想说 DeepSeek 长期怎么赚钱 , 我说实话我是一时半会我是真想不明白 ,但是作为就在行业里面 , 就是实际上创业我们做事情来说 , 我一直有一个观点就是你只要一直在创造价值 , 你在做出真的有价值的工作 , 这个价值最终它一定会以某种形式进行一个变现 ,但这个变现打引号的变现 , 它可能有很多种方式 。
我讲一个最极端的一个方式 , 打比方说 DeepSeek 是国内我们第一个真的把 AGI 给实现了 , 这个 AGI 可以帮助我们国家的科研 , 可以帮助我们国家的治理各种各样的东西 。
你想就这个组织它的价值变现的方式可能不一定非是货币化的形式 , 它可能有很多种方式 。 所以我觉得这个取决于创始人他本身的初心和他的组织结构到底什么样子的 。
所以这个点我也很想 echo 一下刚刚明浩老师提到的 , 我觉得目前全世界范围之内比较神奇的 , 感觉最适合做这个事情的反倒是在我们中国的团队 。
我觉得在这一次的事情当中, 我自己一个比较明显的感受也是 , 我觉得技术才是第一生产力 , 像 DeepSeek 这样的在技术上 ,在某种程度上可以比肩行业第一的模型的能力的这样的产品出来之后, 就迅速的造成了一个全球的风靡 。
与此相比较的不管是豆包也好 , 还是 Kimi 也好 , 还是其他的一些产品也好 ,他们其实在花费了那么多的资金和投放的成本之后, 都仍然没有取得这样的成绩 。
我觉得它由此带来的一个问题 , 就是其实也是庄老师刚刚提到的 , 一个就是你怎么去适应你现在的投资人交代 , 第二就是你如何说服你的投资人你还能继续在这方面去投入 。
因为我觉得一个比较显而易见的状况就是 , 如果你没有做到非常头部的水准的话 , 看起来你的用户更换你的产品就是没有替换成本的 , 你的用户就是会在一夜之间去跑光的 。
我觉得这个可能是现在仍然在坚持做大模型的公司可能需要去面对的一个问题 。
我觉得用一句站着说话不腰疼的评论是说 , 对于大模型的投资本来就是一个高风险的投资选择 , 就是你要玩这场赌局就要承担这个风险 。
只不过今天这个时间点 , 这个牌桌上出现了一个异类 , 这个异类的打法策略 , 它的出身 , 它看中什么 , 它拥有什么 , 跟这个牌桌上的其他选手完全不同 ,并且在这个时间点来看 , 它可能是最适合做这件事情的技术项投入的人。
就这个结论在这个时间点出现 , 对于所有其他的参与这场牌桌的选手而言 , 是一个最大的挑战 。 就是你的策略要不要改 , 你要不要跟 , 还是说调整 , 还是说继续坚持你的策略 。
因为即便是我们看上去这个时间点评判它可能是最适合 ,但是最后是不是它也无人知道 。
明白 。 最后我其实特别想 echo 一下你这个 ,也想 echo 一下我们前面几期的节目 ,也是我觉得在这一件事情上特别有意思的一件事情 , 就是在去年三四月份的时候 , 当时其实有爆发过一个业内的一个冲突 , 就是当时朱啸虎说他这些大模型公司一个都看不上, 一个都不投 ,他要去投真正有商业化能力的公司 。
当时大家对朱啸虎的观点还是一种质疑 , 大多数人都对他都是质疑 。 但是在今年一月份左右这个时间内 , 包括像零一的变化 , 还有 Kimi, 还有很多包括 Mini Max 他们也提到了这些商业化的问题 ,其实还有豆包通过投放拿到了一个特别高的其他产品都没有拿到的一个日活 , 这种成绩的情况下, 就有更多的人就要开始从根本上接受了朱啸虎的观点 , 认为朱啸虎这是
某种程度上的朱啸虎的胜利 。 但是在这一次其实也就是隔了不到一个月的时间 ,DeepSeek R1 的出现之后, 我看到有人说是朱啸虎自己发的一个朋友圈 , 说这是技术理想主义者的胜利 。
我感觉这个口碑完成了三重反转 , 我觉得这件事情真的是特别有意思 。 我还想问一问 , 就是你们两位在 DeepSeek R1 的出现可能带来的其他一些应用 ,以及这个行业本身的发展方面有没有一些其他的补充 。
应用方面的话 ,其实我觉得就像我刚刚说的 , 我觉得 Reasoning Model 对于绝大部分的用户和从业者来说 ,其实都是一个新东西 。
虽然说 O1 也已经出来了两个多月了 ,但是我相信还有很多 , 哪怕是从业者也没有真的很深度的去用过 O 系列的所有的模型 。
所以说在应用角度上怎么去驾驭 Reasoning Model 跟找到更适合它的应用场景上, 我觉得大家现在并没有一些 best practice。
那么在用户的角度上来说 , 比如说怎么去 prompt Reasoning Model, 现在大家也还在探索的过程中, 这个非常像 20 年底 ChatGPT 刚出来头那三个月 , 大家各种特别有热情的去探索它 , 包括现在在 R1 上我也看到很多有意思的探索 , 包括把 R1 跟 Claude、R1 跟 GPT 结合起来使用的一些各种各样的一些 case, 包括把 R1 跟一些工具 、 跟 Cursor 这些结合起来 。
所以我自己会觉得现在去说未来还有点太早了 , 可能还需要给用户 、 给从业者们一个季度探索的过程 。
我对未来是非常感到乐观的 , 尤其是 R1 这次提出来的 R1 思路 , 它其实只是打了个样 , 就是说这个方向是可做的 。
如果我们回过头去看 , 就是每一次在这种范式上的这种创新 , 它出来之后, 那么接下去大家会接着这个范式去卷出各种各样的花样出来 。
也就是说其实整个 Reasoning Model 它的整个包括这种训练方法对于 Base Model 的能力提升 , 还远远没有到顶 。 我觉得接下来半年可能大家在这个方面卷出来的很多的一些新的能力 ,也会打破之前的一些限制 , 那么在应用上也会开阔出更多的一些可能性 。
所以我们肯定是保持着一种积极乐观 , 然后时时刻刻去看到底有什么新的能力 ,有什么新的应用场景可以解锁 , 这样子的心态来面对 。
我会觉得第一个让我小感触 , 就是我们最开头说的 , 就是它对这一波的 Infrastructure 的厂商的促进 , 是一个会影响很长时间的过程的事情 。
这个影响在今天我们还没有看到 , 或者它需要很长时间去发酵 。 第二点就是其实 OpenAI 发布了一个它认为从零开始到 AGI 的所谓的 L1 到 L5 的类似自动驾驶的步骤 , 它会认为 L1 就是我们看到的 ChatGPT 这样的 Chatbot,L2 就是推理模型 , 它认为它的 O1 以及今天我们看到的 R1 就是达到了推理 , 它定义的 L3 就是 Agent, 它会觉得今天这个时间点的业界的领先的公司在从 L2 到
L3 的过程中 。 所以反过来讲 , 这个技术路线的实施也符合 , 如果它定义好的 L5 的节奏是对的的话 , 今天 R1 的出现其实也符合这个路径 。L3 是 Agent, 为什么这么多人认为 25 年会是 Agent 年, 也是这个逻辑 , 就是说当大模型本身解决了初始的问答 , 开始有了自己的推理能力之后, 它要做的事情是真正的去解决那些任务 , 包括 OpenAI 自己也发了它的 Agent 的
东西 。 只不过今天这个时间点我们看到这些东西还处于一个比较早期的状态 。在 25 年, 我们当然希望看到更多真正意义上双引号的 Agent 会落地到企业 、 个人 、 开发者的整个生态当中 。
当然以上的这段话可能有一定的自圆其说或者自欺欺人 ,但是如果在 25 年初这个时间点一定要对 25 年德言行业有一定期待的话 , 大家的期待或者就是说既然推理模型的样已经打好了 , 我们应该就往下走吧 。
明白 。 我最后一个小的疑问 , 就是在现在的这种 , 尤其是 AI 的技术发展 ,有最明显的就是 DeepSeek R1 的这一波里面 , 我自己有一个比较明显的感受 , 就是如果说是对于一些不是真正的大模型 AI 应用的所谓的原生应用的一些创业公司 ,而是一些它可能是实体的产业 , 包括尤其是比如说我们律师行业或者是一些实体的企业这样子 , 我的一个疑问其实是在于说 , 我到
底应该什么时候去投入 , 才是一个可能比较好的时机 。 为什么有这个问题呢 ? 因为我发现说其实你看最开始 ChatGPT 模型出来的时候 , 包括 Llama 最开始开源的时候 , 它们的成本 , 然后包括模型的参数各方面其实都是非常非常高的 , 然后模型的能力其实相比于现在已经是有非常非常大的差距了 ,而这个时间其实不过也就是不到两年而已 , 就这个技
术还在一个超级快速发展的过程当中 。 我如果说作为一个实体的企业 , 我应该什么时候去做这些方面的投入 , 我觉得我可能有一个强烈的不确定性的问题在心里 , 就是有没有可能我如果现在就像当时, 说实话 , 我们法律行业里面就有很多这样子的 , 当时 ChatGPT 这一波出来的时候 , 各种各样的企业都说自己训了法律大模型怎么怎么样 ,但是我想这些
模型距离现在 DeepSeek R1 以及现在 ELIO 的开源模型的能力已经是有非常非常大的差距了 。 从现在的角度来看 , 它们那些投入可能很多都是白白花掉的钱 , 所以我不知道在这方面你们是怎么看的 。
涛哥要不先说 。
我觉得就是不要去投做 Pre-train 了 ,Pre-train 已经不需要再讨论了 ,Pre-train 就是长期来看它就是会变成一个 commodity, 就是上游的一个商品 , 然后你去买它就行了 , 你就用各种 post-trained 的后训练的这种 best practice 去做后训练就行 , 甚至在绝大部分场景里面 , 甚至连后训练你都不需要做 , 只需要解决好 RAG 的问题 , 我觉得可能就够了 。
像它们去考虑做那种私有化部署等等这些呢 ?
私有化部署 ,R1 也可以私有化部署 , 它 MIT 协议 , 反正你拿来商用了也是完全合规的 , 你也可以私有化部署 , 对不对 ?
明白 。 庄老师有什么补充吗 ?
我们今年开年会的时候 , 我们老大说了这样一个事情 , 就是我们老大是一个参加了几乎所有市面上主流的 , 比如说馄饨 、 蚂蚁 、 青藤的这些商学院的一位 CEO, 然后他的同学们很多 , 各行各业都有 , 然后大家讨论话题当然会涉及到 AI, 然后很多人的 , 尤其是偏传统一点的行业的 CEO 们会觉得还看不清楚 , 还想等一等 , 还想让子弹飞一会儿再去介
入 AI 的浪潮 。 但是我们老大会说 , 鉴于过去这两年整个 AI 行业的迅速的变化 , 如果今天这个时间点还不肉身去深度参与这件事情的话 , 就可能没有机会了 。
所以它就是这样一个状态 , 它就是需要笃定的认可跟坚定的看好这个方向 ,并且去实施去做该做的事情 , 才有可能得到不错的正反馈 。
好的好的好的 , 我这边可能暂时没有别的问题了 , 看看两位还有没有什么补充 , 你们可能看到的一些市面上比较多的一些谣言 , 然后我们可能没有聊到的 , 或者你们特别想发表的一些观点 。
就是在 DeepSeek 被各种法文量冲击得不行的时候 ,有一条谣言被很多人转发 ,是什么中国的几大安全厂商给它提供了各种各样的帮助 , 这个事情完全就是一个 。
辟谣结尾1:55:13
我也知道其实真的假的 。
巨大的谣言 , 完全完全是假的 。
特别想笑那个东西 。
不是你知道吗 , 我第一次看到的时候是从一个什么 DeepSeek 小红书上一个号 , 它看起来反正不是官方的 , 然后它看起来写了那么多什么 360、 什么华为云 、 还有腾讯什么这些企业 , 我看到我心想怎么可能 , 就觉得有点离谱 。
我又看到好像是小红书上 DeepSeek 有点像 ,不知道是不是它们的官方号 , 反正名字就只有 DeepSeek,也发了一个这么个东西 , 我就好像有一点点偏向于相信这个 。
我今天开始之前我还在想说要不要问问你们这个问题 , 结果它是完全不存在的是吗 ?
这个 totally 一点点都不存在 。 我搞过一段时间安全 , 这件事情完全就是战狼跟小粉红们引发的一场符合情绪的谣言 。
某种程度上是缓解了我们这些人又不上 DeepSeek 的一种焦虑情绪 , 你知道吗 ? 因为我也老是它服务不在线 , 就去小红书上去搜 , 然后就搜到了这个东西 , 我还感觉好像提供了一点合理的解释 。
涛哥看看有没有什么补充的吗 ?
我就要讲一个 ,也是我最近这一周在很多群里面反复解释 、 反复解释的一个谣言 ,也不叫谣言吧 , 就是个伪概念 , 就是在你的本地设备上运行 R1。
对 , 就大家如果你现在在小红书 、 抖音很多地方你都会刷到教你 , 甚至还有收费教程 , 教你怎么在你的设备上跑 R1, 怎么在你的手机上跑 R1。
如果你认真去看的时候 , 你会发现其实它们跑的都是 R1 的蒸馏版 ,R1 蒸馏的千问的 32B、7B, 甚至还有蒸馏的千文的 1.5B。
首先要告诉大家 , 它模型的完整命名叫做 DeepSeek R1 Distill, 就是蒸馏千问 Queen 是吧 ,32B、7B。 你要记得一个词组 , 它分主语和定语 , 最后面的是主语 , 它再怎么弄 , 它也是一个千问 , 它也是一个 Llama, 前面的定语是 DeepSeek R1 去 Distill 它 , 去蒸馏它 , 就是把 R1 作为 teacher model 去教那个 student model。
那么首先你手机上跑的 , 你电脑上跑的 ,不是一个真正的 R1, 它跑的是一个千问 , 跑的是一个 Llama, 这个首先就是一个很不对的一个概念 。其次就是如果你真的去看 R1 那个 paper, 你会发现之所以 DeepSeek 这次放出模型的时候 , 要顺便放出了几个蒸馏版本 , 它主要是为了证明 , 就是在它们那样子的训练方法下, 我对其他的模型这样子也是生效的 。
但是如果你仔细去看它蒸馏过程 , 它根本就没有用上 RL, 就是强化学习 , 它只是用 R1 生成的 SFT 的数据去对千问和 Llama 模型进行了一下微调 。
也就是说如果你真的要体验 R1, 那么 R1 我们前面有提到 , 它离不开两个点 , 一个是它的强大的基座模型 V3,其次是它的强化学习的训练过程 。
那么大家现在在那些各种各样的教程里面运行的 , 所谓的在你的设备上运行的 R1 Distill 的千问或者是 Llama, 那么它们 base model 既不是 V3, 它们也没有经过强化学习 , 就是它真的是一个伪的不能再伪的概念 。
所以大家千万不要在这个上面去花钱了 。 当然如果说你是一个从来没有在电脑上部署过大模型运行过的人, 借着这样子的一个契机去学习一下我觉得是 OK 的 ,但是千万不要预期这个东西跟全尺寸的满血版的 R1 能有同样的效果 , 就差十万八千里 。
这是我最近一个星期反复辟谣的一个东西 。
好的好的好的 , 我们这期节目可能暂时就聊到这里 , 再次感谢几位嘉宾 , 我们反正也会继续关注 AI 领域的相关的发展 , 期待后续还能再请到两位来跟我们分享 。
好 , 感谢感谢 。
好 , 感谢 Lily 邀请 , 感谢和庄老师交流 , 拜拜 。
拜拜 。
拜拜拜拜
。





