开场0:00
大家好 , 欢迎来到本期微博 AI 的访谈连麦节目 《AI Talk》, 我是主持人潘乱 。 今天我们要聊谷歌哈 , 就是半个月前谷歌那个 I/O 大会 , 应该冲击了这个行业 , 大部分人都深受震撼 。
就是把这个 AI 行业的天花板感觉又顶高了一截 , 对吧 ? 因为你真的就是对比前两年我们看到的是什么 , 看到的是各种的翻车 , 对吧 ?
尽管是有 AI 这个行业都是从 OpenAI 是因为谷歌收购了 DeepMind 的 , 对吧 ? 因为就是当年谷歌收购了 DeepMind, 然后一批人就是搞了 OpenAI 这家公司 , 然后在这个对比里面 , 你像谷歌的风头是远远不如 OpenAI 的 , 然后之前的发布会上可能还有翻车 , 包括今天产品的名字都改了嘛 , 对吧 ?
但是这一场的谷歌 I/O 大会算不算这个谷歌的逆风翻盘 ? 所以今天我们请到三位嘉宾来跟大家一起聊一聊 。
来 , 三位先做一个简单的自我介绍 。 明昊 。
大家好 , 我是庄明浩 , 然后屠龙之术的主播 , 然后一直观察科技跟这个 TMT 相关行业了 。
周老师 。
大家好 , 我是彭克周 , 我们是主要是做短视频 , 进行一些 AI 科技的科普 。
牛魔王 。
大家好 , 我是牛魔王 , 我现在主要是在做那个一家 AI 的那个创业公司 , 然后是这样的 。
OK, 我们这场是聊谷歌过去三年是怎么过来的 ,但我们还得先回头拉出来变相诗啊 , 对 , 就是把它因为动不动就会被跟 OpenAI 拿过来对比并且挨骂嘛 。
就是你像应该是两年前 , 对吧 , 两年半之前 , 就是它谷歌也追随着 ChatGPT 推出了它们的 Bard,但一开始首秀就出现一些常识性的错误 , 谷歌的市值也一夜蒸发了 7000 亿 。
等到 23 年的 12 月份 ,Gemini 它做 Demo 演示的时候又被扒出来了 , 哎 , 你剪辑造假 , 对 , 反正过去这两年就是黑料频出 , 就是生成内容呢 , 可能会有各种的槽点 , 种族歧视啊 , 然后劝用户吃独木锅啊 。
可能最加码的剧情就是去年的 I/O 大会 , 它原本是信心满满要变个大招 , 然后它要发布一个多模态的我能看能听能实时对话的这个 AI 助手 Project Altitude,但结果 OpenAI 前一天截胡了 , 哎 , 我发一个 GPT-4o, 后来故事大家就知道就是谷歌命案中文了 , 然后直到今天 。
这中间还有一系列的 , 你像那个微软推出 New Bing, 然后就是像 Perplexity 这一类的创业公司 , 包括浏览器 , 像 DR 这些种种嘛 , 对 , 大家都觉得会对原本的巨头造成非常大的冲击 , 然后谷歌也会被人我们之前老说这个媒体老师或者说行业去分析那个巨头不能跟上时代 , 大象不能转身 , 然后英雄迟暮各种的论调也都跟上了它嘛 , 就各种的大公司
病啊这些标签也都追上了谷歌 。 但今年这个大会真的有那么一点王者归来的意思啊 , 对 , 你看它的自研的 TPU 的单集群算力全球领先 ,Gemini 2.5 Pro 它哦哦哦用了一下, 的确是哦哦哦我们这待会再聊 , 今年这这一年的这个进展啊 , 反正就是它是全方位的进步 ,不管是模型 AI 助手以及它核心的搜索产品 , 包括浏览器本身 , 对 , 它的全家桶多 Agent
的话 , 还有把十多年前的眼镜都拉过来了 。 首先先聊第一趴 , 就是从这个业界笑柄到这个全面搒一 , 谷歌这次 I/O 大会有多少让人印象深刻的细节 , 譬如说大家可以随便聊一聊 , 从这次的 I/O 大会来看 , 就是哪一项的发布让你觉得最惊艳 。
惊艳3:44
那我先说吧 , 我觉得发布的特别多啊 , 每次谷歌大会不管是 I/O 还是它那个 Cloud, 每次都是怼一二百个更新 , 看的人都是要晕掉的感觉 。
所以说这里面给我直接的冲击的还是 Veo3, 就是它这个视频的模型 , 我觉得这个是有点超乎我的意料的 ,因为我们之前一直在期待 Sora,但是 Sora 后来我们发现不太行 , 然后其实我们中国的很多模型捻上来了啊 , 你像可灵啊 , 像微度啊 , 像即梦啊 , 特别是可灵啊 ,不管是它的整体的模型 , 包括它的成本 , 都是已经达到商业化了 。
就没有想到谷歌它还会推出一个 Veo3 的这个模型 , 然后我们去体验了一下, 确实非常强 , 包括里面有个小插曲 , 就是我前几天看到一个短视频 , 一个女士要带一个袋鼠上飞机 , 袋鼠嘴里还好好还拿了一个机票 , 我以为是搞笑视频 , 我我还发给我女朋友说 , 我说你看外国人就天天整活 , 然后我女朋友说 , 哎 , 这个做的挺真的 , 你看她的手 ,
我就一麻 , 你知道吗 ,因为我没有把它当成是 AI 视频 , 我是以为是搞笑视频 。 我这样的这个老韭菜看了两三年的这个 AI 的讯息 , 我都没有发现它是一个 AI 视频 , 然后这两天也和很多朋友去聊 , 发现就这种级别已经可以造成一定程度的混乱了 , 就你完全分不清楚 ,不管是这个老人小孩还是专业人士都很难分清楚 。
所以这个 Veo3,但是它现在就是特别贵啊 , 大概一条我们算了一下, 你要用接 API 的话是 100 块钱一条啊 ,100 人民币一条视频 , 很贵 ,但是它的这个原生性啊 , 直接给你配出来这种符合场景的声音以及人的声音 , 包括眼神 , 我们在我们看来 AI 味已经非常非常少了 , 这个是非常惊艳的 。
明昊 。
对 , 我其实本来想说 Veo3 的 , 就是视频这个板块之前有一个很核心没有解决的问题 ,在 Veo3 之后变成了一个不是问题的问题 , 就是原来生成的视频是没有声音的 ,Veo3 的视频生成的时候是带着声音的 ,而且它的声音是跟你要生成的内容是匹配的 ,也就是说这件事情把原来视频就是视频 , 语音就是语音 , 它是一个分开的状态变成了一体 。Veo3 之后所有的
AI 生成视频的工具的标准尺变成了你要生成的内容本身是要有 , 比如说今天我想生成一段对话的视频 , 或者是沟通的这个一个一段语音的文字的话 , 你今天要保证生成视频的当下, 视频的图像跟语音的内容是匹配并且连在一起同时生成的 , 那这件事情在之前的 AI 视频生成里面是不可能的 , 今天可能了 , 就是它把 AI 视频生成从原
来的无声拉到了有声 , 直接拉到一个新的天花板 , 这是一个 。 另一方面我觉得可能更重要一点 , 或者说这个这个这个博弈可能待会那个牛王可能讲的比较多 , 就是二级市场对于谷歌在这轮 AI 的探讨更多的可能会担心它的传统的搜索的商业模式会受到巨大的挑战 。
那今天这一次的 I/O 之后, 你会发现除了常规的它分享这些模型 , 这些技术进展之外 ,其实 Google 在这次 I/O 里面非常大胆的在它最核心的搜索框里面开始增加 AI node 的那个模式 , 当然现在只在美国 。
那我们可以去设想或者可以去猜想是说 , 至少在 Google 内部其实也经历了应该很多的组织内部的各种各样的沟通之后, 才可能下决心去动 Google 最核心的那个搜索框 。
我觉得这件事情对于一个这个体量的 ,并且是这么大的 , 然后这个在这个搜索领域垄断性质这么强的一家公司 , 能够做这样一个决定本身我觉得还是挺不容易的 。
所以在这点上来说 , 我觉得也是一个一个状态的比较大的变化吧 。
那最后我讲一下吧 , 就是说那个 I/O 大会的话 , 就是说这一次确实让人很惊艳 , 我觉得最基础的还是那个就它的大语言模型 Gemini 2.5 那个 Pro, 然后它这一块的话 , 就是说之前的话它就老翻车嘛 ,是吧 , 然后 OpenAI 的话其实每次都是针对它 , 就是它是故意的 , 就是说每次你在你谷歌你要发什么东西的时候 , 它就先定到那个时间点 , 然后给
你搞个哨 , 然后就把谷歌的整个这个风头都抢走了 。 它是故意的 , 就是说 OpenAI 在当初成立的时候 , 它就这个目的 , 就是说它觉得人工智能不应该被这种大公司垄断 , 所以它每次都针对谷歌 。
但是这一次的话 , 就是说它这个基础的这个 Gemini Pro 啊 ,2.5 Pro 的话 , 它这一块是非常强的 , 它在那个写作 , 还有编码 , 还有那个推理 , 这三个方面的话都非常强 。
然后这这块的话 , 就是说最新就昨天发布的吧 ,6 月 5 号发布的一个 , 它那个的话已经是飙到最高分了 , 就是说打搒的话是飙到最高分了 , 然后的话这是它一切的基础 , 我我认为这个是一个最强发布 。
然后最惊艳的就是说刚才几位老师也讲了是吧 , 就是它的 Veo3, 它这个的话就是说基本上一上来就把这个整个的这个视频的那个生成颠覆了 。
它的技术的话其实就是从那个 DeepMind, 就它收购的那一家 DeepMind 的那个公司搞过来的 , 那个技术叫 V2A 吧 , 就是说视频 Video 到 Audio, 然后它把这个视频里面的这个所有的信息提取之后, 然后再传给这个 Diffusion, 就是扩散模型 , 然后去生成音乐 。
所以它整个做了这这个效果之后的话 , 它整个的这个效果就提上来了 ,而且它在比如说生成的这个人物的真实度 , 刚才各位老师也讲了是吧 , 然后那个周老师也讲了 , 就是说它是非常真实的 。
然后这样的话 , 就是说整个的话它一下子就越位搒一了 , 然后其实在视频生成这一块 , 就是说可灵的话是可以跟它打个来回的 , 可以说是并列世界并列第二吧 ,是这样的一个水平 。
然后呢 ,但是它有了这个声音的处理之后的话 , 那么它的质量就是更先进了一些 。 我相信可灵的话后面也会慢慢朝这个方向去发展 。
其他的方面 , 比如说生成啊 , 比如说还有换衣服是吧 , 这这一块的话肯定其实不弱的 。 但是在技术上的话 , 我觉得最让人惊艳的一点的话 , 就是说是它搞了一个 Gemini Diffusion, 我们一直以为就是说比如说这种扩散模型是吧 ,Diffusion 用在图片上是非常好的 ,因为它的这种速度非常快 ,而且就是说相当于就是说你它跟人的思考方式比较像是吧 , 去噪嘛 , 就是说你
先有一个草稿 , 然后再把这个草稿进行细化是吧 , 细化了之后, 然后再把每个点列出来 , 再把细节补充完整 , 就大家写一篇文章大致也是这样的思路 , 对不对 ?
但是比如说那个原来我们采用的智慧规模型 , 就是说比如说像 ChatGPT 是吧 , 然后这种智慧规模型的话 , 然后其实它不是这样的 ,但是它这次提了一个这个 , 就是说它的使用性目前来讲不是很强 ,但是谷歌往这方面去发展 , 就是说本身就就是说它的创新能力又回来了 , 然后它做了一个这样的模型 , 它速度非常快 , 大概是就是说一秒钟的话是
2000 个都能跑到 , 就是 1000、1400 到 2000 个都会肯啊 , 就秒出嘛 ,是吧 ? 这样的话 , 就是说如果这块速度啊 , 各方面都上来之后, 对于我们将来的互联网应用是非常有用的 ,因为我们现在我们知道智慧规模型它有一个问题 , 就是说它比较慢 ,是吧 , 它速度不是那么快 。
那么我们实际上在比如说在搜索 ,在互动 ,在做这种产品的时候 , 我们其实需要一些准时速的功能 , 比如说你搜索的时候 , 你希望一点这个按钮 , 答案立马就出来了 ,而不是在那像打字一样慢慢出来 。
这样的话 , 就是说体验的话就稍微差一点 。 所以我是觉得这三点是这个谷歌在这个大会上是非常让人惊艳的 , 这个三点 。
转折11:33
大家都那个讲了最让自己最印象深刻的细节啊 , 如果我们再聊一个更综合性的感受呢 , 呃 , 就包括你看刚才几位其实都提到 ,其实是 OpenAI 是当时是为了对抗谷歌 , 包括在谷歌的各个发布节点 ,OpenAI 也对对它有这种 spine, 对你如果进而再往前推的话 , 呃 , 两三年前就是微软跟 ChatGPT 融合 ChatGPT 搞一个 New Bing 的时候 , 对吧 ,其实那个时候大家都在想着等着去看
谷歌的笑话 , 你谷歌到底跟还是不跟呢 ? 就是因为在那个时候 ,在没有 AI 之前啊 , 就是谷歌的在全世界范围内应该是至少占市场的八成 , 就是搜索 ,但如果你跟进的话 , 可能这个利润就会大幅度的下降 , 这也是 IT 市场对它一个最大的担心嘛 。
然后如果你不跟进的话 , 你像前两年像 Perplexity 这些又会对你市场份额又有影响 , 对 , 然后在这种竞争下面 , 你的现金流肯定会有影响嘛 , 对吧 ?
然后你可能就没办法就是阻止微软的云的业务的那个崛起啊 , 巴拉巴拉各种的东西 , 当时是觉得是从这种视角来看 。
不过这一次 I/O 大会 , 我自己印象更深的是它非常的自洽了 ,因为这些大公司我觉得都面临一个天问 , 就是搞这些 AI, 我到底是去做一个新产品呢 , 还是把我原有的产品就是用 AI 变得更好 ?
我感觉它是选了后面这一条路 , 就是把我的所有的产品 , 我从 Chrome, 然后从这个安卓 , 从 Gmail, 然后从我最核心的搜索全部都加上 AI。
对 , 我我不知道几位是一个就是综合性的是一个什么感受 ,而且它这个全部加上 AI, 它又跟他们那个就是整合全球信息啊 , 这个公司使命又能够连上, 好像也不违和 。
嗯 , 那我觉得这个就是它的优势呀 , 我觉得这个就是谷歌这回 I/O 大会发布完之后 ,其实我们看到的就除了刚才老师说的它的模型是吧 , 它的很不管是这个底层的模型 , 包括视频模型 , 很多东西的非常强之外 ,其实你看到了它的一个思维 , 就是我要用去用我的生态去打你的单品 , 用我的这个会员去打你的模型 。
就是现在我们看到呃 GPT 也好 ,Claude 也好 , 很多它还是一个单独的产品 , 它是一个对话的工具啊 ,但是我们看到谷歌现在是把它的所有的就像您刚才说的啊 ,Gmail 里面也可以用 AI, 虽然这个用起来很奇怪是吧 , 你可能改起来可能要比你自己写还要还要慢 ,但是这就是我觉得他们内部的一个策略 ,因为它本身这些产品加起来可能都有十几亿 、 几十亿的用户 , 它如
果去新去搞一堆产品 , 可能也面临着新的竞争 , 那不如就再基于自己原有的这个生态 , 让它形成一种你在我这里你可以无缝的链接起来啊 。
举个最小的例子 , 比如你比如你用那个 Veo3, 你用先用 Gemini 生成这个提示词 , 你再用 Veo3 去写视频 , 你再用 Flow 去给它剪辑 , 最后你可能可以一键发到 YouTube 上, 那这样的体验可能就会对很多人来说去来回切换 AI 产品体验要好啊 , 包括它整个几个产品 , 包括安卓 , 包括云服务 , 包括它的浏览器是吧 , 它它未来是可以比如说去看到你的聊天记录啊 , 啊 , 它
会给你一个整合的方案 , 我觉得这个应该就是它的一个战略和策略啊 ,不然的话可能它要新搞一批产品 , 新搞一个搜索引擎啊 , 新搞一个其他的入口 , 我觉得他们自己评估也是非常非常难的 。
另外两位有没有什么感受 ? 我感觉就是直接你像你们拿着一匹毛 , 就是想要来捅我 , 然后我直接把它拿过来我自己用了 , 就是有点这种感受 。
潘老师的话 , 刚才的那个洞见非常好啊 , 就是说像谷歌这样的这种大公司的话 , 它有一个问题 , 就是说就跟原来的那个诺基亚一样是吧 , 它为什么比如说它在早期的时候它跟不上是吧 , 这就是落了一堆笑话 , 原因是什么是吧 ,其实最核心的一个原因就是说它的搜索业务实际上它是一个印钞机 , 就是它的广告然后搜索整个都是联动 ,是
自动的是不是 , 它甚至可能有 80% 甚至 90% 的这个业务都来自于比如说它这个搜索这个广告 。 但是如果说它上了 AI, 那它不变成自己打自己了吗 ?
它打了之后, 比如说它的原来部门的人, 就是说那个管这个搜索是吧 , 这一帮人他也有一个既得利益的一个群体嘛 ,他会认为说你你搞这样 , 那你不是威胁到我的这个生存了嘛 , 对不对 ?
不管是内部还是外部 , 所以他就很难去动刀子 , 对不对 ? 他其实早就看到了 ,其实谷歌的话 , 它原来在比如说最早比如说做云识别的时候 , 比如说辛顿 , 辛顿教授是吧 ,他做云识别什么的时候 ,他其实那个时候他呃是很革新的是吧 , 就是很创新 , 做了很多新的东西 , 包括 Transformer 这个这个架构也是谷歌最先搞出来的 , 结果那个 8 个人全跑
了是吧 , 嗯 , 那个谷歌八子是吧 , 都跑了 。 为什么呢 ? 就是因为他不敢动 。 然后刚才是那个是明昊啊讲的是吧 , 就是说他现在这一次他把这个呃 Mode 的话 , 就是 AI Mode 这个模式放上去 , 就是说说明就是本身这一件事情就已经说明 , 就是说他真心的是想去自己去动刀子去改革自己 。
所以的话 , 就是第二个洞见 ,也就是说那个潘老师刚才第二个洞见也也讲得很好 , 就是说它采用的方式 , 就是说它什么呢 ?
它不是说像微软这样 , 微软是什么呢 ? 微软是代理人战争 , 就是说我自己不练模型 , 哎 , 我扶持一个 OpenAI 给你们打 , 对不对 ?
这样的话我就内部我就不用动刀子了 , 然后但是我也有它的股权 , 我可以控制它 。 然后呢 , 谷歌不是这样的 , 谷歌它是实际上就是它内部就动刀子 , 可以说就是说啊 , 确实就是像周老师刚才讲的那样 , 它的融合性非常好 , 比如说你在搜索的时候我就可以融合你这个 Veo3, 我就直接跟我的广告业务是吧 , 哎 , 你可以一键生成 , 生成了
之后直接发布 , 它就往这个方向去走了 。 它走的是就是说呃用 AI 把它所有的业务重新做一遍这个思路 , 所以它的下的决心是非常大的 。
有点那个 88VIP 的感受 , 就是有点订阅 。 我看他们这次 I/O 大会特别强调我们不是一家广告公司 。
哈哈哈 , 对对 , 它包括也推出它的眼镜嘛 , 那个眼镜虽然是个概念片 ,但是真的是你要感觉 , 如果你能拥有那个眼镜 , 确实非常的爽 。
那眼镜是它的入口 , 那它的眼镜背后的模型啊 , 数据啊 , 包括订餐啊 , 所有的东西其实都基于它的生态 , 没有它的生态 , 它的眼镜其实也无以为继 。
所以就像潘老师说的 88VIP 的感觉 ,但是它的 VIP 有点贵啊 , 稍微有点贵 ,但是它就是想给别人一个感觉 , 就是你在别人那只能问答聊天生视频 ,但是在我这可以给你解决你所有的生活和工作的问题 。
嗯 , 量大管饱 , 哎 , 那我们再回头看一下, 就其实是一开始大家都担心大象不能跳舞嘛 , 结果今天发现这个大象甚至能跳街舞的这种感受 , 就是这很吓人很吓人。
这一次对我 , 我看不管是行业的大公司还是创业公司 , 都对这一次 I/O 大会表示出非常强烈的反馈 , 那这可以认为谷歌是这一次在这个 AI 赛道上翻身了吗 ?
但把这问题问得更具体一点啊 , 对 , 你像前两年都是被 OpenAI 拿过来嘲笑 , 对吧 ? 这一次至少我就反不反超另说啊 , 至少就是心里面我们已经把它当成是一个 level 的 , 至少不会有人觉得谷歌不是这个星球上第一梯队的 AI 公司了 , 对吧 ?
就反正这次大会之后, 我不管谁是或不是啊 , 反正谷歌一定已经是了 。 这个我我就好奇啊 , 这个转折点在哪边呢 ?
就是在哪一刻 , 或者说哪一个产品 , 哪个瞬间 ?
我我我觉得还是这个组织上的问题 。 我们去年去年去新加坡参加谷歌的活动 , 我们其实看了一部这个电影 , 这个电影没有在国内放 ,是哈萨比斯的那个纪录片 , 就拍他这个从小学国际象棋 , 后来又转到这个学这个喜欢人工智能嘛 , 然后创立 DeepMind, 然后我看到他里面他自己在用那个手机在用一个对话 , 那个非常强了已经 。
我感觉啊 , 就谷歌内部其实 DeepMind 的 AI 的能力相关能力已经非常非常强了 ,但是之前谷歌是用了那个谷歌大脑那个团队啊 ,他们搞了那个 bird 嘛 , 就出了很多问题嘛 。
就其实我觉得最这个最说的这个转折点应该就是谷歌内部他们达成了某种协议 , 然后决定让这个 DeepMind 的团队成为整个谷歌的领导人。
因为谷歌原来可能公司里面有三到四个去研究 AI 的 ,有这个谷歌大脑 ,有 DeepMind 的 , 还有他的那个 AI research 什么部门 , 乱七八糟的非常非常多啊 ,其实国内公司也有类似的问题 。
我觉得这个是转折点 , 就是应该是 23 年四五月份的时候就把这些部门合并了 , 然后让 DeepMind 来领导 。
这时候我觉得呃就解决了很多问题 ,因为那个谷歌大脑团队他们其实非常擅长研究 , 就是你看 Transformer 啊 , 包括原来的 TensorFlow 啊 , 包括那个很多神经网络 ,他们有很多成果 ,但是他们对于应用来说好像是有点不太灵 ,也就是写论文可以搞应用不太行 。
所以集团内部可能就把他们整合起来之后啊 , 让 DeepMind 来领导 , 我觉得这是一个非常重要的转折点 。 然后我们就看到谷歌在 AI 方面的这个非常强了 ,因为 DeepMind 一直我应该是一直在研究多模态啊 , 研究这个扩散模型啊什么的 , 它这个好像是在这一轮是比较大家比较认可的 。
而 bird 的那个路线 , 原来它那个他们那个模型那个路线好像是其实我感觉是没有太跑出来 。
我自己有个感受啊 , 就相当于是那个淘宝当时为了拼多多起来的时候 , 专门去搞一个特价版 , 就因为不想让自己的主产品 , 然后原有的正常的商业模式受到侵蚀嘛 。
当然后来验证这个方向都是扯淡啊 , 这个就你还想用自己一个风之去干别人一个非常有声的创业力量 , 最后只能是你去承担 , 你去改变 。
反正给我的感受就是这次发布会整体给我的感受 , 就是它不再是强调那个搜索摇钱树这个概念 , 然后是真的是不再想这个怎么赚钱这个事情 ,不再担心 ,是把所有的业务都在往这一块去转 , 真的是用 AI 来重构 。
因为你想想 , 对于这些大公司来说 , 我可以研究啊 , 我我放 10 个人, 我放 1 万个人, 对吧 ? 跟我 10 万人一起 , 这完全不是同一个概念 。
反正对我来说 , 我感觉就是它把所有东西可能让所有的业务都需要来回答这个命题 。 明昊跟那个牛魔王 ,不知道你们有什么感受观察 ?
就是之前业界一直会认为 , 就是哪怕我们把拉长周期来看 , 大家一直认为 Google 是一家更擅长于技术 ,但是在产品跟应用端总会掉链子的公司 , 对吧 ?
其实这么多年一直都出现过很多次 , 那在这次 I/O 之前其实似乎也有这个趋势 。其实 Gemini 的表现在可能在 24 年开始就慢慢已经开始追上最头部的模型了 , 无论是 OpenAI 还是 Anthropic,其实纯从打分搒单各种看 ,其实每次 Google 发 Gemini 基本上也都还行 。
但是在那个时间点 , 大家会认为你还处于一个技术研发的状态 , 这个事情对你的现有业务的影响跟帮助 ,在那个时间点是没有看到特别多的体验的 。
然后又因为 ChatGPT 出现的第一天 , 大家知道这个东西一定首先会奔着搜索去 , 所以所以在 22 年底那个时间点 , 就有一个巨大的问号压在 Google 身上, 一直压着 。
因为这个问号是压的它最直接的 , 就是我们看所谓的这个七家美股的这个七姐妹 , 对吧 ? 三三万亿的三家 , 嗯 ,Nvidia、 苹果跟微软有各自的叙事 , 对吧 ?
两万亿两家就是 Google 跟亚马逊 , 对吧 ? 他们有他们的策略跟打法 , 那剩下两家 Meta 跟特斯拉是一万亿的 。
那这两家两万亿大家本来就会有各种各样担心 ,但好在是说这次 I/O 之后, 我们看到纯从技术端的进展依然非常强的同时 ,在产品端 , 无论是 Google 原来的主产品 , 还是这些新推出的 AI 相关的产品的策略上, 已经出现了一些融合也好和一些变化 , 甚至我们看到像 NotebookLM 这种所谓的双引号的创新的小产品的口碑也很好 , 对吧 ?
所以这个事情可能对于大家对 Google 原来的那个固有的那个负面的印象的扭转 , 产生了一定的叫边际加强或者边际的转正 。
所以它会出现这样一种评价 , 我甚至会感觉很像当年就是安卓最火的那几年, 每年的 Google I/O 大会也是大家讨论特别多 , 特别兴奋 , 每年看到各种各样的更新的时候特别 happy 的那个状态 。
今年的 I/O 确实也有那个氛围的感觉 。
呃 , 它确实就是说在这个它之前的话 , 就是说出了一个比如说像这种呃 NotebookLM 那个产品确实很惊艳 , 然后在呃模型上的话 ,其实它是这样的 , 就是说它最早期的时候 , 它是搞了一堆的那个 , 就是说它为了应对 OpenAI 的这个冲击 , 它就相当于把原来的一些有的一些东西是吧 , 然后就拼凑了一堆 , 就 bird 拼凑了一堆 , 然后就是相当于比如说别人的
那个 , 比如说驱逐舰都来了是吧 , 然后你就随便找了几个拼了一个小 300, 一过去立刻就被人冲垮了 ,是不是就是这样的 。
然后他后来就说 , 嗯 , 就刚才那个周老师讲的就是很好 , 就是说他打通部门墙 ,他就把所有的比如说这个 AI 这个组织理顺了 , 还有谢尔盖 · 布林啊 ,他本来他是一个半退休状态 ,但是这个时候的话 ,他亲自到公司去上班 , 去写代码 , 去号召大家就说至少要工作 60 个小时是吧 , 就是一周 60 个小时至少都要在公司 。
因为谷歌现在办公它是混合办公嘛 , 就三天在公司 , 三天就是说居家办公嘛 ,是吧 ? 它这种的话对整个这个士气的鼓舞是非常大的 。
就是组织理顺了之后的话 , 后来的话就是说我觉得转折点就是在这个 Gemini 2.0 是吧 , 就是它的那个模型 , 它出来一个那个 flash 的模型 ,有一个图像的这个功能 , 它可以做到什么呢 ?
就是说它可以做到比如说对图像进行编辑 , 比如说把这个人改成这种啊吉普里风格是吧 , 比如说让他去穿衣 , 让比如说把两个产品就是球鞋是吧 , 球鞋跟一个人合在一起是吧 , 就这样的一个产品 。
然后呢 , 它的功能的话 ,其实当时它是第一个推出来的 , 然后那个大家会马上就知道 ,因为 OpenAI 是吧 , 专打谷歌是吧 , 它马上就在它几天之后就推了一个比它更强大的一个模型 , 就是 GPT-4o 的那个 image, 就是它的图像模型 , 那个很强 , 一下子就把它风头盖过去了 。
但是那个时候的话 , 就是说这个局势已经开始慢慢扭转了 , 就是说谷歌居然做到可以在这个领域内抢发 , 就是说实际上他们在研发已经很久了 , 就是 OpenAI 的话在研发这个模型的时候 , 它已经是提前了一年在做这个图像的编辑和控制是吧 。
所以的话 , 等到那个谷歌出来之后, 它就知道那个谷歌会出 , 出来之后 ,但是谷歌的话这一次居然比它先出 , 出来之后它就一上线 , 然后谷歌就很丢脸 , 然后因为又被它盖过风头了 , 风头又被它抢走了 。
但是的话 ,也就是说这一次之后, 就是说转折就慢慢开始了 。 为什么到了后面之后, 谷歌后面开 I/O 大会的时候 ,OpenAI 明显感觉有点压不住了 , 就是那个时候它那个阶段 , 它只出了一个编码的那个 codex 那个是吧 , 那个模型 。
然后所以的话 , 后面就是说 , 就是这基本上我认为是一个比较大的一个转折点 。
OK, 还是非常感慨啊 , 就是敢在自己的核心业务上 ,因为搜索真的是就是互联网上最好的商业模式了 , 应该是搜索是整个互联网有史以来利润最肥最大的市场 。
你就像微软 Bing, 它其实当年三年前只占全球搜索市场的份额只有 3%,但你别看它只占三个点的份额 , 每年有 120 亿美金的营收呢 , 对吧 ?
所以 AI 营收当时就是跟 ChatGPT 一起 , 哪怕只要抢到谷歌一到两个点的份额 , 都是一个非常大的生意啊 。
然后大家都觉得 AI 搜索是这个大模型初期那个最好的应用场景 , 对 , 然后我们也看 Perplexity 这些产品 , 每天的单个用户那个跨越量可能都是谷歌的好几倍 , 就是真的这一点是让人很惊讶 , 谷歌能够有这么大的调整 。
不过这个调整也跟刚才彭克周提那个事件有关系 , 我我们之前说它其实一开始是用 bard 嘛 , 然后不断的翻车 , 出现品牌的丑闻才改名叫 Gemini, 然后这中间也伴随着就是谷歌大脑跟 DeepMind 的这两个团队重组 , 然后谷歌高层他也去承认 , 哎 , 我过往的 AI 战略可能出现一些问题 , 出现一些偏差需要再做调整 。
哎 , 彭克周你再延伸的讲一讲 , 对 , 就是这一次调整跟这一次 I/O 大会中间的这个关联 , 这个脉络 。其实这个这个 I/O 大会 , 我们看到其实就是他们的成果的展示嘛 , 呃 , 之前 bird 就不说了 , 就真的没有办法用 , 就很离谱 。
然后中间还有一段时间是你问 bird 你是什么模型 , 它还说它是文心一言嘛 , 就是它好像是去不知道是用了这个中文的语料 , 还是接了文心一言的接口 ,是于不知道这个蒸馏还是不知道怎么回事啊 , 就非常的离谱 。
然后就刚才咱们一直在说搜索嘛 , 我觉得其实就是因为他们搜索的业务太重了 , 然后他们搜索现在已经被这个 Perplexity 以及 GPT 相关的 AI 已经被影响了 。
你别说海外, 我觉得国内也是 , 我们现在就我都有习惯 , 就是我动不动可能我要去问问豆包 , 问问元宝 , 问问 DeepSeek, 就很多东西 , 我可能不会去打开搜索引擎问东西了 。
那这个对它我觉得对它的刺激是非常大的 , 正是因为它这个刺激非常大 , 所以它才会有决心说 , 呃 , 一定程度的去革自己的命 。
但是就是我自己革也也不能让别人革嘛 。 所以这次 I/O 我们看到 , 呃 , 这不管是整个搜索上都加了那个那个 model 是吧 , 还是对 , 呃 , 现在单咱们都不能用啊 , 我都用不到 , 它只能那个美国用户去用 。
我们看到其实不管各种线的产品 , 基本上我感觉都是 DeepMind 的团队的产品 , 当然这里面是有 bird 团队的一些呃 , 技术上的支持啊 , 比如那个他们那个神经网络的优化呀 , 一些这个 , 包括就像刚才那个牛魔王老师说的 ,他们现在的扩散模型 , 呃 , 据我了解是一个改良的扩散模型 , 对 ,在视频上, 对 , 那这里面就是技术层面是有 bird 原来大脑团队的支持
,但整个产品线在我看来这种多模态的产品线 , 基本上都是 DeepMind 团队的东西啊 。 所以就是这次 I/O 大会看到的是一个呃 , 整合完团队之后, 然后各部门他们之间不管是在技术还是在生态方面的融合 , 最后拿出来的我觉得非常完整的 , 然后都打通的 。
但是它现在产品的问题就是太多了 , 我们今天测这个谷歌的这个编程啊 , 就非常快啊 , 就给大家透露一下, 就是我们可能用呃 Agent, 当然它的逻辑不一样啊 , 我们用它的编程今天编东西 , 就 2.5 今天更新的这个 , 两分钟出游戏就很恐怖啊 , 两分钟就能出一个 UI 很好 , 然后也可以玩 , 绝对可以玩 , 我们甚至都能能玩小半个小时的这种游戏 。
我觉得就是一个成果的展示 , 团队融合之后一个成果的展示 。 OK, 哎 , 那如果我们再放到一个就刚才你提到中国的一些产品嘛 , 如果我们放到一个中美的视角来看呢 , 对 , 就譬如说其实是春节的时候 ,DeepSeek 一出来的时候真的非常惊艳 , 然后就感觉给整个中国社会以及这个创业市场 、 创投市场都注入了一个非常强力的 , 就是强心剂 , 对 , 类似于这种
。 那时候我们感觉到你因为是 GPT-3.5, 它发的很不顺嘛 , 对吧 ? 然后但怎么感觉就是过去这几个月里面 , 你像 4o, 然后你像那个 Claude 4.0, 然后就就就然后你再像这个谷歌 I/O, 就是它 Gemini 2.5 Pro, 就这些 , 怎么感觉是没有瓶颈啊 ?
就原本原本就是 DeepSeek 出来的时候 , 我们会感受这个是不是这个大模型它到了某些瓶颈了 , 然后西方的发展的不是很顺利了 , 然后这个哎 , 我们到我们来了 , 巴拉巴拉各种的东西 , 怎么我感觉就是过去这半年反 GPT 之后啊 ,GPT 可能火过一个月之后, 嗯 , 反而就是那边又不断的粉墨登场呢 , 好戏连台呢 , 这这是怎么回事 ?
哎 , 牛魔王给我梳梳理一下这个就是 。
啊 , 这个过程它大致是这样的 , 就说实际上的话 , 就说 DeepSeek 的话 , 就说对于比如说谷歌这一次呃 , 这个 I/O 大会推出这么多东西 ,其实还是有一定贡献的 ,是吧 ?
啊 , 这个不是瞎说啊 , 就为什么这样呢 ? 就说 OpenAI 其实它搞了一个很有意思的东西 , 它在这个模型 , 比如说模型 , 我们以前讲的就是预训练嘛 ,是吧 ?
预训练就相当于比如说一个人呃 , 你读了很多书 ,是吧 ? 把书都读了 ,是吧 ? 但是问题是你你要比如说你要对各种方面进行有所反应的话 , 那你得做题 , 对不对 ?
做题就叫强化学习 , 嗯 , 然后这样的话才能进入这个推理 ,是吧 ? 推理的这个领域 , 然后呢 ,OpenAI 搞了一个就说它这个推理模型 , 就是 O 系列嘛 ,是吧 ?O 系列其实是一个很大的进步 , 对于这个 OpenAI 来讲的话 ,其实他们内部的话至少是以为就说我可以用这个挡住别人, 挡住很长时间 , 就是我有一个护城河 ,是吧 ?
我可能不是永久的 ,但我挡给你一年, 是吧 ? 两年是没有问题的 , 就是你不一定能搞得出来 。 但是呢 ,在这一次的话 , 就说就出了像 DeepSeek 这样的团队 , 为什么 ?
其实中国的话其实有两个团队就把这个搞清楚了 ,而且是独立的搞清楚了 , 就说他们互相是独立的搞清楚 , 就是一个是 Kimi, 一个是 DeepSeek, 只不过 Kimi 它因为没有开源 , 所以大家对它的关注不多 ,其实他们也是搞清楚了 。
就说呃 , 至于 DeepSeek 自己怎么搞清楚的话 , 嗯 , 就是这里面没有细节啊 ,但是它把所有的就说怎么做这个细节论文全部发了 , 然后把模型也给你开源了 。
所以它对于整个不光是中国 , 还有比如说全世界 ,是吧 ? 美国 , 它整个的这个提升是巨大的 , 一下子的话就把这个呃 ,OpenAI 的这个优势 ,是吧 ?
直接给拉平了 。 然后像 Kimi 的话 , 它是怎么发现 ? 它就说它发现就是 OpenAI 在发布它的很多的那个 , 比如说呃 , 演讲这种片段呢 , 还有论文的时候的话 , 它都是比如说用那个呃 , 蒙多卡拉树 ,是吧 ?
就讲这个 ,其实 Kimi 的那个研究员就很敏锐的发现这个方向是错的 , 就是 OpenAI 它在误导你 , 就说用蒙多卡拉树这个方向 , 它未必做不成 ,但是当前来讲的话 , 就说是比较难 , 然后他们就找到比如说那种强化 , 纯强化学习这条路子 , 然后就说中国有这两个团队都是不约而同的找到了 , 就是没有被误导 , 没有掉到坑里面 , 然后一下子就把它做
出来了 。 做出来之后的话 , 就整个这种潜力就爆发出来了 。 比如说这一次谷歌为什么它这么强 ,是吧 ?
出了比如说刚刚才那个周老师讲的 ,是吧 ? 它的这个整合 ,是吧 ? 它的这个组织整合啊 , 各方面是比较成功以外 ,在技术方面很重要的一个就说是因为啊 ,DeepSeek 把它整个比如说 OpenAI 你怎么做的 , 我我肯定是跟你的路子不一定是一样的 ,但是你肯定是用强化学习怎么做的 , 它整个都公布出来了 。
这样的话 , 谷歌就说它肯定也会吸收这样的经验 ,是不是 ? 然后整个业界就说在上面就像没有瓶颈一样的向前喷发 。
然后谷歌的话 , 它有还有个优势 , 它的数据非常多 , 比如说啊 ,YouTube 是吧 ? 还有它搜索的这种数据是吧 ?
啊 , 加上这个之后的话 , 它技术上如果说没有大的这个瓶颈 , 它就往前走了一大步 。 所以我觉得这才是比如说像 DeepSeek 是吧 ?
开源 , 然后对于这个整个世界的贡献 ,而不是仅仅是对啊 , 咱们中国的这个贡献 。
我我补一个更更更简单的总整理 , 就是之前 OpenAI 定义了 I/O 1 到 I/O 5 嘛 ,I/O 1 就是 Chatbot, 然后 I/O 2 是推理嘛 , 就是今天我们所有人都用的推理模型 ,I/O 3 就是今年讨论特别多的 Agent, 然后 OpenAI 的 O 系列就是推理模型的开始 , 去年 9 月份 , 所以从去年 9 月份大概到今年年初那个时间点 , 全世界范围内的头部模型厂商的工作基本上就是在在复现 I/O 1, 就是我们
要做出我们的推理模型 。 确实如刚才牛魔王讲 , 呃 ,有一些模型厂商走了弯路 , 这个弯路就是他们被 OpenAI 带走了 , 就是他们针对别的方式来做了 。
后来证明只需要强化学习 , 只需要后训练的非常基础的机器模型 , 它就可以走到这 。 那 DeepSeek 跟呃 ,Kimi 确实在最早发现了这个领域 , 然后在 25 年 Q1 基本上头部模型厂商的推理模型全部成为标配了 。
然后到这个阶段的时候 , 你会发现出现了一个状况 ,是说我们在去年 9 月份的时候 ,Ilya 就说呃 ,Pre-trained 的天花板到了 , 对吧 ?
然后大家开始在那段阶段开始这个强化 Positive Training, 就后训练跟强化学习 , 然后这个循环在 25 年 Q2 开始出现循环 ,是说大家发现 Pre-trained 依然还有空间 , 同时强化学习也会加进去 。
所以它像一个踢云洞的那个状态 , 就是大家原来认为前面那个事情结束了 , 所以用后面的事情搞定了推理模型 , 然后搞定完推理模型 , 所有东西出来之后, 大家发现前面那个事情还可以搞 , 然后继续加强前面那个事情 。
然后更现实的例子 , 比如说在 5 月底 , 那个 DeepSeek 发了一个 R1 的更新版本 , 然后其实它在编程在文案上已经也很强了 , 然后大家会期待 , 为什么会期待呢 ?
因为 DeepSeek 的 R1 还是基于 DeepSeek 原来的基础模型 V3 来做的 ,DeepSeek 会肉眼可见的会发 V4 的基础模型 , 基础模型还是通过 Pre-trained 来训的 , 然后会在 V4 的基础上再去做 R2, 那就是踢云洞踩两脚你可以理解 , 对吧 ?
那它肯定会更起飞 。 所以这最近一段时间 , 业界特别期待 R2 马上会出来 , 会变成什么样子 ,因为如果纯从逻辑上来讲 ,在现有的这个 R1 0528 的版本基础上, 它只是基于 V3, 那我们 V4 会抬一脚 , 那 R2 再抬一脚 , 那会抬到什么程度 , 就是大家是很乐观的 。
所以但凡你抬上去了 , 你就会把这个业界的平均水平拉上 ,因为它所有东西开源 , 包括训练方式 , 甚至它会去用它的方式去训练一下 Llama, 训练一下千问 , 对吧 ?
它已经做过很多这样的事情了 , 就是它会迅速的把这个业界的这个曲线的天花板拉到更高的状态 。
产品37:32
那那就是这个模型的这个智力主线的这个技术趋势 , 确实还是会腾腾腾往上走 。 OK, 那我们下面就聊一些具体的产品 , 我们刚才这一 part 是整体性在聊这个 I/O, 然后以及中美的一些情况 , 我们再具体聊这一次里面的一些产品 。
就先从那刚才明昊提的那个 NotebookLM 开始吧 , 这你你觉得它跟这个腾讯那个 RMA 和飞书那个知识问答 , 它有啥不一样吗 ?
就是底层差不多都是知识管理这个大的 ,但是 NotebookLM 出圈是因为它第一次把那个播客的那个东西做得很好嘛 , 就是那个体验是一个非常 ,因为纯从体验来讲 , 今天这个时间点 ,其实 Code 就是那个字节的 Code 空间 , 包括一些独立产品已经都已经开始有这个功能了 , 就是把一个无论是一个主题 , 还是一篇文章 , 还是一个什么生成一段听上去非常有逻辑 ,有有对话
的感觉的一段对话 , 然后变成一个播客 , 就这个功能在这个时间点已经是一个偏标配的状态了 。 但是在 NotebookLM 它出圈那一刻 , 它在这件事上的这个功能的这个体验上的强度是非常强的 , 所以让它出圈了 。
但是你你纯从底层技术实现来讲 , 还是要感谢比如说 25 年大家很多人会说这个语音模型的进展也很快 , 无论是对话 , 然后语调 , 就是因为我们自己也在干这个事情 , 就这个东西的进展快 , 确实是构建了这件事情的技术基础 。
但是封装成一个什么样的产品 , 呃 , 做成一个什么样的功能 ,并且这个功能是利于传播的 , 利于让大家特别明确的知道这个这个 Tips 这个点的 , 然后让它爆掉的 , 这个事情其实是我觉得对 Google 来讲尤其难得 , 就是 Google 历史上它不是一个这样的公司 , 对吧 ?
它不是一个以这种东西为这个特性的公司 , 对吧 ? 那这个东西如果出现在另外一家以产品擅长的公司里面 , 大家会觉得那是正常 ,但是它出现在 Google, 它就更让这个事情得到了这个加成的状态 。
对 , 这个产品的确应该是在这个行业里面 , 我觉得应该跟 Perplexity 类似的那种要留下一笔的那种的感受 ,是不是因为它用了这多模态的上下文 , 可以这么认为吗 ?
就其他更多还是图文的上下文 , 就是像 RMA, 当然他们也有那个 PDF 的那个解读啊 ,但他们好像没有音视频的解读上下文这种 。
应该是只有 PDF 的啊 , 我觉得就像明昊老师说的 , 可能技术上不是很难 ,但是作为一个谷歌这么一这么大的一个公司 , 它能想到 , 我觉得可有可能是内部创业啊 , 就是谷歌经常有这种传统 , 就可能是两三个人搞出来这个产品 , 我觉得非常惊艳 , 就是它能够捕捉到时代现在有一个问题 , 就是很多你别管是枯燥的论文 , 还是就是日常的新闻 , 可能大
家听一个人去那说是听不进去的 , 它变成了一个比如男女对话 ,而且你是可以随时插进去问的 , 比如说哎 , 这点我听不懂啊 , 然后那那两门播客里面的人就开始说啊 , 你听不懂这个 , 那其实这个它又会重新跟你说 , 这个体验是前所未有的 , 它能够让人感觉有人陪着它再去了解这个世界上很多很困难的东西啊 , 对于一个谷歌这样的大公司
来说 , 这个产品的洞察我觉得是还是非常非常厉害的 。
你说产品洞察这个 , 我想起昨天那个应该是 ChatGPT 吧 , 然后它说要增强对于用户录音的那个监控 , 然后捕捉 , 我心想这不是豆包在在在 PC 端干了很久的那个事情吗 ?
对 , 然后一整个我以为恍惚 , 包括是昨天还是今天 , 马斯克说那个推特啊 ,X 要全面的去抄微信 , 就是总有一种互相在借鉴的这种感受啊 。
对 , 录音产品我现在正在用一款 ,在内测一款 , 就正好录咱们这个声音 , 呃 , 就是可能大家意识到要去往硬件的入口去走了吧 , 就不管是大厂都在发眼镜啊 , 包括发这种你能贴到这个手机后面 , 这个可以录音 , 帮你做这种 AI 助理的工具啊 , 可能现在是往全方位去发展了 ,不仅仅是模型啊 , 就模型可能第一就是可能只有几家大公司才能搞了 ,
然后可能大部分人已经放弃掉了 。 我觉得是经过两三年, 我我观察到身边的一些这个公司 ,他们已经放弃掉去做模型了 , 甚至是不管是大语言模型还是语音模型 , 甚至可能都放弃掉了 ,他们可能要去做一些这种 AI 的其他的相关的产品了啊 。
还有一个趋势 , 我就潘乱老师说的 , 还有就是代码 , 我觉得代码也是今年非常非常重要的一个层面 。
我前几天在杭州和阿里的同学聊 , 我说这个字节是吧 ,在推自己的 Tree, 然后我觉得阿里肯定得有自己的产品 , 原来是通义 0 嘛 , 然后我说完没两天 , 然后阿里又发了自己的那个 IDE 那个产品 , 我觉得这个也是 , 呃 , 只要是大厂是一定要去下场搞的 , 这个不搞可能我觉得要比入口还要严重 , 就是你入口可能没有了 , 自己家没有入口 , 可能问题没有说你
自己家没有一个编程的这个能力要严重得多 。
来几个大赛道 , 就是唯一被验证的其实就是代码赚钱的 , 对吧 ? 然后就是挤的最集中的 ,其实是所当年的 AIGC, 对吧 ?
就是内容创作这个方向 , 还有就是今天最热门的所有创业公司都涌涌进去的应该就是 Agent, 对吧 ? 然后就是阿里的那个商品嘛 , 对吧 ?
就是就是他们谷歌 I/O 也推出他们那个换衣服啊 , 巴拉巴拉这个东西嘛 ,是可以这么认为吗 ? 主要是这个四个大赛道 , 然后我我觉得 Agent 其实是稍微有点尴尬的 ,因为这两天不是 Claude 不是停了编程工具的 , 给它断供了吗 ?
对 ,因为传是 OpenAI 要买它 ,但是它用的是 Claude 的这个对 API, 所以所以有点尴尬 。Agent 我觉得除非你能够做到一个 , 比如说像 Manus 啊 , 像像很多 , 就是我在这个市场上已经获得了一些心智了 ,是吧 ?
我第一个设计的 Agent, 我第一个什么影视的 Agent 获得了心智 , 获得了市场 , 可能能够和大厂去进行一些战略上的合作之外, 最终 Agent 的能力我觉得还是会被会被这个模型覆盖掉 。
然后我觉得这个入口硬件可能会是一个 , 就是初创公司有可能会有点小机会 , 我觉得这个明昊老师可能会会更专业一些了 。
对 , 反正今年的主线 Agent 一定是嘛 , 就是这 Ilya 也说了 Agent 年, 但 Agent 确实很有可能是是智能主线上的事情 ,是主战场的事情 ,是绝对意义上的主战场 。
所以大模型厂商就是不可能放的这个事情 , 然后在边缘也不算边缘 ,是周边战场 ,Coding 已经明显了 , 然后多模态今年确实非常竞争非常激烈 , 你发现视频领域基本上天天在打 , 今天你第一 , 明天我第一 , 对吧 ?
然后 Veo3 又插出来 , 然后语音也是 , 多模态是一块 , 然后呃 , 硬件可能也是 , 然后 ToC 的娱乐社交板块不是特别理想 , 实话实说 , 从阶段性结果来看不是特别理想 。
然后今天这个时间点 ,其实在我觉得在另外一种探讨是说过去的两年半之时间 , 包括我们上之前前面的探讨 , 更多的还是技术的叙事 ,但是在 25 年产品的叙事可能也越来越重要 。
嗯 , 就无论是硬件产品还是软件产品 , 就应用端的事情变得越来越重要 , 甚至产品体验边界这些事情变得 , 甚至对于大模型厂商自己也越来越重要 。
那这个事情可能也是在 25 年出现的趋势 ,也是为什么 Google I/O 这一次 , 它除了把很多介绍放在技术模型本身的这个描述上之外, 更多的会描述产品端的东西 , 就是 AI 这一波的浪潮 ,在 25 年确实要走到产品叙事的一部分 。
所以这个事情可能是 25 年的一个一个变化 , 包括可能当然可能再远的什么 AI for Science 的什么人形机器人, 那可能就更远了 。
但是至少在我们所限定好的这个 AI 大模型相关的这个板块里面 , 确实今年可能就是主线就是 Agent, 然后附一点点线就是 Coding 加多模态 , 然后再可能有一些更小的 , 比如硬件啊 , 然后社交啊什么这些的 。
嗯 , 它成熟我认为是这样的 , 它是一波一波的 , 就说最开始的话 , 就说是那个呃 , 就你你要有正反馈 , 你肯定得赚钱 ,是吧 ?
对于这种大公司来说 , 最开始的话就是卖卡的 , 卖卡的啥呢 ? 就是老黄 ,是吧 ? 老黄就你无论你搞什么模型 , 你都得买他的卡 , 对不对 ?
因为他的卡的话现在说可以说也也是比较贵 ,但是呃 , 各方面确实比较领先的 。 然后的话 , 就说这个卖卡的公司赚钱之后, 然后下面的话就说主要就说是那种做的比较好的这个模型公司 ,是吧 ?
然后那你无论做什么应用 ,是吧 ? 你都得用模型 , 都得要消耗 Token, 然后它就总是可以赚钱 。 但是等到你的模型成熟到一定程度 , 就说我觉得 2025 年算是一个重要的时间点 , 就说你的模型已经成熟到一定程度 , 那么比如说在你的上下文 ,是吧 ?
嗯 , 没有太大问题的情况下, 那么像 AI 编码 ,是吧 ? 那你现在已经证明是一个肯定是可以赚到钱的赛道 , 特别对于大公司来讲 , 肯定是要搞的 。
这样的话 , 就说只要把这个东西搞定了之后的话 , 那么实际上它整个 , 比如说我们整个互联网 ,是吧 ?
还有软件的这个最底层的就是编码嘛 ,是不是 ? 这样做了之后的话 , 它是整个就说把这个行业的底层给抓住了 , 对不对 ?
然后再往前走 , 它的比如说行动啊 , 还有这方面能力再上来 , 然后就可以出现比如说像像 Agent,是吧 ?
像这样的内容 。 所以它赚钱它是一波一波的 。 所以的话 ,在早期就说 , 所以为什么我们比如说判断这种趋势很重要呢 ?
就是在 AI 刚出现的的这个早期 ,也有一些创业公司扑进来 , 然后但是他做的太过于超前了 ,他觉得这个 AI 跟他想象中相比 ,他应该能做到多少什么 ,是吧 ?
其实呢 , 根本就做不到 。 然后他就一冲进去 ,有的人是啊 , 你几百万上千万 , 可能这种亏的这种公司还好一点 ,但有的都投了上亿一进去 , 然后根本就说达不到他的要求 , 然后最后客户也不买单 , 然后就这么就死掉了 。
但是比如说现在就不一样了 , 比如说啊 , 当初 SD 1.5 出来的时候 ,是吧 ? 然后去做这种 , 比如说换衣 , 就换衣大家觉得哎 , 很简单 , 就是模特把这个换个装嘛 ,是吧 ?
电商换个装啊 , 很简单 , 你这个都 AI 出来这么久了 , 这还搞不定吗 ? 哎 , 就是搞不定 。 然后但是到了这个时间点 , 你看谷歌的这个换装 ,是吧 ?
英文我们一般叫 try on 嘛 ,是吧 ? 就是换装 , 还有还有可灵的这个换装 , 哎 , 它就慢慢就非常成熟了 。
然后这个时候切入去做 , 然后你才能获得啊 , 就说比较好的结果 , 就说实际是非常重要的 。
我下午刚跟一个做跨境的朋友聊 , 就是也是国内排名靠前的创业公司 ,他说这个用他们的就是企业的服务 , 跟自己拿个 C 端模型来去用 , 用比如说换装这个东西 , 这个成本能够节省 90%。
多模态48:06
这还是这些公司这个对这个企业 , 或者说他们在海外收收费太猛了 , 对不对 ? 哎 , 那你看这是呃 , 换装应该是属于这个商品营销这个领域 , 那个像代码 , 代码我觉得它才刚起步啊 。
那它的视频呢 , 就是刚才大家都说视频是这一次最大的一个亮点 ,Veo3 的视频生成 , 加上它的原生音频 , 加上它的那个图像能力 , 就是可以认为今天谷歌的多模态是就是最领先的吗 ?
目前看我觉得肯定是第一梯队的啊 ,不管是它的图片 , 它的生图 , 它的视频 , 包括因为刚才明昊老师说了 , 它的视频现在呃 , 我们这个可灵当然非常强 ,但是目前就是它 Veo3, 它有了这个原生的声音啊 , 这个技术又把就是这个战场拉到了另外一个维度 , 那就导致了我们去综合评判的话 , 那还是 Veo3 现在是绝对的第一梯队啊 。
所以整个多模态我觉得确实谷歌现在是绝对的第一梯队的头部了 。
啊 , 它这个就是 Veo3 的话 , 呃 , 我觉得就说它有一个 , 就说它主要是把那个 DeepMind, 它原来的那个技术叫 V2A, 就说它把视频提取出来之后, 就说你你有这个视频是不是 , 提取出来之后, 它就把它就把声音能生成出来 。
然后这个技术的话 , 就是他们其实是研究了很久的 , 只不过这一次就说它把它放到产品里面了啊 , 就刚才就像这个呃 , 明昊老师讲的那样 , 就说它 NotebookLM, 它这样的一个产品的话 , 它实际上就说那个技术其实很多那个厂家都有 ,但是它的产品力 , 就是这个在谷歌身上确实呃 ,不太多见 , 就它的产品力很强 , 它能洞察到就说人性 , 就说哦
, 原来是呃 , 两个人去对话 , 然后不断的去问 ,不断的去细节 , 这样的这种播客大家喜欢听 ,而不是说一个人在那念稿子 , 对不对 ?
然后 Veo3 也是这样的 , 就说它把它的就说这个声音 , 就说这个其实对于后期制作来说非常的就说有效果 。
为什么呢 ? 因为我们以前生成的这种 AI 生成的影片 , 都是一个无声的影片嘛 , 然后你去做配音的话 , 实际上就是你还是挺费功夫的 , 然后它一下子它把你的背景啊 , 就是你的背景音 , 比如说你是一个森林是不是 , 然后在那个下雨 , 它的那个雨声就给你已经配好了 , 这样的话就说节省了你大量的这个时间是不是 ?
然后你做了之后的话 , 然后比如说人物你再去做这种呃 , 去剪去配音是吧 ? 这样的效果就不一样了 。
因为现在有很多的 , 比如说包括广告 , 包括营销 , 包括做宣传片是吧 ? 有很多这种大活小活都有是吧 ?
比如说你可以给 , 甚至有很多是奥运会的单子 , 就说要求你做一个比如说运动的是吧 ? 各种比如说呃 ,有创意的一个短片是吧 ?
比如说呃 , 跳马是吧 ? 然后那个跑步 、 体操 、 乒乓球 , 然后你可以做一个用 AI 做一个很有想象力的片子 。
但是你这个时候配音 , 你就是一个大的问题 。 呃 ,而且就我知道 , 就说他们之前的这种工作方式是什么呢 ?
就是抽卡 , 就是往往一个比如说一两个镜头要抽几百次 , 然后再挑其中好的 , 可能 99% 的都丢掉了 , 然后再在里面挑一些好的 , 然后再去做这种剪切和配音 。
但是像 Veo3 这样的出来之后, 就说啊 , 很有可能 , 比如说你你是很小的一个一个公司 , 或者说一个很小的一个广告的导演 , 然后你就可以拍摄了之后, 你可以综合去做出非常专业的片子 , 就说你的后期的这个费用的节省是非常大的 。
而且以前不是说节省不节省的问题 , 就是你根本就搞不出来 ,因为你没有那些设备 ,而且那些设备又很贵 。
所以这样的话 , 对于比如说呃 ,Veo3 出来之后, 它现在当然很贵了 ,因为它的主要是算力很贵是不是 ?
但是算力的话 , 根据摩尔定律 , 它慢慢一定会下降的 , 就是一定会下降 。 所以对于他们这很多的这种做这个项目的这种创业公司 , 还有这些导演来讲 ,他们觉得哎呀 , 看到这个东西之后, 觉得哎 , 对他们的这个帮助实在是太大了 。
就说以前他们可能熬夜好久是吧 ? 抽卡然后才能做出这个 , 现在他们已经可以做呃 , 用这个东西的话 , 已经做到就说是出很多好的这种片子 。
所以的话 , 就说基本上现在可以看来 , 就说呃 , 如果说前不久的话 , 它跟可灵基本上是可以说是并列第一是吧 ?
那么现在的话 , 基本上它可以就说比可灵可以说领先半步是吧 ? 达到了一这样的一个水准 。
OK, 哎 , 那像 Gemini 它多模态能力跟 Agent 化的 AI model, 它是不是还有可能再会有哪些就产生一些新的上岸模式 ?
因为现在它的我的印象真的非常深刻 , 这个 CEO 特别强调我们不是一家广告公司 , 然后推出了大会员 , 然后我感觉就是 88VIP 嘛 , 然后它这种商业模式我觉得对 , 呃 , 就是我今年可能在朋友圈分享过一个观点 , 就是今年可能是大厂的一个生态 AI 生态之年, 就像您刚才说的 88VIP 这样的生态 , 那只有淘宝能做 , 那你像谷歌这样的事情只有它能做 , 那你
和那就看你是到底是你手里面是有 ToC 的资源 , 还是有 ToB 的资源 。 那就像刚才牛王老师说的 ,其实前几年大厂挣钱都是卖卡卖算力 , 那这这几年可能慢慢的我们可以卖云服务 , 那其实就是把大模型和云去绑定了 , 那是大厂能做的事情 。
那现在就说这个新的商业模式 , 未来可能是我现在是充的是 GPT 的会员 , 那我只能去体验 GPT 的里面的一些模型上的能力 , 那我未来可能和谷歌充这个会员 , 我可能的心态可能转变成我不是在充一个 AI 的会员啊 , 我可能在充一个这个 88VIP 的会员 , 我在充一个生活上的一个助理的一个会员 , 那这个它和单纯充一个 AI 软件的会员 , 那肯定就是不能同日而语了 。
那我我可能充了一个会员之后, 我在谷歌里面我能做视频 , 我能看内容是吧 ? 它的眼睛能看内容啊 , 然后我可以去搜索上的增强 , 包括它购物上的体验 , 呃 , 包括这个邮邮件啊 , 就很多可能体验 , 那这个一定是会打败掉这个原来这个单个模型的这种充值 。
那这这就是一种新的商业模式嘛 , 我们过去从来没有说我可以充一个某一家的会员 , 能够把我的整个工作生活给我管理起来 , 这个肯定是一个新的商业模式 。
那可能再小一点就是比如说 AIGC 相关的 ,其实我还我现在还没有用到 Flow,Flow,Flow 还是用不了啊 , 我能用它那个 Veo3, 我用的两三个渠道都能用到 Veo3,但是 Flow 用不了 。
刚才就像牛王老师说的 , 我们其实是很喜欢去做一些 AI 视频的 ,但是过去它这个不太可控啊 , 如果 Flow 它能够去把 Veo3 能够相对可控 , 那这个收入还是相当可观的 , 它可能就不单单是一些是 AI 视频爱好者的这个充值了 。
你像可灵 , 它现在这个盈利已经很牛了是吧 ? 快手已经把它变成呃 , 独立对一级部门了 。 那像 Flow 如果能够和 Veo3 结合起来啊 , 它整个体验就不单单是我们爱好者了 , 可能就是影视级别的这种创作者啊 , 包括营销人员 , 甚至就是这种拍电影的是吧 ?
拍剧的这些拍做后期的人也去用的话 , 那这个市场可能也是一个非常巨大的一个市场 。
我前天还专门这去去了一家做这个方向的 , 就是围绕可灵做这个生态的短剧公司去聊了一下, 就是因为有这些东西 , 之前没法拍的东西可以拍了嘛 。
你你像他去可灵推的是 《 灵蛇 》 跟 《 山海经 》, 对吧 ? 你想想之前这个东西他没法拍 , 然后我现场我们就头脑风暴 , 还中国还有哪些小说这个特别适合搞 AI,因为特别适合搞那个机甲啊 , 那些东西就不是人来拍的嘛 。
然后我们就聊明昊也可能看过 , 就是叶冷生那个 《 天行剑 》, 那个小说就是你看里面有蛇人, 然后还有鼠人, 还有那个一堆的 , 就是那种就特别没被改编过啊 , 特别适合用这个东西来开发 。
但一问那这个成本还是扛不住 , 你想想就是都拍短剧了 , 一部成本可能也就是两三百万 , 就是封顶了 , 结果又要拍个 100 分钟啊 , 当然这是需要技术进步啊 , 需要技术进步 , 对对对 , 这这是一个对呃 ,其实这个场景在拓宽 , 我们为什么觉得原来这个可灵只能做一些这个玄幻 , 就是因为它出这个机甲呀 , 出那些东西比较好 ,但是我们看到
Veo3 它现在它反而是出生活类的比较好 。 对 , 它出那个机甲科幻的不是很好 , 我用它做那种呃 , 类似 《 流浪地球 3》 啊什么的 ,其实有点变形 ,但是它出一个生活的一个一个富人在家做饭的这种 , 出的非常真 。
那这时候其实又会打开大家的这个应用场景上的思路 ,其实我们都是根据这些模型 , 它能干什么我们去想场景的 。
那随着这个视频模型它可能能力更强 , 可能会诞生更多的各种各样的场景 。
对 , 就前两天我看那个韩青 ,他那个 AI talk 发了一个 MV, 对吧 ? 音乐短视频 , 这不只是 MV 了啊 , 我真的感觉完全大概率 , 我不不仔细看的话 , 已经就完全是一个以假乱真了 。
对对对 , 那这种它这个多模态的能力跟它复活谷歌眼镜还有关系吗 ? 或者说搭上这些多模态的能力之后, 它可能会对未来的交互会有什么变化 ?
那因为你看大家都认为可能会有新的入口 , 你看从那个小扎呃 ,因为因为苹果那个隐私政策 , 让它那个股价就一一天跌了几千亿呃 , 然后它去找新入口 , 它先先是找 VR, 然后但是今天行业可能都是有一个小的共识 , 都是这个 glass, 对吧 ?
眼镜 , 对 , 然后刚好谷歌说这事我其实挺熟的 , 哈哈 , 我这个十几年前我也搞过 , 今天加上 AI 我再来一遍 。
但是加上它这个 , 现在我们来聊的是一个最强的多模态的能力 , 可能会有什么不一样吗 ?
还是很有作用的啊 , 为什么呢 ? 就说以前它的那个谷歌眼镜的话 , 它啊说白了就说是那个因为乔布斯整合了整个 , 就说重新发明手机嘛 ,是吧 ?
就拿到这个入口之后, 呃 , 谷歌其实说白了它是很羡慕的 ,因为它虽然也搞了安卓 ,但是它也希望能啊 , 包括小扎也是 , 它认为它也应该可以搞一个类似于这样 , 比如说下一代的下一代的手机平台 ,是吧 ?
啊 , 包括老罗也老来说说下一代的计算平台 ,是吧 ? 老来讲这个事情 , 然后那么对于谷歌来讲 , 它就想搞一个 , 就想来想去 , 可能眼镜是一个比较合适的 , 然后就做了这个谷歌眼镜 。
但是谷歌眼镜的话 , 就说大家认为比较失败 , 嗯 , 就是它的缺点其实非常多 ,是吧 ? 不是说很实用 ,但是呢 , 就说有了这个 AI 之后, 它还是有点不一样的 , 就是多模态之后, 呃 ,因为 AI 的话 , 它有一个呃 , 就说当前来讲啊 ,有几个方面是成熟的 , 就是我们可以把 AI 可以呃称为比如说呃 , 第一个就是感知 , 比如说你可以多模态的识别一个图片 ,是不是
啊 ? 这就是看嘛 , 看的能力啊 , 感知 , 比如说听啊 , 你语音识别要很精准 ,以前的语音识别其实它没有那么准 , 现在语音识别的话 , 就说你中间有几句话 , 即使是你有什么口音什么的 , 它都能给你识别出来 ,因为它是有 AI 的能力的 , 然后它还具备知识 , 还具备推理 , 那这样就不一样了 。
那举个例子 , 比如说呃 ,有一些精准的识别手势 , 比如说呃 , 我们现在假设我戴这个眼镜 ,是吧 ?
我现在啊 , 前方我看到了啊 , 一个这个高楼 , 对不对 ? 或者一个树啊 , 我们就说一个树吧 , 我想知道这个树是什么 ,是不是 ?
那我的话 , 比如说我在前面 , 就说我在这个手直接在前面 , 然后我点一下啊 , 就像在操作这个手机一样 ,是吧 ?
我点一下, 然后它立刻就 AI 就能识别 , 哎 , 我是想点一下前面前方这棵树 , 然后其实这个树并不存在 , 对不对 ?
就在这个电脑里面并不存在啊 ,在眼镜里面并不存在 , 它只是看到前方是真实的树 , 然后点了之后, 它马上就告诉我这个树是什么 , 或者这朵花是什么啊 。
实际上现在已经有一些应用是就说可以去做识别花啊 , 告诉你这是什么花 , 这是什么什么东西 ,也是通过 AI 去做的 ,是不是 ?
但是就说呃 , 那你毕竟你还要拿手机扫一下 ,是吧 ? 但如果你眼睛看上去之后, 就说有点像这种 AR 的这个感觉 ,是不是 ?
那你是不是就直接可以去啊 , 去点去看到它这个这个树 , 还有比如说你开会的时候 , 然后你戴一个眼镜 , 然后你看什么视频 , 看什么看到什么情景 , 然后对方在讲什么东西 ,是不是 ?
那你是不是可以把整个的声音什么的 , 最后做成一个呃 , 完整的会议纪要 ,是不是 ? 你到时候只要看一下就整理出来就行了 , 然后这样的话 , 就说有了这个感知之后的话 , 它慢慢的就说我我我是觉得它的谷歌的眼睛的话 , 它可能在这个方面就会啊 ,有很多的啊 , 甚至游戏是吧 ?
然后有很多的一些好的一个应用场景 ,因为本质就是因为 AI 对于比如说这种啊 , 你手势啊 , 你的感官的这个理解就跟人一样 , 甚至比人还准确 ,是吧 ?
比如说他看到一个人, 现在人脸识别是吧 ? 就说其实人脸识别属于上上一代这个 AI 的产品 , 它已经比人还能更厉害 。
比如说我举个例子 , 你可能见过很多人, 然后你碰到他 , 结果你不知道他是谁 , 对不对 ? 然后你你其实见过他 ,但是别人认识你 , 你不认识他 , 你就没没看出来 , 就很尴尬 , 可能别人提一句你就知道了 。
但是实际上如果你有眼镜 , 你里面啊 , 曾经看过谁啊 , 知道这个人是谁 , 你面部识别马上你就能识别出来哦 , 这个人是谁谁谁 , 那你就不至于说太尴尬 。
我们讲这个场景是吧 ? 同样的话 , 就说那么对于谷歌眼镜 , 我觉得它是一个入口的话 , 那么实际上很多 AI 的硬件啊 , 比如说手表是吧 ?
手表还有手环是不是 ? 然后还有比如说这种摄像头 , 还有智能家居 , 还有这种 AI 的玩具 , 它实际上现在就说很多你以前不能做的这种操作是吧 ?
你有了 AI 之后你都能做了 。 那我就看过一个一个做 AI 玩具的一个创意者 , 那他的这个玩具他就可以做的非常的逼真 , 比如说这个小狗 ,他就跟他去对话 , 然后他可以互动走来走去 , 整个过程就非常流畅 。
但是你以前你就做不到 , 为什么呢 ? 以前的语音识别比较差 ,而且它没有智能 , 然后这样的话 , 你就在跟它互动的时候 , 它就很呆板 。
所以谷歌眼镜的话 , 我觉得还可以抢救一下 。
我想顺着这个地方想问一个 , 就是因为它有最强的多模态模型 , 所以大概率谷歌眼镜也可能会是最好的眼镜之一 , 大概可以这么往前推吗 ?
如果可以这样往前推的话 , 那以后今天在此刻 , 这个市场第一梯队模型就是这个 Gemini 嘛 , 那以后 Pixel 是不是就是比 iPhone 更好的手机呢 ?
就是世界上最好的手机 , 可以这样往前去推吗 ?
嗯 , 我觉得就是我们讨论眼镜是有可能代替手机的 ,但电脑可能有点难 , 对 ,而且我刚才觉得这个 AI 不仅仅是拯救了谷歌的眼镜 ,是拯救了一批原来做 VR、AR、VR 眼镜的厂商 。
没错 , 没错 , 对 , 就又不提名字了 ,因为我们知道可能有很多厂商的原来就是做 VR、AR 的 , 非常的痛苦 , 然后有了 AI 之后立马全部起死回生了 。
对 , 确实就是说实用性很强 , 确实能做的很强啊 。 比如说我们现在我们有一个就是谷歌 , 它还发布了一个它的那个呃 , 会议的一个场景嘛 , 比如说我们现在有四位老师是吧 ?
然后比如说潘老师呃 , 讲中文是吧 ? 呃 , 明昊老师讲英文 , 然后那个彭克周老师讲西班牙文 , 然后比如说我讲这个呃 , 印度语 , 然后我们来讲的时候的话 , 实际上就说通过 AI 这个场景的话 , 就是完全可以实现 ,因为谷歌它已经实现了 , 然后只不过它现在这个产品还需要打磨 。
为什么呢 ? 因为它在做的这个过程中的话 , 就说它可以 , 比如说以前你只是 , 比如说你即使是啊 , 实时的这个同声传译 , 你也只是把它翻译成文本或者什么之类的是吧 ?
现在不一样 , 现在它可以就说我们在讲话的时候 , 直接比如说你听到你只能听懂中文 , 它就把其他人的语言全部翻译成中文 ,并且音色那个声纹都是一样的 。
嗯 , 然后你就听到就完全是这个人用他的这个声音 ,他的手势是吧 ? 他的语气 ,他的感情在讲你的呃 , 母语 。
所以这种场景的话 , 就说谷歌它演示之后, 你说这有没有效果呢 ? 非常有效果啊 ,因为那那不光是比如说做直播做这样的 , 它比如说呃 , 开国外的这个会议 , 可能你各方的人啊 , 大家一上来就讲自己的母语啊 ,但是你出来的别人听到了 , 全部都是自己的自己的母语是吧 ?
那就效果就很不一样了 。 就说啊 , 这个翻译这个问题 , 就说因为 Transformer 的话 , 最开始就是从翻译这个场景出来的 , 看来这个翻译这个场景要逐步在 AI 时代要啊 , 要全部都解决掉了 , 基本上彻底解决了 。
这样的话 , 这个整个效果就会好很多 。 这样的话 , 就说在整个这个过程中, 就说像这种感知类的东西的话 , 对于这种 AI 的硬件 , 可以说就像这个呃 , 刚才周老师讲的那样啊 , 那很多的说实话都起死回生 ,而且以前是觉得亏的不行的 , 觉得做不下去了 , 觉得走到这个创业的尽头了 , 现在一下子就说哎呀 , 翻身还还还盈利了是吧
? 还盈利还不少 , 还卖的很好是吧 ? 几百万几百万来卖 。 所以这一波的话 , 就说当我们不去 , 就说不去做这种 AI 的这种调研的时候的话 , 我们可能觉得啊 ,AI 好像似乎是很遥远的事 ,但实际上就说在各种场景下都发挥了很大的这个作用 。
应用1:05:17
OK, 那我们下面进入下一 part, 聊一聊这一次大会就衍生出来的一个问题 , 就是这个巨头跟创业者的问题 , 或者说模型跟应用的问题 。AI 它重塑了互联网的搜索模式 , 那今天这些 AI 创业者 ,他靠什么来拼得过搜索巨头 ?
当然今天的谷歌已经不只是一个搜索巨头了 。 你像之前啊 , 就是很多的创业者 AI 方向的一个共同的选择 , 都是去搞一个插件 , 对吧 ?
这个感觉浏览器就是一个电线杆 , 上面贴的全都是各种插件小广告 , 这是最流行的一个创业方向 。
但这是不是说明另外一个问题 ,AI 时代浏览器它还是入口 , 那如果它也把这个 AI 能力集成进来 , 对 , 那其他人不就很尴尬吗 ?
明昊 。
对 , 所以第一就是浏览器又成为兵家必争之地了 , 对吧 ?Progressive 在做浏览器 , 然后 OpenAI 传说也想搞 , 然后那个国内就不用讲了 , 已经有好几个做浏览器的公司 , 跟原来的浏览器大厂都变成 AIAI 项目了 , 对吧 ?
然后这个某种意义上, 浏览器变成了这个古典意义上的不能再古典的互联网产品 , 摇身一变变成 AI 最重要的一个一个一个一个场景了 。
这个确实如此 ,而且还有点更现实的问题在于 , 你会发现这个在在美国 Chrome 其实是最近面临一个非常麻烦的这个反垄断的问题 。
这个问题其实截止到今天依然悬而未决的 ,但是它可能在某些程度上会对谷歌产生影响 ,但这个事情也不可能突然间一锤子买卖说你今天必须拆怎么样 , 这也不可能 。
它会拉长很长的时间 ,但确实呃 , 浏览器这个战场又被拉到了一个不应该原来太险恶的位置 。 有个很现实的问题 , 就是国内夸客长那么好 , 对吧 ?
原来腾讯浏览器看上去已经已经已经躺了 , 对吧 ? 然后没两天腾讯浏览器又跳出来说我们也要搞了 , 对吧 ?
也要致敬一下, 对吧 ? 就是你你你想嘛 , 就是腾讯浏览器这个团队在腾讯内部之前大概是一个什么样优先级的状态 , 对吧 ?
那可能是哈哈哈 , 对 ,但今天肯定这个在内部的这个这个这个话语权也好 , 资源的这个服务质量肯定就变了嘛 , 对吧 ?
就至少会提升一些 。 所以所以从这个角度来讲 , 确实呃 , 浏览器这个战场变成了一个 ,而且确实之前确实是因为整个大模型厂商更多的在集中在技术的趋势里面 , 所以可能给了所谓的一些汤让大家来喝 。
而且由如果你的执行够快 , 你的效果够好 , 你的体验做的不错 , 你其实在阶段性是获得对于一个中小团队来讲是可以获得不错的收效的 。
那其实已经有很多中国这样的团队得到了这样的阶段性的结果 。 但是当我们从今天的纯技术趋势开始往产品趋势来走的时候 , 就像今年大家很讨论那个没有结论的话题 , 就是到底是模型还是应用 , 还是模型即应用 , 还是对吧 ?
那这个问题当它被频繁探讨的时候 , 就代表着大家开始越来越关注应用的时候 , 那确实这个空间可能必然的会受到挤压跟影响 。
而且很现实的问题在于 , 呃 ,有一句话是说确实模型即应用 ,但应用不仅仅只有模型这一种 , 就它还有很多别的可能性 。
那今天事件可能对于所谓的初创公司而言 , 今天我没记错是界面还是哪个媒体的头条 , 就是什么 AI 呼唤产品经理 , 大概是这样一个一个一个这样的标题 , 就是大家期待去用我们十几年前更熟悉的那套呃 , 产品跟应用的思维去构建当下的 AI 的新的创业方向的可能性 。
就这个事情确实在 25 年也是一个你说一厢情愿吧 , 或者说是期待也好 , 反正就是这个状态 。
好的产品经理不止 AI 稀缺啊 , 就是过往的产品也稀缺 , 就是譬如说电商产品已经这么卷了 , 就是这些产品真的非常难用 。
我举个例子 , 我之前吐槽过一个搜索 , 就是呃 , 你在就是各个交易型产品 ,不管是拼多多 、 美团 、 京东 、 淘宝里面 , 你搜索一个地址 , 它给你出现卖地图册 , 你都搜地址了 , 那肯定是你想改改自己的地址嘛 , 看看自己用什么地址嘛 。
哈 , 这个本人吐槽之后呢 , 就是两年前吐槽的吧 , 后来陆续改过来了 。 我上周我又搜了另外一个词 , 发票 。
你看我搜发票 , 你你应该知道我想要的是什么吧 ? 我都在一个电商产品里面 , 我搜发票代表我想开发票啊 , 结果给我出来一堆莫名其妙的商品页 ,而且那个发票的入口好难找 , 好难找各家那个产品 。
哎 , 我真的觉得这个基本功问题 , 这个差的太远了 , 这个不只是 AI 时代缺 , 就是过往大家的基本功其实也没太行 。
那以后有可能你问完之后给你来个深度思考是吧 ? 用户问了发票啊 ,他可能是想开发票 ,也可能是想买发票 ,但是经过我的历史研究 ,他应该是想开发票 , 然后给你蹦出来开发票界面 。
啊 , 就这一个 , 比如说用户体验的话 , 我是觉得就说在 AI 时代应该是会对我们的用户体验是有提升的 。
就是大家想一想 , 就说我们我们之前用的很多就说不好用的这个软件或者什么的 ,有的时候确实是这个产品经理的能力问题啊 ,是吧 ?
这个不可否认 。 但是有很多时候的话是什么原因呢 ? 就说说白了他做不到 , 就是什么他技术不是说技术做不到 , 比如说我们要做一个事情 , 结果他要在上面 , 比如说给你啊 , 假设一个界面 , 我们夸张一点 , 可能有几百个参数 , 对不对 ?
你密密麻麻 , 你完全搞不定是吧 ? 你不知道就说要干什么 ,因为他每一个地方 ,他就说用户之所以简化 , 然后我们简化成只有两个参数的话 , 本来是 100 个参数 , 然后他简化成只有两个参数 , 这样大家就好用了嘛 , 对不对 ?
是这样的一个道理吧 。 然后那问题是其他的那个另外的几百个参数 , 它不是凭空消失了 , 它是什么呢 ?
是做了这种 , 比如说它的缺省化处理 , 比如说我缺省你这个参数是这个 , 我缺省你这个参数是那个 , 最后你就变成只有两个参数啊 , 看起来似乎是好用了 。
但实际上的话 , 它就带来比如说在很多边缘场景或者什么哪些情况下的不准确问题 。 但是 AI 就不一样了 ,有了 AI 之后, 它就说 AI 它可以从你搜索的字里面 , 甚至你的所在的场景里面 , 它自动会去推理出 , 然后你真正需要的东西 ,而不是说给你 , 嗯 , 就说假设你有那个 300 个参数 , 你有 297 个是那个缺省的参数 , 然后只有三个参数可以让你
填 , 然后这样你肯定就不好用了嘛 , 对不对 ? 但是 AI 它有了这个 , 把你的其他的几个参数都关联起来是吧 ?
推理出来之后, 它已经存在它的 , 比如说它的模型里面了啊 , 它存在里面了 。 那么这样的话 , 你用起来的话 , 你会觉得哦 , 我不知道它怎么做的 , 反正就非常得心应手是吧 ?
就你一用 , 哎 , 就是你想要的东西 , 它能识别出你的意图 。 这个我是觉得对于比如说将来这这个呃 , 软件啊 , 或者各种产品的好不好用 , 我觉得是一个巨大提升 。
可能比如说你就在里面打了一段话 ,但是这段话里面很多的信息是隐藏的 , 它能都给你能推出来啊 , 这个我是觉得就说是可能对于这个交互方面是有有很大的一个革新 。
我也觉得也应该也是一个 , 比如说智能体 , 就说跟传统的这个软件啊 ,有所区别的一个地方 , 它是可以能够智能的推理出来 , 然后你的这个整个链条能推理出来你想要的东西是什么 ,而不是像原来那样 , 比如说呃 , 你要么就填几百个参数啊 ,300 个参数是吧 ?
要么你就说别人给你简化一下啊 , 变成 297 个参数是给你是缺省的 , 然后你只填三个是吧 ? 你倒是简化了 ,但是凡是出现这 297 个参数的时候 , 肯定是有人用的不合适的 ,因为它取了一个平均值 , 对不对 ?
OK, 你你刚才讲智能体 , 可能前一段时间比较流行的像 Manus 啊 , 就是各种大家是自己去做服务 , 然后搞多个标签 ,但今天谷歌也提供这种服务啊 , 你在 Chrome 里面用可就是非常顺手啊 , 非常丝滑啊 , 这些包括你像 Publicity, 它之前讲的是 AI 搜索 , 我现在我所有搜索上面都给你个 AI 概览 。
我不知道那 AI model 是什么 , 我没用过啊 , 就是但那个 AI 概览我是看到了呀 。 之前你想把最黄金的竞价排名区域 , 就是这世界上最值钱的位置 , 我让出来给每个人做个 AI 概览 , 你看这就意味着什么啊 ?
我我想起我刚才我们没有讨论一个问题啊 , 之前搜索引擎它是一个连接器啊 , 它是一个导航的 , 它是做分发的 , 对吧 ?
现在我改了 , 我直接提供结果 , 我把过程省略 , 或者我把过程也提供给你 , 然后我我现在直接是把结果给到你 , 对吧 ?
你你像前面就是把那个路径给你缩短 , 直接给你结果 , 这个事情会给这个市场带来什么样的变化呢 ?
嗯 ,其实就是前段时间 MCP 非常火嘛 , 对啊 , 那时候其实就大家会讨论有没有可能 , 就是你像模型 ,不管是搜索引擎啊还是模型 , 它可能大家直接出结果的时候 , 它这些人它可能不再会用什么选选产品呀 , 订酒店呀 , 订机票相关的应用了是吧 ?
它可能直接出结果了 , 那就是说可能会有一种面向 MCP 是吧 , 面向 agent 编程或者开发应用的一种趋势 , 这是可能 MCP 出来的大家的一个想法 。
我我想从最刚刚开始潘乱老师的问题聊 , 就是可能大家一进到 AI 时代 ,其实包括我们 ,其实我们最开始也是想搞 APP 的 ,但是发现哇 , 这水太深了 , 就是你稍微动不动就会被智能这条主线 , 明昊老师说的是吧 , 给碾压过去 , 你根本看不清楚说哪些是智能主线之外的 , 哪些是之内的 。
所以我们选了一个比较鸡贼 , 选了一个杠杆相对没有应用那么高 ,但是也不低的一个媒体去先去做 , 先在河边看着大家去去前赴后继啊 ,但是其实也一直是想去做应用 。
目前我们看到就是说对于创业者来说 , 它和互联网时代非常不一样的地方就在于 , 可能可以借助那个文学里面说的 , 这是一个最好的时代 ,也是一个最坏的时代 。
最好时代就是你现在这个开发应用门槛真的非常低 , 我们今天在办公室搞了一个小型的黑客马拉松 , 用 Gemini 用那个 UI, 你去开发很多的游戏啊 , 程序啊 , 两分钟搞出来了你自己开发的啊 , 我我开发了个小手牌 , 哇 , 真能玩 , 我玩了五六局 。
但是它的另外一个问题就是你又非常的依赖大模型 , 如果没有模型 , 你的应用可能就又变成了无以为继的一个情况啊 , 这是可能所有应用都在面临的问题 。
但是我想提两个最近两个比较火的应用 , 可能会给大家一个新的思路 , 一个是独享 , 独享这个产品可能看起来有点奇怪 ,但说不定会是以后人的一种心理状态 , 就是你在上面写一些你的朋友圈日记 , 上面没有真人, 全是 agent, 然后给你回复啊 , 给你评论 , 这个有没有可能是这个 ?
我觉得这两呃 , 一个是独享 , 一个 UI 啊 , 它们是面向未来的一种程序啊 , 它可能和我们过去想的 AI 的套用互联网的那种套路可能不太一样 , 它用了一种极限的一种思考啊 , 比如说照着 AI 这种发展 , 未来的人可能是一种什么精神状态啊 , 然后这个王能科老师开发了独享 , 你和 AI 去聊天 , 你发一个朋友圈 ,AI 给你回复 , 你觉得你又分享了 , 又有
人给你回应是吧 ? 你又不用遭受到别人对你的不认可或者反对 , 这是一个产品 。UI 呢 , 就是呃 , 它觉得未来像 YouTube 是大家分享自己的视频 , 对吧 ?
那现在 AI 这个把编程把应用这个门槛降到这么低 , 可能未来会大家会分享自己的应用 , 哎 , 这也是一个非常有意思的一个产品的方向 。
啊 , 刚才那个呃 , 周老师说的挺好的 , 就说呃 , 包括明昊老师也说了 , 就说呃 , 现在对于比如说这种呃 , 大模型公司 , 就说传统公司是吧 , 还有这种创业公司 , 传统的混养公司和创业公司的话啊 , 确实存在一个问题 , 就说啊 , 如果比如说像谷歌这种大厂 , 它去做大模型的话 , 那么对于创业公司有一个很大的一个问题 。
嗯 , 我曾经讲过一句话 , 就说你不要站在大模型就说前进的前方 , 就说如果你站在它的前方 , 一定会被它碾碎 。
为什么呢 ? 因为大模型吞噬一些 , 就像我们就说有一些以前的公司 , 它做比如说换装啊 , 就用了什么很多工作流 , 什么搞得巨复杂 , 然后加班几个月搞出来一个啊 , 上可的一个换装 , 结果新的模型一出来 , 别人就一个模型 , 一个提示词就能给你换装了 。
那你前面做的工作 , 比如说你买的设备 , 你的投入 , 你的房租 , 你的水电费全部都打了水漂 。
所以就这是一个很 , 就是一个很危险的一个一个过程 。 所以说你要怎么做的话 ,也是一个很大的问题啊 。 但是就说呃 ,在这一块的话 , 我觉得呃 ,有一个思路可以这样 , 就说呃 , 一方面是大模型 , 另一方面的话是你要做的一个应用 , 对不对 ?
你的应用就是 agent 嘛 ,是吧 , 跟大模型相结合啊 , 中间可能比如说你用这种 MCP 这样的协议在连接 ,是不是 ?
那么我是觉得怎么判断它会不会被吞掉 , 我觉得可以有一个方法 , 就说你在比如说做这种比如说应用的时候的话 , 你是不是找到了这种 , 就说你这个行业的 low 号 , 然后这种规律 。
如果你找到这个行业的 low 号和规律 , 甚至就说如 , 当然最好的方式就是你直接用代码能把它描述出来 。
如果你做了这个的话 , 那大模型它不会吞噬你 。 为什么呢 ? 即使大模型它能做到理解的话 , 它理解的这个细节和程度不一样 。
比如说呃 , 我们假设就随便说一个 , 就说那个爱因斯坦的那个能量智能公式是吧 ,1 对 MC 的平方 ,是不是 ?
你找到这个公式 , 你用代码写出来 , 大模型无论如何它的精确度都打不到你 ,因为它是一个万能里合函数 ,是吧 ?
它是逼近它 , 它很难就说做到完全的精确 。 但是如果你能找到这这样的规律的话 , 就是你行业的 low 号 , 就是关键关键诀窍 , 那么它基本上就说大模型它也搞不定这个啊 。
第二个的话就是成本问题 , 就说我在一个 CPU 上, 比如说我有了这个 , 比如说类似于这样公式的这个 , 就说我找到它的规律是吧 ?
我公式我们只是举个例子啊 , 对不对 ? 你找到这个规律 , 如果你用代码能够把它描述出来 , 或者说你结合一定的这种模型能够把它 , 或者两者结合能够描述出来 , 解决它的这个行业的这个关键诀窍的话 , 那么在成本上, 大模型是干不过你的 。
为什么呢 ? 因为你绝大部分 , 比如说甚至你百分之百的东西都是跑在 CPU 上的 ,CPU 的成本比 GPU 要低很多 ,是吧 ?
甚至就说可以说认为是完全免费的 , 就说你的服务器 , 就是云服务器在那跑 ,是吧 , 跟你一个 GPU 在那跑 , 那个成本是吧 ?
它成本打不过你的话 , 它就不会去做这个 。 即使它去做了之后, 它也没有效果 ,因为它的成本打不过你的话 , 精确度比不上, 那它就不会去做这个 , 做这个没有意义 ,是不是 ?
因为这个世界上我觉得是这样的 , 就是包括比如说诺基亚手机 , 还有像呃 , 很多的 ,其实它并没有完全消失啊 , 它在很多场景下都在存在 , 它唯一的原因就是因为它便宜 。
它便宜的话 , 那那你就拿它没有办法 , 知道吧 ? 它它可能会永远存在下去 。
我们就不不谈那个不利创业者找方向了 , 这个因为没没被验证成功 , 对 , 我们不能说哪些射程 , 哪些不在这个射程 , 给大家指导创业方向 。
我们就先拿这些已经做得很好的 , 我们来预判一下这个它以后之前 , 之前我不知道大家怎么认为 , 我们今天再来看它在不在来 , 比如说先从浏览器开始 , 比如说 DR 这些 , 它在不在 ?
肯定在这个智能的主线上啊 , 这个 。
啊 , 对 , 就是 AI 还是入口嘛 。 你想想那个 , 就是那个账户体系同步各种的东西 , 对吧 ? 那个响应速度 、 安全隐私这种东西 , 我觉得这这这压根不是创业公司能染指的活 。
对 , 就有一个角度是说 , 就是你发现就是 24 年的并购 , 基本上都是我们叫掏公式并购嘛 ,其实并不是真正意义上的并购 , 就是什么 Carelian、Inflection、Adapt、Mege 那家公司 ,其实本质上是挖团队嘛 。
但是你发现今年在 AI 领域的并购开始变得非常的多 , 尤其过去几个月时间 ,是真正意义上的并购 , 要花很多的钱 。
那从这个角度来讲 , 就是即便在频道上 ,但是由于大模型厂商自己的 , 比如说人力啊 、 资源 , 然后优先级的原因 , 它可能也会选择通过并购的方式解决问题 。
那这件事情在 25 年已经非常明显的在频繁的出现 , 对吧 ? 包括 OpenAI 要收那位 staff,其实它在收之前是先去问了 Cursor,因为它是 Cursor 的天使 , 那 Cursor 人不卖 , 人家已经 100 亿美金了 , 今天对吧 ?
就是哪怕是主航道的 ,其实对于初创公司来讲 , 可能也有一定的机会被卖掉嘛 , 就是这个其实肉眼可见的 。
而且很现实的问题在于 , 你想嘛 ,22 年底这一轮爆发到今天 ,其实已经两年多的时间了 ,在很多主航道的赛 , 所谓今天我们描述出来的主航道赛道上, 已经有一些独立公司做得不错了 。
那这些公司其实它它肯定有它的价值所在 , 那当然可能未来如果它选得不好 , 它可能在某段时间它就开始走下坡路了 , 对吧 ?
这很常见 。 但是如果这个阶段它选择一个好的方式 , 可能没准它会再再往上飞一飞 。
对 , 我看你发奇卡是什么地方 , 就是说今天这个好像 10 亿美金已经不是一个多让人刺激的一个数了 , 哈哈哈 。
完全不是 。 你想我们今天这个时间点 , 同步的 AI 情况的公司 , 对吧 ? 我们探讨了这么多方向 , 这么多所谓到底是不是主航道 , 到底怎么样 ,其实这个问题没有必要难 , 对吧 ?
每每每一个我们这些观察者 、 投资人 、 创业者都有自己的答案 。 那最后其实无非这个时间点 ,但凡成规模的 AI 相关公司 , 大家都看所谓 AI2 嘛 。
那 AI2 可能比如今天时间点超过 1 亿美金 , 就可以算是一个不错的垂类赛道的 AI2 的不错的公司 。 那一般上这种已经在某个垂类赛道走到第一名的公司 , 大部分会给它可能 30 到 50 倍的 AI2。
那这个公司可能在意识上今天这个时间点已经三五十亿美金了 , 那它融一轮 , 融 10 个点就是几亿美金进去了 , 对吧 ?
今天 Cursor 是这轮确定了 9 亿美金 , 按 99 亿美金融的 ,Cursor 现在已经 5 亿美金的 AI2 了嘛 , 传说就是你想 , 就这个 , 就这几个数量级已经跟早期 VC 没什么关系了 , 你感觉对吧 ?
他妈的一个早期 VC 一只基金才 3 亿美金好吗 ? 对吧 ? 你你难道一个基金直接投一个项目吗 ? 不可能嘛 。
所以这个这个原来我们拿独角兽来衡量 , 那独角兽已经是个结果了 。 可是今天这种头部公司 , 它一轮融几亿美金 , 然后仅仅是开始哦 。
你想 Cursor 今天才 1.0 版本 , 对吧 ?Cursor 的版本号到今天才是 1.0, 对吧 ? 之前都是零点几 , 那它还有远了 , 那还有太多事要搞了 。
那那这这个战场已经变了哇 。
对 , 已经 100 亿美金估值 , 这这真的是太夸张了 。 然后其实我想说 , 就像明昊老师说的 , 我觉得现在真的没有任何一个东西说可能不在智能的主线上 ,因为 AI 这几年已经不断颠覆我们了 。
就像刚才牛魔王老师说的这个 knowhow, 我其实对 knowhow 一直很感兴趣 。 我说那我可能不被 AI 代替 , 就是由我自己 , 比如说在自媒体或者在哪方面有一点点 knowhow。
可是如果我这个 knowhow, 我又被这个知识库产品给诱惑 , 给上传了上去啊 , 就各种知识库产品以后可能也会 , 比如说这个收费是吧 ?
我的东西可能卖给别人, 那这种知识库产品以后壮大了之后, 那上面是不是又有了非常所有人的各种各样的 knowhow?
它上面是不是有可能又去产生这种行业的模型 ? 我觉得这都有可能 。 就真的你没有办法去预料到某某一个东西是完全不在这个智能主线上啊 。
我觉得知识库产品未来和模型和 agent 的结合 , 说不定又会产生很多你意想不到的东西 。
我就问一个朋友啊 ,他因为后面可能要跟一个做 AI 编程的团队去聊嘛 , 然后他就是在那个 NotebookLM 里面 , 就是把所有的 AI 编程的创业者 ,他们参与的去吧 , 跟那个播客相关的素材全都放进去 ,56 个专访 。
哎 , 你说我当他把这个链接开放给我的时候 ,他里面还做了一堆笔记啊 , 这个事情谁验的呀 ? 我感觉我把它就是就顺着那个兔子洞往前走走走 , 点点点点点 , 大家都很业内 , 就有点这种感受 。100 个创业者把他们最真诚的风向全都给你汇到一起 , 然后你再从里面来提来问 , 这好像对吧 , 哈哈哈 。
对 ,而且而且就像这个刚才明昊老师提这个 , 只有 R1 和 Kimi 那时候很早的发了这个推理模型嘛 。
但是你看看他们根本没有说什么论文文献 , 谁告诉他们这个 knowhow 了 ,他们仅仅是根据一些他们这个 OpenAI 团队发布会的什么蛛丝马迹 , 就发现说哦 , 原来强化学习可以搞定这个推理模型 。
那你想想多恐怖 , 就是他们只是发现了一个线头 , 就能照着这个 OpenAI 去搞 O1, 去搞推理模型 。 那就像潘乱老师刚才说的 , 那我有了这么多的知识 , 那我和大模型结合 , 我觉得未来真的什么都能搞 。
就像我刚才说那几个应用 , 可能也 AI 编程也能可能很快就能给我出一个 , 就像小丑牌这样的 , 我都玩了快一年的一个游戏 , 然后我今天用这个 Gemini 两分钟就给我出了一个 , 就我就可以玩 。
就我觉得未来真的没有什么可能是 AI 不能搞的了 , 就是可能就是最终就是手工拉面是吧 ? 我们看那个电影银翼杀手 , 就是手工面条 , 这个真实的羊可能成为稀缺 ,其他的一切可能都不再稀缺了 。
这好像又聊回上回跟明昊聊的那个智能评选以后人跟人差异是什么 。
那不不不不不是这个 , 一定会回到那些地方去的 。
但你像这个知识库 , 我我们还是就把那个就是热门赛道都过一遍 , 咱们这场就算讨论结束啊 。
这个像编程 , 编程是因为它已经非常有确定性的盈利了 , 对 , 所以就是前面跑着巨头 , 然后大家还能忍 , 还 OK。
像这个视频生成呢 , 就算它那个集中度嘛 , 视频生成那绝对是大厂的事啊 。 啊 ,也是一将功成万骨枯 , 对吧 ?
对 , 那也 AI 搜索 ,但参与的创业公司还是挺多的 。 虽然你像其实海螺的就是 Memex 的视频视频模型口碑也不错嘛 , 然后今天那个 Pixverse 在国内发了国内版嘛 , 发国内版 , 就是嗯 ,其实竞争还是还是在打的 ,但确实非常激烈 。
就是可能同一时间有个六七家 、 七八家都在打 , 那当然里面可能有一半是大厂 。 然后其实提到那个 Memex, 它的声音我觉得是最强的 , 就这个我很疑惑 , 就是现在对国内外没有一个能打的 , 它是最强的 。
那可能因为声音 , 就是因为声音我们也在干 , 就是最强的是 ElevenLab 的 , 就商业化最强的是 ElevenLab 嘛 ,ElevenLab 的 AR 大概也有一美金了嘛 , 然后打搒最强的现在是 Memex 嘛 。
就是我们干的过程中出现了一个问题 , 当然就因为可能比如我们不是一个专的锤的特别技术擅长的公司 , 所以更多我们想的是比如产品化呀 、 应用啊 、 商业化落地这些事情 。
过程中你会发现一个问题 , 说你时常会担心这个事情 ,其实在古典的互联网领域已经是被证明的一个结论 ,是说声音这个战场不足以独立成为一个战场 , 很有可能是这样的 。
那是不是最后就归属于某一个 ,因为视频会把声音包进去 , 很有可能 。
对 ,但你想刚才他拿那个录音设备嘛 , 人家就是纯先进 , 哎 , 什么哎呀 , 那个就是那个那个数字是 , 对 , 所以那就是每个 , 所以所以那就回到那个问题 , 说就纯技术本身可能是因为 ,但另外一件事就是落到产品化跟商业化跟收入获取的方式上, 那是另外一种选择 。
那如果其实是这么选择 , 就是我们把这个模型本身的能力 , 甚至我们也用 , 我们除了自己用自己也用 Memex,因为 Memex 最好嘛 , 那我们打包封装成服务 , 就像你刚才讲 , 我们给我们的客户卖的是结果嘛 , 我们不是卖那个叼硬的 token 嘛 ,因为那个东西没法卖了 ,因为都是一样的 ,但我们我们是给专门的细分场景的某一类型的客户提供明确的交付的结
果 , 我们按结果收钱嘛 。 那当然就是我们肯定不是一个在这个模型领域语音这个板块技术最强最强的几家公司 , 肯定不是 。
但是我们希望做成比如说探索场景比较多 , 然后能够涨得比较快一点 , 收入起得快一点的一个一个状态嘛 。其实就像美图嘛 , 就那年去美图还挺意外的 , 就是它从一个低谷然后又起来 , 你会发现它肯定视频模型 ,不管是图片还是视频 , 它肯定不是最强的 ,但它现在是挣钱的 , 就为数不多挣钱的 , 挣的还不错 。
就是它有那个像明昊老师说 , 我可以直接交付给客户 , 我懂电商 , 我有不同的产品 , 你来我这非常好用 。
你回到十几年前啊 , 就是在 App Store 里面 , 个人开发者最喜欢干的应用之一个类别 , 就是搞相机 、 搞滤镜 ,因为用户的付费习惯非常非常好 , 哈哈哈 。
啊 , 对 , 就是你模型可能不挣钱 ,但是你这个滤镜做的特别好 , 我愿意付费 。
但也有变化啊 , 你就像那个 ,其实前两年在声音这个赛道 , 可能我们聊起来都会聊黑镜啊这些 , 就是但明昊你你你你有更多关注吗 ?
就是他们还像之前那么没有那么猛 ,但还可以 , 就在他的细分这个板块里做输入人, 现在他也不仅仅是声音了 ,也做就营销类的视频嘛 。他其实在做的是我们刚才讲那个偏营销类视频生成数字人, 然后嘴型语音加一起的这样一个 ,他是打这个场景 。
那这个场景明显就是呃 ,他是奔着一个非常明确的商业化落地去做的嘛 。 那他只要能够保证客户越来越多 ,在这个新品类的品牌的效应越来越强 , 然后收入越来越多 ,他大概率还可能会有一段时间的不错的发展周期 。
但是你肯定不会期待他是一个什么声音或者什么样模型的最头部的那样的一个那样的故事了嘛 。他就他的故事是已经收敛态了嘛 , 就不是一个 Instagram 的故事 , 是一个相机 APP, 是一个美图的故事啊 。
对 , 对 , 就说从就说卖服务 , 然后呃 , 这个体验 , 然后这方面去走的话 , 我觉得确实是创业公司来做是比较有呃优势的 。
因为模型的话在这一块 ,因为它需要算力是吧 , 还有数据 , 还有就是说那个算法 , 这整个的话根本就不是说创业公司可以可以投的 。
不像比如说以前的这个互联网公司是吧 , 我管理大厂还是什么的 , 我一个阿帕奇 , 我加起一个网站是吧 , 一个互联网服务我都能做是吧 。
但是你现在这种算力太贵了 , 然后这个这样的话 , 就对于创业公司来讲 , 确实我觉得应该是就说往这种服务体验上去做 , 就像美图一样是吧 。
它的那个纹身图啊 , 这方面模型肯定不是最强的 ,但是它对于场景 , 比如说我可以给你做证件照 , 可以给你做美颜 , 可以做这方面 , 它的这个用户联系非常好 。
所以的话 , 它实际上他们这一次也是问应 AI 了 , 它实际上他们之前还还有一些加密货币什么的 , 都都卖了 , 都卖了 , 都全全全去搞那个 , 去搞 AI,因为他觉得 AI 对他的这个业务的促进是非常大的啊 。
另外比如说像声音这一块也是这样的 , 就说如果你是去练声音的模型的话 , 当然这个这个相对来讲门槛跟比如说你练大语言模型来讲是没有那么高是吧 , 就是稍微低一点 。
但是实际上就说你在大厂这个面前根本就不够看啊 , 别人就是那个什么航母是吧 , 你就小三板就很难去那个 。
但是就说你要结合一些 , 比如说你这个模型的技术 , 再加上啊 , 比如说你对这种各种声音场景的这种去认识 , 这样去研究里面的 knowhow 的话 , 那实际上那个大厂他是很难能够吃掉你的 。
就原因在于 , 就说你在做这方面东西的时候 , 就说他的这个数据他没有 , 就是大厂他没有这个数据 , 或者说对他来讲他的数据也不够 , 然后一放到这个大模型里面之后 ,他就成了一个边边角角的东西 , 就很难去识别出来 。
这样的话 , 对于比如说创业公司来讲还是很有帮助的 。
听下来就是说这个模型能力 ,其实感觉已经有点过剩了 , 这个创业者就不要想在这里面再去卷什么东西了 。
但是是考虑去做好一个工具 , 去把它做产品化 , 做一个服务的交付 , 就跟人家谷歌今天干的一样 , 人家也给你直接结果 , 给你结果 , 这个把中间过程全部都省略 ,不需要你再去找 , 就是把服务跟结果做好 ,是不是有点这种感受 ?
创业公司还是应该去聚焦在一个具体的事情上 。
对 , 对 , 就像比如说我们讲那个 , 比如说 Cloud Cloud4 是吧 , 就是 Astropiq 它那个那个公司 , 它也是做 , 它也做模型是不是 ?
但是为什么它的模型其实它的评分不是最高的 , 它评分经常有的时候都不是最高的 , 比如说 Cloud3.5、3.7 的时候 , 它不是最高的 。
但是所有那个用它编程的人都知道 , 它那个编程效果是最好的 ,但是它评分又不是最高的 。 你说这评分高的话 , 就说明哎 , 别人它的数据和它的算力是很强是吧 ?
但是它为啥呢 ? 就是因为它 , 比如说就是它的那个 CEO, 它的这个对于编程的这个品味 , 然后对于比如说这个数据的配比 , 它做的非常好 , 非常合适 。
所以的话 , 就说这的话也是可以说得到启发的一条路 , 就说别人对这块就说嗯 , 你很懂是吧 ? 你很懂 , 那你就可以做到这样 。
但是有一个问题是 , 如果说有一天 , 比如说 AGI 真的到来了 , 就是它通过比如说强化学习 , 像 AlphaGo 那样是不是 , 像 AlphaGo 那样 , 直接把你整个这个微信领域全干翻 , 那你也就没办法 , 那真的是吞噬一切了 。
所以其实这个问题延续 , 我觉得很有意思一点是 , 当模型发展到这个阶段的时候 , 对模型本身的评估都出现了问题 , 对吧 ?
就是 Benchmark 的 , 就是新的 Benchmark 一出来就嘭嘭嘭全都跟上, 然后 Benchmark 就考不出来了 , 对吧 ? 连红杉中国自己都要发一个 Benchmark, 就是你的投资机构要发一个 Benchmark 来 。
就是对于就是你想 , 我们纯从传统意义上什么 IQ, 什么各种各样考试 , 我们已经考不出来这个东西谁好谁坏了 , 它已经冒了 , 就已经超了 , 对吧 ?
那未来怎么怎么怎么去评判这些东西 ,在这个时间点都出现了问题 。
对 , 反正这一块都是这个大厂跟创业公司嘛 , 反正创业公司我估计可能更多是需要大部分人啊 ,是需要更好的去用好这个 API,但它的门槛低啊 , 所谓的人人都是开发者 , 就跟那个早些年的人人都是自媒体一样 。
对 ,其实也并没有真的人人都是自媒体 , 就是门槛低就意味着超级卷 , 对 , 就是但它它它会开放更多机会 , 这个市场会可以有更多的玩家 , 大家有会有非常多的赛道被重新定义出来 。
就是古人不是说三百六十行行行出状元吗 ? 今天肯定你像什么医疗啦 、 健康啦 , 还有非常多的具体的行业的领域 , 就跟你看互联网最初也是从媒体开始就是改变的嘛 , 后来也进入了金融啊 、 二手车啊 、 车后啊 , 然后房产啊 , 巴拉巴拉各种的市场 , 它可能也是一个由浅入深的 。
我觉得大家可能是在还是那种跟自己的行业去 , 从自己那个视角出发 , 多想想怎么跟它去做结合 。
呃 , 我我觉得中国的创业者是一个事情 , 美国那边可能今年有一些另外的趋势 ,是说既然大家走到了 Agent 这个地方 , 然后大家环顾四周 , 发现整个基建设施差的一塌糊涂 , 对吧 ?
连协议层都都存在空间 , 那就其实在那边最近一段时间 , 早期的项目 , 大部分很多初创项目是在做为了服务真的 Agent 来到之后的基建 , 比如说就是我们现在构建的整个互联网生态是给人用的 , 我们是我们没有考虑过给 AI 来用 。
那 AI 来了之后,AI 要用 ,AI 要去访问网站 , 要去调用数据库 , 要走 API、SICK 什么这些乱七八糟 , 它的身怎么弄 , 数据库安全怎么弄 , 权限怎么处理 , 这个这个支付怎么弄 , 对吧 ?
就是这些东西看上去又可以重新再来一遍 。 所以最近一段时间在美国那边 , 非常初创的早期公司 , 很多公司是在干这种事情 , 然后这引发另外一个讨论 ,是说比如说就像我们去年谈论的问题 ,是中美在过去那个整个 TMP 主线的区别 , 对吧 ?
我们就在 ToC 的移动互联网策划狂 , 对吧 ? 美国其实是在 ToB SaaS 云这边狂奔 , 然后今天这事情 , 你发现这两条线是要交在一起的 。
就是我们第二去理解跟学习美国在 ToB 过去十几年积累的 , 无论是交付结果 、 企业付费 、 订阅还是这样的东西 , 反过来讲 , 美国的那些公司也要去开始研究跟学习中国在过去十几年积累的这套 , 你说是产品运营这套东西的东西 , 然后两方可能找到一个合适的东西的状态 , 往前走 , 可能是符合新的 AI 的这个时代的所谓的发展 。
就是其实是有这样一个交错 , 然后融合再往前探索的状态 。
朋克周做一下总结 , 咱们今天就差不多 。
展望1:37:13
总结就是我觉得大家都不要焦虑 ,因为这个事情没有人遇到过 , 就是一次一次的颠覆你的传统 。 我们前几年说 , 就是刚才还聊到这个 Scaling Law, 我们觉得已经到头了是吧 ?
啊 , 我们不做预训练了 , 后来发现哇 , 还是有很大的空间 , 我们一次一次的打脸 。 我觉得放松心态吧 , 或者说如果有很多人会感到焦虑的话 , 可以这个可以做做像我一样做做自媒体 , 先不要下水 , 就先哈哈哈 。
我看到我身边就是原来第一批做套壳 , 后来做数字人, 就我觉得这些东西怎么可能是你们的机会 , 最终肯定都会免费 ,是不是 ?
特别在我们中国特别卷的情况下, 最终全部都会免费 。 所以我们就在还在岸边观察 ,但是我们也非常敬佩那些已经下水的 , 要去做很多应用的人。
对 ,其实就是想给大家说都不要焦虑吧 , 就是没有人会知道明天会怎么样 , 我觉得所有人都不知道 , 谷歌也不知道 , 微软也不知道 , 这个奥特曼天天蹭 AGI,但是我觉得他应该也不知道 。
对 , 包括 Anthropic 的创始人也天天蹭 AGI 啊 , 只是可能只是为了营销啊 。
牛魔王有吗 ?
是这样的 , 就说呃 , 确实 AI 的话 , 这个这一波发展呢 , 就是很快 , 就说很多时候不是像以前那样 , 比如说你创业公司 , 你做了一两个应用是吧 ?
过了两三年, 然后别人才出来做 。 它是这这个模型的话 , 就说一提升一提升的话 , 就说基本上有的时候就把你创业公司做的这个内容全部 , 就是你所有的努力都被吞噬掉了 ,是这样的 。
所以呢 , 就说呃 , 我觉得就说当前确实啊 , 像各位老师所说的 , 很多东西的话可能谁都不知道啊 , 看不清楚 ,但至少我们可以有一个原则 , 就说你做的东西的话 , 比如说这个模型是越强的话 , 你做的东西越强 ,而不是说这个模型然后就说一更新啊 , 你就没了啊 , 至少可以有这样一些简单的这个判断 , 这个原则是吧 ?
另外一个的话 , 我觉得一个比较重要的就说是啊 , 那随着比如说这个智能的这个提升 , 我觉得需求还是会爆发的 ,因为就说相当于比如说这个蒸汽机没有发明之前 , 然后其实就说呃 , 用的煤的话其实没有那么多 。
当蒸汽机就说出现了之后, 实际上它不是说用煤用的更少了 ,不是说全世界只要几台蒸汽机 ,而是它用的煤更多了 ,因为很多地方都要用用这个蒸汽机 。
对于智能来讲 , 我认为它跟这个也是呃 , 类似的 , 就说啊 , 随着智能的这个整个的这个提升的话 , 就说可能在很多以前我们不会去用这个对它进行改造或者进行 , 就说去做很多应用的这个地方 , 大家觉得不划算是吧 ?
就就说用人去编程去或者什么做什么东西 , 做那么个应用不划算 。 那么可能在这种细分市场和垂直的这种 , 就我们就叫那个很小的这种一些细碎的这种长尾市场 , 可能也将来也会被覆盖掉 。
就这个方面的话 , 我可能觉得对于创业公司也是一种机会 。 嗯 , 就这样 。
OK, 反正大家都是积极尝试 , 积极参与吧 。 但今天你想想 , 国内这些 AI 还很多都是免费的 , 你干嘛不用呢 ?
这不用真是白不用 。 然后今天在其实很多要素都没变 , 我老有一个感受 , 这个今天就是一个你不去熟练使用这些 AI 工具 , 那你必然就会被那些更熟练使用 AI 的人剥削 ,他们会在这个分配里面占到一个更好的位置 。
因为真的没有看到特别多的增量 , 更多是一个重新分配的话题 。
这个我我补补两句啊 , 很短 。 第一个就是我们回回头去看啊 , 呃 ,OpenAI 的分那个 L1 到 L5, 今天大家所有人都在讨论 L3, 可是很多人似乎没有去注意 L4 跟 L5 的定义 。L4 叫创新 ,L5 叫组织 。其实无数的经济学 、 商学的教授们都在讲过去这么多年的这些几次工业革命跟技术大革命 , 技术产生的当下并没有真正意义上带来生产效率提升 , 只有出现了类似组织的创新
跟商业模式的创新之后, 才会出现真正意义上的革命的变化 。 那似乎我们就在经历这件事情 , 所以我们这一代可能就在经历这件事情 。
呃 , 某种程度上我们是幸运的 , 对吧 ? 然后第二个就是我最近我今天接昨天接了一个任务 , 我觉得我的女儿 5 岁的幼儿园的小朋友 , 然后他们今年这这个月不是父亲节吗 ?
呃 , 邀请几位爸爸们去讲去幼儿园做演讲 。 我被分了一个任务 , 我说讲什么呢 ? 然后我说给你们讲 AI 吧 。
然后你想嘛 , 我我给幼儿园的小朋友讲 AI 能讲吗 ? 后来我就寻思用一个现在抖音上很红的方式 , 我用生成照片的方式 , 把他们想未来成为的职业的那个样子做出来 。
这是一部分 。 另一部分我想讲一个这个关键词叫 lucky, 就是刚才说我们是幸运的 , 我说他们也是幸运的 。
为什么 ? 就是之前英国有科科幻作家叫亚当斯· 总觉得这个三个定律 , 这个很多人也都听过 。他说任何在我出生时就已经已经有的技术 , 都是稀松平常的世界秩序的一部分 。
那对于我女儿而言 , 现在的 AI 可能就是 。 然后第二点就是 , 任何我在 15 岁到 35 岁之间诞生的科技 , 都将会是改变世界的革命性产物 。
那他们没准可能会再经历一次什么东西 。 然后第三点是 , 任何在我 35 岁之后诞生的科技 , 都是违反自然规律 , 要遭天谴的 。
哈哈哈 , 对 , 当然你想他写这个定律的时候应该是比较早 。 你想落到我们今天 ,其实我们这些人应该都超过 35 岁了 。
可是我们面对这次工业革命跟技术革命来临的时候 , 我们并没有认为它是违反自然规律跟遭天谴的 , 我们还非常幸运的开始拥抱它 。
所以我觉得挺好的 。 对 。
好 , 这个总结非常上价值 , 非常好啊 , 我们也聊了两个小时 。 感谢各位观看我们今天这一场
。






