开篇0:00
哈喽大家好 , 我是明昊 ,《 屠龙之术 》 的主播 。 嗯 , 今天想聊一个可能最近我一直有一些疑问的话题 , 就是关于数据的问题 。
这一轮 AI 大模型发展到今天这个时间点 , 我回看了一下我在去年 11 月份做的年度总结 , 我说 AI 大模型这一轮的公司在 25 年解决的问题更多的是三个问题 : 机理模型的问题 、 记忆的问题 、 跟 Benchmark 的问题 。
然后在这三个问题的基础上, 我其实总结了一下, 我说大部分问题可能都是数据层面的问题 。 然后在 25 年的话 , 大家如果回头来看整个 AI 大模型领域发展 , 很多人会说 25 年是 " 强化学习的一年 "。
然后进入到 26 年的初始这个状态 ,也有很多业界的观点会认为 , 大家往前推可能在期待的 、 比较共识的是 , 呃 , 强化学习之后的事情变成了 Continual learning 或者叫 Online learning, 自主学习的这个过程 。
然后关于这个事情的概念跟定义 , 似乎也有很多的分歧 , 每个人对这个概念定义都有各自各样的标准 。
当然这件事情在过去这三四年 AI 整个的这波发展当中, 无数的新名词出现的时候都是这样的 , 就是概念都是不清楚的 , 每个人都有自己的说法 。
但是我们追根溯源来看 , 或者说以我自己一个观察者角度来看 , 似乎如果能够想在 , 呃 , 无论是强化学习的进步演化 , 还是 Online learning 的真正要出现的时候 , 似乎在我们看整个 AI 大模型现在发展的三要素里面 , 呃 , 数据 、 算法 、 算力的角度来看 , 可能数据的重要性会非常的高 。
然后又因为过去几年大家一直在强调 ,其实这一轮 AI 的爆发 , 或者 AI 的发展 , 本质上来讲是工程能力代表的东西 ,而不是纯研究代表的 。
那这个工程 , 双引号的这个 " 工程 ", 落地到真正意义上, 比如这些公司到底在干什么 ,他们每天在干的活本身来看 , 似乎也跟数据的关系越来越大 。
所以这个角度来说 , 那到底这个东西在干什么 , 用什么样的方式 , 呃 , 很多公司在到底在做什么样的事情 , 这个东西到底对模型发展有什么样的意义 , 可能是今天我想探讨的问题 。
然后今天这个机器播客 , 可能跟我之前的播客不太一样 , 我之前播客一般都是自己来讲 , 自己做个 PPT, 然后跟上大学上课一样讲 100 多页的 。
然后今天这个问题实在我我是不那么了解 , 所以我今天请了几位比较有意思的嘉宾 。 然后我先介绍一下今天的几位嘉宾 。
今天的第一位嘉宾是这个蚂蚁旗下的开源的数据库的公司 OceanBase 的 CTO, 日照老师 , 跟大家打个招呼 。
哎 , 大家好 。
然后还有呢 , 我知道 OceanBase 其实已经连续 5 年组织了一个数据库的比赛 , 对吧 , 然后针对在校生的 。
然后这已经是第五年, 然后今天很荣幸请到了今年的比赛 , 应该是昨天刚刚比完 , 然后这个冠军队伍跟亚军队伍的负责人, 两位这个非常鲜的小鲜肉 , 跟大家打个招呼吧 。
嗯 , 大家好 。
怎么称呼 ?
呃 , 我是杨同学 。
来自 ?
来自华东师范大学 。
OK, 然后你们的成绩是 ?
我们的成绩是亚军 。
OK。
嗯 , 大家好 , 我是来自北京邮电大学编程高手团队的吴同涛 , 呃 , 就是吴同学 。
OK, 你们团队的名字叫什么 ?
呃 , 我们团队叫 " 抽空就干 "。
抽空就干 , 为什么起这样一个名字 ?
因为我们团队就是来自五湖四海吧 , 然后我们各有各忙的地方 。
所以是抽空把这个活干了 ?
对 ,但虽然叫 ——
我们叫抽空了干 。
我们在群里可以叫抽空了干 。
也叫抽空干 , 对吧 ?
对 。
那你们起这个名字怎么想的当时 ?
我们觉得我们的编程能力还行 。
OK, 然后这个 , 所以就是 , 那刚才我们回到这刚才我聊的话题 , 就是大家会说这种 AI 模型主要是数据 、 算法 、 算力三件事情 。
那今天这个时间点 , 我想第一个问题问这个日照老师 , 就是因为你们是做一线做在做数据库系统 ,而且做了很多年的这个真正意义上的工程实施的工作 ,而且有很多的客户做了很多的真正意义上现在这个时间点真实企业发生的案例的这个执行 , 那你是否认为今天这个时间点 , 比如说 AI 的能力的提升 , 再从比较看重模型能力到数据能力
数据新声3:46
的这个事情的提升在边际增强 , 就这个趋势是否是一个我们可以在 25 年底 、26 年初来去给这样一个时间点一个这样的说法 ?
嗯 , 就这个问题我觉得相当好啊 , 就是首先我们还是回到这个问题的本质 。 就我们今天回到这个本质啊 , 它还是先看数据 ,以及呢这个对 AI 的一个应用 。
对 。
因为我们从这个数据啊 , 从应用的角度来也好的话 ,AI 它第一个阶段啊 , 解决的一个问题是对公共数据的一个应用 。
就是预练那些 。
对对对 , 我们什么 ChatGPT 啊 , 什么 Coding,Coding 本质上它所有的数据其实大部分企业的 Coding 用的代码 GitHub 那些是差不多的 。
对 。
所以它比较容易做成这种 Toolsy 的 Application 去把它给通用化 ,也比较容易在一些这个企业它没有差别的去应用 。
泛的 。
泛泛的去应用 。 那到了这个 25 年开始 ,也是去年开始 , 包括今年开始 , 一个会非常大的一个变化还是说这个 AI 的一个应用啊 , 它会有一个完全就基于公共数据的一个应用 ,也是增强模型的能力 , 慢慢到一个在这个不同的企业里面它可以 ——
私有的 。
对对 , 那私有数据的话 , 它的一个特点就是它一定不会被训到大模型里面去 。
对 。
它是每个企业最核心的资产 。 那这个时候呢 , 最大的一个挑战在于说怎么把这些私有的数据真的给管理起来 ,以及呢跟这个大模型通过公有数据形成的大模型 , 它有一个很强的智能 。
对 。
推理的能力 , 这两个东西怎么结合在一起来 , 这个一家一家企业或者一批一批企业真的把大模型用到企业的业务流程里面 。
对 , 到今天为止我觉得这个大模型在一些 Coding,在一些聊天这样的这个依赖公共数据 , 包括有文生图啊 , 文生视频等等 , 都是依赖公共数据啊 , 这些场景其实呃落地还是相当好的 。
但是呢在企业的核心业务流程里面 , 现在目前来讲还处在一个非常早期的一个阶段 。
所以你看去年 Q3 还 Q4,MIT 不是发了报告说那个 95% 的企业其实投的投到 AI 的预算之后的实质效果都不是特别理想吗 ?
所以当时有一轮这个比较大的关于泡沫的这个探讨出现了 。 当然也会认为确实你想嘛 ,22 年底 ChatGPT 出现 ,23 年大家开始在追大模型的技术能力 , 到 24、25 年开始真正意义上做实施 、 做部署 、 做企业应用 , 确实我觉得哪怕只是纯从实施的角度来说 , 它也需要一段时间的这个过程才能让这个东西融合得好 。
那似乎 25 年也不是一个特别好去说我们就没不行的这个时间 ,因为还比较早 , 对吧 , 从时间执行角度来说确实也需要时间 。
而且现实问题在于确实呃公用公有数据 , 就大家所有人都会说今天这个时间点可能预训练的 , 或者说在线能够被公开挖掘的数据喂给大模型这件事情的预训练的这个事情 , 可能看上去已经边际效应非常的低了 。
那再下一步 , 无论是模型能力的本身的提升 , 还是真正意义上我们把模型或者 AI 的能力付诸到 ToB 的企业跟行业当中而言 , 似乎我们要边际上选择那些更有效果的板块 。
那似乎无论是企业内部的数据还是已有的东西 , 还是这些东西看上去它的边际的位置就得到了加强 。
对 。
对 , 逻辑上来讲就是这样一个过程 , 对吧 ?
是 , 就第一个其实我觉得这个预训练它的数据肯定如果是在这个语言这个这个类别 , 它应该是基本上都用的差不多的 。
对 。
对 ,但是除了语言以外 ,其他的什么 World model 啊 , 什么 embodied 啊 , 类似这种具身智能等等 , 这里面其实这个数据还是相当有限的 , 就是这里可能需要用更多的一些方法 。
那同时呢 , 即使是面向语言这样的一个模型啊 , 虽然说数据它其实都已经用到了这个单元模型的预训练里面 ,但是怎么用好这个数据 ——
那可能不是你们干的活吧 。
对 ,也也不全是我们干的活 ,因为它只是这个大模型预训练本身 , 就是怎么把这个预训练的数据的质量真的做好 , 把里面的很多这个数据用数据的一些 bug, 或者用数据做得不好的一些工程的细节给解决掉 , 这个是大模型工程要做的事情 。其实这个东西呢 , 现在可能可能也有很大的一个挖掘空间 ,因为你应该知道前一段时间 Google Gemini 3, 对吧 , 这个效果是
比较好的 。
非常强 , 非常强 。
它最核心的一个这个做得好的点可能是预训练 。
对啊 ,是啊 。
你也用了这些数据 , 我也用了这些数据 , 那为什么它就比别人好 ? 对 ,因为它里面的这个工程细节做的每一个数据 , 或者说用这个有很多比较细微的琐碎的一些技术类的活 , 把每一条数据给调好 , 它需要你这个算法工程师去调这些数据 , 那同时可能也需要一个很好的一个 infrastructure, 一个很好的底层架构去支持你比较稳定的能够复现结果 , 能够很好的快速的
迭代 。 那它是因为这些东西做得好 , 它把预训练的效果就比别人好 。 那可能未来的这个 Google Gemini 4 可能或者 5、6、7, 可能它还有什么强化学习的一些改变 , 可能还会更大的 。
所以它就变成了就是大家经常那种好像就讲题云洞嘛 , 就是经常左脚踩右脚就飞上去了 , 尤其模型能力提升 、 数据训练 , 然后呃预训练 、 强化学习 , 甚至包括后面我们可能会聊到从基础数据到合成数据的这个也是一脚踢云洞的状态 ,有可能似乎我们可以被期待中的 AI 模型能力的提升是可以通过这些方式来去做 。
那似乎这个问题就变成了 , 那是不是某种程度来说在今天的我们叫以工程化为代表的这轮 AI, 我们抛开那个纯学术研究的角度 , 我们纯以今天现在业界在用的工程化的 AI 能力的提升这个角度来讲 , 本质上来讲数据这个我们或者说泛数据这个系统的呃叫我们叫它的角色 , 从原来可能是一个辅助跟边缘的服务角色 , 变成了一个很重要的 , 我们不说心
脏 , 核心的一个位置的状态 , 似乎是不是可以这么 , 或者说再直白一点 , 今天这个时间点世界上最头部的这些 AI 的相关公司 , 包括美国那些公司 , 包括中国的 , 比如包括蚂蚁都是 , 大家都在做自己的模型 。
那为了要提升模型能力 , 似乎在未来一段时间数据这件事情的位置是不是要被放到一个更加核心的位置上来去做 ?
我觉得其实数据啊 , 它对一个互联网公司 , 或者是对真正的那种最一流的科技公司 , 它其实一直以来都是最核心的位置 。
那今天可能说大语言模型它带来的一个不同在于什么呢 ? 在于说它把原来用不了的一些数据也能用了 。
原来用不了什么呢 ?
因为原来可能我们主要用的数据更多是一些结构化好的一些数据 。
对 ,是的 。
那可能原来比如说对很多的这种文本类的一些这种视频类的啊 , 这种音频类的 , 它是它的这个使用的是比较有限的 。
那今天大语言模型它有个泛化的能力 , 它能很用一种通用的做法 ,而不是针对每一种类型的数据写一个不同的算法 , 直接就把这些给用起来 。
那也就是说今天能够用的数据它是比以前要多很多的 , 所以我们就有了 CPU, 还需要有 GPU。
对 。
对 ,但是呢呃以前的结构化数据也是它们的中心 , 今天可能除了结构化数据 ,也有这种半结构化 、 无结构化数据 。
那这种数据我觉得对于比如说像你们这样的数据库软件提出了什么样的新的要求 ,因为原来的数据库软件可能更多是基于偏结构化数据的这个体系构建的 , 那今天这个时间点呢 ?
我觉得呃有有两个点吧 , 那第一个点在于说这个因为它的这个趋势就是会把更多的半结构化 、 无结构化数据 , 它会引入到整个数据处理的体系里面 。
是的 。
那数据处理的体系我觉得最核心的两个组件 , 一个就是数据库 , 一个是大模型 。 对 , 那不管是这个数据库还是大模型 , 它都会去处理这种就是多模态的一个数据 , 对吧 , 那从数据库的角度来讲 , 第一方面它自己需要能够处理这种无结构化的多模态的类型的数据 。
对 。
因为让用户会更加的方便嘛 , 会有一定的这个控制的能力 , 这是数据库的优势 。 那另外一个方面的话 , 数据库去做这件事情的时候 ,也需要跟大模型去结合在一起 , 它需要去利用一些大模型做得更好的一些能力 。
反过来帮助自己的 。
对 , 反过来帮助自己 , 或者是帮助用户做得更简单 。
好 , 那这个引发另外一个问题 , 这个问题也是一直可能最近反而我想的比较多 , 就是原来大家会说比如这轮大语言 , 这轮大模型的发展先是语言嘛 , 对吧 , 就是纯 Chat 或者是图文的文本的这个结构的东西 。
对 。
然后到多模态的兴起 , 图片 、 视频 ,其实是其实图要比语言更早一点 ,其实 。 图片 、 视频 、 语音 , 甚至今天的 World model, 然后大家又会说 Coding 可能也算是一个重要的一个板块 。
然后原来大家就用这个我经常有个比喻 , 就像打德州一样 , 这个主桌看上去有三桌或者两桌半 , 语言 、 多模态 、Coding。
但是呢 , 发展到今天这时间点 , 尤其比如这轮 Gemini 3 出来之后, 你会有种感觉是说其实它们是一桌 。
就像您刚才说 , 就说原来文本我觉得还是偏可以用结构化处理的 。 对吧 , 就像你们比赛现在面对的题 , 很多都是偏文本的结构为主 。
那图 Transformer 架构之后, 它用的另外的方式来去做 , 然后到视频 , 到 World model, 然后到 Coding, 然后到今天我们用 , 比如我们用最新的世界上最好的这一波图片生成模型的时候 , 你会发现它的图本身带着逻辑 , 它的图本身带着推理能力 , 它不是一张画画了就结束 , 它是带着前因后果 、 带着搜索的结果 、 带着逻辑 、 带着故事 、 带着所有这些东西 。
那是不是如果未来再往前推演 ,因为刚才您说的就是结构化 、 非结构化 , 本质上来讲是要最后变成一起来处理的 , 那似乎是不是应该是一桌 , 就是其实它是一个一起的一个一个一个东西 。
我不知道您怎么看这个 。
我觉得从用户的视角 , 它肯定是一个大桌 。
对 。
对吧 , 虽然里面可能因为技术限制啊 , 可能会有各种各样的做法 。
对 。
比如说因为我没有办法具备泛化的能力 , 所以我是用户的角度 , 我看到就是一个大桌 。 那可能你每个小时都用这个做法 , 那个小时那个做法 。
是是是 。
但是我用户其实本质上不关心的 , 只是在等待什么时候能有一个泛化的做法 。 不过你刚才讲这个图啊 , 这个视频 ,其实它里面的做法也有不同的流派 。
是 。
语言是统一了 , 这个还没统一掉 。
所以所以这个是一个我觉得是一个反正呃这轮大模型发展到今天时间点 ,其实已经过去三年多的时间 , 它的技术发展的我们叫分叉已经多得乱七八糟了 , 对吧 , 各个板块都已经多得非常多了 。
那哪怕只是在数据这个量这个这个事情上也分了很多的角度 , 对吧 , 然后大家在做的各种各样的工作 , 每家公司在 beta 的事情其实也不太一样 。
对 。
然后那我们就真心聊一聊这个这个这个比赛的事情 , 聊点比赛的一个事情 , 对吧 , 然后这个这个那我们就聊就是这轮 , 比如说大家都说数据是瓶颈 , 那这个瓶颈到底今天是它卡在什么位置了 ?
赛题复盘14:43
然后比如说在你们就是日常的这个工作过程中, 有没有遇到一些实际的问题 , 通过 AI 的模型能力 , 包括数据库的这个能力提升 , 解决了一部分的这个阶段遇到的这些瓶颈的问题 ?
我觉得这个呃瓶颈还是比较明显的 , 就是大模型这个东西其实一般的企业它是要需要很高的这个基础能力才能把它用起来 。
对 。
就是今天我们这个尤其前一段时间 DeepSeek, 它把这个大模型的成本降下来了 。
降很多 。
所以每个企业都说哎 , 我要用大模型 , 那用大模型的人其实都是 CEO。
对 。
对 ,他不是这个 CTO、CIO。
CTO。
对 ,CEO 说我要用大模型 。
你就不用去 。
然后其他人说我不知道咋用 。 对 , 然后这个时候呢 , 我们一定是需要这个底层的系统需要有进步的 。
比如说以前我们把这个 IT 或者说把这个信息系统用起来是因为有数据库 , 数据库是因为有标准化 。
对 。
那今天到了这个企业去用大模型的话 ,其实没有标准化 , 就什么都没有 , 我们都不知道到底什么是对的 ,因为你没有一个所谓的评估体系是是标准化的 , 它是 case by case 的 ,也没有一个所谓的标准的这个语言 、 标准的构建的方式 、 标准的解决方案 ,其实这些东西都是随着时间的发展要去摸索起来的 。
所以我们想做的更多还是说哎 , 这个数据跟这个模型怎么结合在一起 。
融合在一起 。
慢慢的融合在一起 。 对 , 慢慢去解决企业在真实去用大模型里面遇到的一些问题 , 让它用起来更简单 。
那当越来越多企业都基于我们这种数据加模型的方案去使用这样的一些 AI 技术的时候 , 慢慢它自然会形成一些行业的解决方案 , 甚至是一些标准 。
那比如说你们这看到这个趋势跟这个演进的过程 , 包括你们这些实施 ,是否也在影响比如说这五年你们的大赛上的一个出题的这个变化的演进的过程 ?
对 ,因为其实我们我们去年的题目其实是呃相量数据库 , 今年的题目其实更多是一个混合检索 ,因为我们在去年的时候 , 当时大模型能力比较弱嘛 。
对 。
所以呢 , 我们更多是通过向量 , 通过做这种呃基于 embedding, 基于做 RAG 的方式来去增强相量数据库的能力 。
那到了今天 ,其实业界它肯定会由这种简单的通过向量去做 embedding 来去呃演进 , 成为一个更多叫上下文工程的一个一个这样的一个解决方案 。
那上下文工程的话 , 它就不仅仅说是去用向量做做 embedding 了 , 它可能会有向量 ,有这个全文 ,有这个图 ,也可能会有以后有更多的一些这种呃标量啊 , 这种半结构化数据的一些索引跟搜索的一些方式 ,以及呢 , 怎么把这些这个呃数据的一些能力跟这个模型的能力结合在一起 。
结合 。
对 , 所以我们也会有一些类似 AI function 这样的一些方式 ,在数据库里面直接去调一些 AI 的一些能力 。 对 , 所以今年的题目就是一个混合检索 。
我们认为说混合检索 、 向量检索 , 它肯定是一个我们做这种呃数据跟模型融合的一个初级阶段 。
是 。
那最终它一定是要通过这种各种各样的一些不同的方式的混合 , 给用户提供这样的一个工具 , 然后呢 , 帮助用户去基于这样的工具构建一个很好的解决方案 , 然后慢慢成为一个数据模型混合的一个标准 。
对 。
那你们感受到今年的这个题的跟去年的这个或者之前几年的状态的区别大吗 ?
嗯 , 就是感觉今年它那个混合检索的部分还是蛮新颖的 , 然后还增添了一道 RAG 的题目 , 然后这一块让我们因为我本来是个传统做数据库的嘛 。
就是非常原始 。
然后现在是 AI 相结合了 , 然后这样做起来还是蛮有意思的 。
因为你刚才咱们聊的时候 ,其实你已经在你其实你已经在上班了 , 对吧 , 你已经在做真正意义上的现实世界发生的业务 。
是的 。
而且是也是偏数据的 , 对吗 ? 按我理解原来 。
嗯 , 可以这么说吧 , 就是一些银行的业务 。
是银行业务 , 然后银行业务也跟数据结合非常紧嘛 。 那今天实验当你看到这个比如说考题题目出来的时候 , 你会觉得比如说跟你现在在做的工作之间的比如区别或者差别 , 或者是这个这个状态的这个异同会怎么样 ?
呃 , 感觉嗯不会非常相关吧 ,因为我们这边是一个底层的数据库搭建嘛 , 就是数据库的内核制作 , 然后我们那边主要是个数据库的使用 , 这两个一个是技术难度也是非常不一样 ,但是感觉业务线这一块就是你需要去理解他们的产品是怎么用的 , 然后这些数据你该怎样更好的传输 , 会给他们用户更好的交互 , 主要考虑的是这个方向 。
然后内核这一块的话 , 我们可能考虑的更多是呃我如何去让用户更好的拿到这份数据 , 然后让他没有感觉 , 然后一个是性能要快 , 一个数据要准 。
所以今年的题就是刚才日照也说了 , 今年的题是一个混合搜索的一个一个决赛的题 。
对 。
所以你们从因为从最后的结果打分上来说 , 就是看谁的性能更好 , 跑分更高 , 然后结果更短 。
是的 。
是这个这个角度来去做这个这个评判的 。
是的 。
您呢 ?
呃 , 就是对于那个 RAG 赛题 , 就是我觉得嗯就是混合检索加全文就是特别的新颖 , 就是我们在做的时候 , 实际上我们也有考虑到就是大模型它如果没有上下文的话 , 它可能生成的答案非常的模糊不准确 , 然后我们就用到了就是大赛的混合检索能力 , 然后同时我们会就是我作为学生的角度嘛 , 我们就去参考一些就是实现一些工业上比较
粗糙的那种方式 , 就是我们实现的就是比如说呃对呃用户的问题进行重写 , 就比如说让他的那个语义更加清晰化 , 模呃显显现化 , 然后就更便于我们检索嘛 。
所以你在用户需求发出那一层又做了一层 。
就我们对把用户的那个问题进行重写 , 然后就把他的意图更加显现化 , 这样子就更便于我们进行检索 , 然后对 , 然后检索到问题呢 , 我们就后面又进行了重排序 , 就是拿到更更加语义准确的那块 。
解题之路20:58
对 。
明白 。 你们前后的这个决赛接到题目到真正跑通 , 大概这个流程是怎么样的 ? 当时 。
就是我们就是有一个整体的那个思路框架 , 然后我们按照这个 。
这框架什么时候什么时候想的差不多了 ?
就是我们队员开了一个会 , 然后一起讨论了一下 。
你们队员够你们几个队员大概 ?
我们有三位队员 。
然后都是同学吗 ? 还是 。
对 , 我们都是一个学校的 , 然后我们对 , 就是 。
怎么组队的呢 ?
就是分分队情况嘛 。
不是 , 就你们怎么组合在一起的 ? 是原来就认识还是 。
对 , 我我和我和我和我和队长是原来就认识 ,但是还有另外队员是我们在学校论坛上就是相识的 。
OK, 然后当时是怎么去把这个框架差不多定下来的 ?
啊 , 对 , 就是我们开了一个会 , 然后就我们就参考了 , 就比如说各每个人想一部分 , 然后就参考了一下有业绩上的做法 , 然后我们只把它实现的比较粗糙 , 就是可能没有工业上实现那么细 ,但是我们也达到了一个比较好的效果 。
对 。
所以你当时框架想完 , 包包括初期跑完之后, 就对这个比如说结果跟呃最后的成绩有一些预期吗 ?
对对对 , 就是我们感觉能参考 。
还行是吧 ?
对 , 就就那还行 。
你参考了谁吗 ? 我能问问 。
啊 , 就是就是实际上就是参考的 OceanBase。
哦 。
对 , 大主要是 。
OK OK OK, 可以可以可以可以 。 你们呢 ? 你们当时是怎么走组队 ? 因为你们是来自不同的这个地方的嘛 。
呃 , 我们这个就比较有意思了 , 就是我最开始我有点就想当自己一个人参加了 。
Solo 是吧 ?
对 ,因为实在找不到人。 然后后来我想了一下我之前参加的一个开源社区 , 就是 miniGU, 然后我想我去问问那边的老师能不能抓一点这边的人参加 , 然后我就在上面发了帖子 , 然后当时有一个同学报过来 , 我就觉得哦 , 终于不是一个人打比赛了 。
好 , 我我有个细问题 , 那你当时想找的这个人的要求你写了吗 ?
呃 , 就是我当时要求没有非常高 , 就说要有足够的时间 , 然后最好是还有一点 C++ 的基础 。
就可以了 。
就可以了 。
哦 , 今天这个这个这个这个门槛已经这么低了哇 。 哈哈哈 , 这个随时模型能力计划门槛已经这么低了 , 我们这些文科生已经快要去摸到那个地方了是吧 ?
嗯 ,也也不能这么说吧 ,因为社区里的人他都是对开源有贡献 , 基础都是 。
够的 。
达标的 。
然后那你们组在一起了 。
嗯 。
那远程大家远程在线聊 , 然后去确定方法 , 然后做实施 。
嗯 , 对 , 我们基本是没有固定的时间吧 , 就是我们做着做着想到了什么东西啊 , 就发消息在群里 , 然后就觉得需要聊一下的话 , 我们就会拉一个会议 。
对 。
哦 , 那我想问 , 就是比如说这个比赛的过程中, 它其实是一个有没有一个明确的时间点 ,是比如说我们要做好东西提交 , 然后在那时间点要等 , 比如说评判的这个过程 ,是这样一个过程是吗 ?
有 。
呃 , 对 ,有的 。
OK, 那在这个比如说做的过程中遇到过一些什么样的 , 比如说卡点或者是难题或者是争吵或者是什么吗 ?
就是纠结呀 , 或者是一些弯啊之类的 。
嗯 , 我感觉我们这边还是比较和谐的 ,不过当时是有遇到一个难题 , 就是我们开始最开始做出来 600 来分的时候 , 就觉得已经差不多了 , 已经到上限了 。
然后看到 , 然后就是晚上两个同学去玩了会儿游戏 , 玩了游戏之后回来一看 , 哎 ,不对劲了 ,有一个叫不要有小情绪的队伍 ,他一下子飞上来 , 好像是 1,300 还是 1,600, 然后我们就在说他不要有小情绪 , 我们有小情绪了 。
你们是有一个能够实时看到所有人的打分的状态的 ?
对 ,他有个 。
是的 , 然后从那个时候我们就开始就是你正常的传统优化在这个上面 , 就是你最高就是差不多 600、700 的样子 , 让他们绝对不是一个通常的优化思路 , 然后我们后来是从执行的流程上把它整个优化掉了 。
你们后来跑到多少呢 ?
7,700 吧 。
哇 。
哦 ,7,000、7,100 好像 ,7,100 还是 7,200。
那你们呢 ?
我们是接近 7,100。
那你们中间有遇到什么波折吗 ?
对 , 就是就是有很长一段时间 , 然后我们的就是我们的性能没有得到提高 , 然后后面是就我们队长他就想到一个方案 , 然后把我们的那个性能提高 10 倍 , 然后我们顿时就非常有信心 。
是什么方案 ? 大概 。
就是就是做了 。
逻辑上是怎么样 ?
嗯 , 就是做了呃索引层的交集的那个嗯操作 , 然后就把速度能提高大概 10 倍以上 , 然后从从从那时候开始我们就 。
立住了 。
对 , 然后我们就更有信心去往前冲了 。
那你们解决了这个看点之后, 到了一个阶段之后, 后面在做的事情是什么 ? 就再优化吗 ?
对 , 我们后面就是呃呃那那是索引层 , 我们后面还做了那个呃就是下面的全文扫描那那一层的那个 。
能力 。
呃优化 , 对 , 我们是一层一层的往下 。
最后几层大概 ?
对 。
最后一共整体的方案最后做了几层 ?
呃 , 大概是三层到四层 。
OK。
对 。
你们了解其他的伙伴们或者是其他队伍他们的比如实现方式啊 , 架构啊 、 框架这些吗 ?
呃 , 我们在就是最终答辩的时候 , 我们就啊 , 对 , 听他们 , 就是我们发现他们的做法和我们就是其实是大相径庭的 , 就是不太相同 , 就每每个队伍他都有自己的实现方式 。
对 。
这是不是也是这轮就是因为原来大家会认为数据库就是一个严格的结构的东西 , 它是它已经不能再结构化了 , 甚至是一个非常趋同的一个法 , 一个一个状态 ,但是因为这个无论向量数据库 、 模型能力 , 然后各种各样信息的这个这个样子的变化 , 导致这件事情变得没有那么严丝合缝的被封在一个地方了 。
这个是不是也是一个一个一个一个一个变化 ?
我觉得数据库肯定会更加开放一点 , 就是因为原先数据库它主要用来做交易跟做分析嘛 。
对 。
就处理结构化数据呢 ,而且因为数据库它经过这么多年的一个发展 , 很多理论呢 , 它都会有一些比较成熟的一些经验 , 所以呢 ,在原先做交易做分析里面 , 可能是经过了好长时间会有一个比较大的突破 , 会有一个方法性的一个变革 。
是的 。
那到了今天这个数据跟 AI 结合在一起 , 很多时候它变成了一个搜索问题 , 就是你怎么从这个上下文里面找到你跟大模型能够匹配的更好的一个东西嘛 。
它不是个百分百准确的 。
对对 , 它一加一等于二的 。 有一定的这个非精确性 , 再加上这个东西属于比较早期 , 所以很多方法呢没有定型 , 所以有的时候我们发现 , 包括我们在座两位选手 ,也包括这个我们现场的一些选手 ,他里面会想到一些方法 , 可能 。
您去答辩的那个 。
我我是评委 。
对 。
可能也我们也不一定就是会想到那样的一个思路 , 所以这里面也有一个互相学习的一个过程 。 对 , 所以现在你看 AI 很多时候是年轻 。
年轻人的天下 。
AI 数据库也很多靠年轻人。
不是我们现在老登的天下 。 我们已经被拍在沙滩上了 。 然后还想问一个问题 , 就是呃 ,因为大家会说这轮模型出现之后, 没有办法解决的是幻觉的问题 , 然后大家会把幻觉的问题引发到数据层面的问题 ,因为刚就像刚才我们说它没有办法百分百精准 , 那它必然会有一些问题出现 。
幻觉得失27:59
那这个事情当然也有人会说我们可以通过路由的方式把一些问题分到 , 就跟最近那 DeepSeek 那个那个论文不是在解决类似的问题吗 ?
那这个事情您您怎么看 ? 就是说幻觉 , 然后能不能解决 ,以及用什么方式解决 , 或者说这件事情真的需要解决到那个程度吗 ?
我觉得幻觉其实就基本上这是一个比较关键的问题 。 你要做好幻觉 , 肯定其实像我们的大脑一样的 , 我们大脑它可能刚开始有了比较强的一个推理能力 ,但是这是不够的 ,因为你还有类似海马体这样的东西 , 对吧 ?
所以说 DeepSeek 它确实是尝试把一些东西结合到这个模型的底层 。
对 。
那也可能是说因为它结合的底层也是 1+1 这样的方式 , 它不是搂到那个参数里面 , 它是放在外面的一个挂件里面 , 对吧 ?
所以在它跟外面在数据库去跟这个模型结合在一起 , 里面用的一些这个方法跟思路 ,有的时候可能也是一种这个有点像是本质是差不多的 。
对 , 就你需要有一套这个数据库的一个能力 , 你把有一些这个固定的东西给记下来 。
然后就放在那 。
对 , 就放在那 。
遇到那然后就去那拿 。
对 , 它第一个是解决了经济性的问题 , 第二个是解决了这个成本跟效率的问题 ,因为不需要每一次都去 。
都跑 。
跑一遍嘛 , 这个是没有必要的 。
比如在你们 ,因为你们这次的决赛问题就是一个混合搜索的问题 , 那不可避免的会出现幻觉的这个情况 , 你们怎么去 , 比如第一次遇到的时候会很烦 , 然后怎么去解决 , 把这个事情变得更好一些 ?
啊 , 就是我我先说吧 , 就是 。
你先说 。
啊 , 就是我们我刚才说过了 , 就是我们先把问题 。
用户层那一层 。
对 , 就先把它重写 , 就是可能说有一些语义相似的词进行替换 , 然后或者说有些缩写 , 还有它的全称进行这种替换 。
哦 , 我问一下, 那这次搜索这个就是它搜索这个需求的题目是固定的 , 对吗 ? 就是它就是它搜索的这个 , 就是用户发出的这个需求的这个地方在题目里是固定的 , 对吗 ?
啊 , 对 ,但是我们不知道就是 。
啊 。
对 。
啊 ,是盲盲的是吧 ? 盲盒是吧 ?
对对对 。
对它来讲是个盲盒 。
是是是 。 然后您继续 。
啊 , 就是我们做了这一层之后, 然后我们还对啊 , 就是混合检索之后的输出再进行了啊重排序 , 重排序这个操作就能大幅度的减少那个啊 , 减少那个啊 , 就增大语义的相关性 , 然后减少这个模型的幻觉 , 然后最后输输出出来 。
但这同时过程中也要兼虑兼顾效率的问题 。
啊 , 对 。
对吗 ? 就是它又不能让这个工作变得更复杂或者变得更更更难 。
不能让整个路径变得非常的庞大 。 对 。
呃 , 我们这边就是开始是看到了那一份答案 , 就是输出问题的答案之后, 我们比对它的回答是非常的对 ,但是它的那个相关的文档和页号就是感觉一直在飘 , 它有好几个 , 然后我们当时就去问了那个嗯这边那个出题的人, 然后他说他们会增加一个视觉模型去解决这个问题 , 然后但是他加了之后我们还是 。
还是飘 。
还是飘 。 然后发现才是我们自己这边 , 就是它能说的对 ,但它来源不对 , 然后感觉这个其实在业界应该会是一个非常严重的隐患 ,因为你要知道它是哪里来 , 然后你才能给出真的正确的答案 ,而不是它猜出来的一份答案 。
然后我们就首先对 , 就我们通过我们的创客去对文档进行排序 , 先选择了嗯最可能出现答案的文档 , 然后再通过这个文档里的页号去定位最可能出现的页 。
就还是要做几层的确定性的位置的确定 。
嗯 。
然后最后结果还可以 。
呃 , 我们的结果感觉是数据量大了之后, 我们考虑的没有非常的周全 。
嗯哼 。
嗯 ,因为我们后面时间有点不太充裕 , 所以在这道赛题上我们是做的比较差的 。
总共几道几道题 ?
两道 。
两道 。
好 , 那另外一道呢 ?
那是做什么的 ?
内核的做 QPS 的 。
就是混合检索这一块 。
所以你们是出了谁出的题 ?
这个是我们团队的一些工程师出的题 。
这个我觉得这个题出的也我我会觉得出题的这个这个题的范围 、 角度 、 深度跟可能性真的是蛮难的 。
对 。
因为你们已经做了 5 年了 , 每年要根据行业变化 、 技术趋势啊 , 包括现在学生的能力去去综合考虑出这样一个东西 。
对 ,因为它第一个是你出题的方向 。
对 。
这个我们可能整个团队会大概讨论一下, 比如说哎 , 今年我们觉得要往哪个方向 , 我加 AI 类的 , 对吧 ?
那第二个是这个出题的难度 ,以及到底像考察的点是什么 。 对 , 这个点是比较关键的 ,因为你不能你一定要有区分度 , 那同时你也得这个刚好是这个考察的这个点跟这个数据库的内核 ,以及跟当前的一些应用场景是能比较结合在一起的 。
就我们这个比赛 , 虽然今年我们是加了一个叫 AI 相关的一个一个业务场景 , 对吧 ? 但这个比赛到现在第五年, 其实它一直是专注做数据库内核的 。
嗯哼 。
所以它也是说基于这个 AI 场景的这个内核怎么去优化好来去好这样的一个场景 。 所以我们还是希望通过这样的一个比赛去培养这个呃底层的一些针对数据库内核的一些基础软件研发人才 。
那延续这个问题 ,因为你们已经做了第五年, 就是这五年走下来 , 你感觉这些参赛选手他们的画像有什么变化 ?
我觉得今年跟去年吧 , 我可能印象会比较深一点 。 我觉得有两个变化 , 第一个变变化是今年有两个本科生的团队进入了前十名。
就整个 。
学什么的 ?
选手们他相对来讲会更年轻一些 。
他们本科生学什么 ? 也学 。
本科生学计算机的 。
OK。
也是学计算机的 。 对 ,也有学网络安全的 ,但是本质上也是基本上计算机相关的啊 。 那第二个是今年的选手 ,他可能他在做这个题目的过程中要去理解这个题目 , 理解元代码 , 甚至可能要做一些 coding,他里面会比较大量的采用一些 AI 相关的技术 。
AI编程34:25
那就延续这话 , 就是你们用了 vibe coding 的工具 , 你们感觉就是当然这个可以抛离开这次比赛啊 , 就在你们日常的无论是工作 、 学习 、 做项目的过程中, 这一年或者 25 年这个这一年走过来之后, 你发现比如说 AI coding 对你们的 , 或者你们怎么看 AI coding 这件事情 , 怎么用 , 用的程度 , 对它的认可程度乱七八糟 。
呃 , 我先说 。
嗯 。
呃 , 我在参加这场比赛之前 , 我还是比较偏向于那种传统手敲带板的选手 。
手扣 。
对 ,因为我就觉得自己写的东西会比较牢靠 ,因为我本身是 ACM 出身的嘛 , 所以就是 。
那就更更那什么了 ,是吧 ? 更古典了 。
底子底子要好一点 。 然后对我最大的冲击是我有一个队友 ,是我当时社交招来的一个队友 , 呃 ,他叫吴同学 , 然后他当时在我们做那个 mini OB 的时候 ,他就开始用那种 AI 的工具就开始做了 。
我开始就觉得这种做的是不是会理解的不清晰 , 然后但是这个我们通过提一个 PR, 然后我们大家都可以看到修改的地方 , 然后我们都是每个人都是学习过对方写的代码 , 然后才会去合并这份代码 。
然后到了决赛之后 ,他这个优势真的就是完全发挥出来了 。他结合 GPT 把那个代码分析完 , 然后用 Claude 把那个代码他直接就做出来了 。
我在那里看了好久 , 我都还没有搞明白这个东西前因后果怎么样 ,他已经做完一版的功能发出来给我们看了 。
那你现在开始用了吗 ?
我不知道开始用了 , 就从他这一下给我打击打完 , 我就开始觉得他是 AI 使用的大神 , 然后就一直跟着他学 , 然后就听他是怎么用的 。他说只要把问题讲清楚 。
需求描述清楚 。
对 ,他的 AI 就可以做得非常的好 。
你觉得 ? 我其实比较早就开始用 AI 了 , 就是可能从 21 年 20 年的末尾 , 就是 GPT-4 出来的时候我就开始用了 。
然后就是我我在我在这几年中用的时候 , 我就感觉今年和以往最大不同就是很很多一些啊编程 IDE 的那个工工具出现 , 它增强它直接能读取啊整个代码原码的那个上下文 。
然后这样子的话 , 就是我们去就是编程就更加方便 , 我们不用不用把每个代码 。
需求拆出来 , 拆出来再粘贴过去 。
对对对对对 , 这样子其实非常大的便利我们啊开发者去阅读原码 , 然后去做开发 。 对 。
那那就大家就面临的问题 , 那未来似乎肉眼可见 ,coding 能力还会继续再提升 。
对对对 。
那对于原来的手艺人们怎么办呢 ?
哈哈哈 。 呃 , 手艺人有手艺人的优势嘛 , 就是我们 AI 改完之后它肯定是会有一些报错 。 如果你要是直接去让 AI 完完全全的去改 , 它会用掉很多的 token, 然后就是费用会比较高嘛 。
但是像有一些其实很简单的问题 , 我们其实扫一眼就觉得啊 , 就这里它没有写对 , 然后手动改完之后再跟 AI 说这边这个部分我已经修复了 , 它其实也能提升一部分的性能吧 。
还有一个就是呃 , 你全靠 AI 写的话 , 你对这一块的代码会会非常的了解 。 对 , 像我们自己这种 ,他写完我们会很仔细的去过完 , 了解它的整体的执行流程 , 这也是我们后来反超的原因 。
你们怎么看 ?
嗯 。
就是手艺人们怎么办呢 ? 纯手抠的怎么办呢 ?
啊 , 就是我我我我就是很长时间都用 AI。 我 。
哈哈哈 。 你已经迎接着了是吧 ?
对 , 我已经 。
拥抱 。
完全 。
对 , 我完完全拥抱 AI 了 。 似乎我会觉得这一代的在做的都是这样的 。
嗯 。
就是它它不会像我们有那种 , 对吧 ? 有那种类似那样的情情感的东西在 。
嗯 , 我觉得是一种新的手艺 。
对对对对 , 新的手艺 。
把这个 AI 用好的手艺 。 有几类 , 就是第一是说这个手艺它有些新的技能 , 你得去还是得与时俱进去学习 , 对吧 ?
第二 , 呃 , 这个 AI 它毕竟是现在才是 copy 了 。
对 。
它能够帮助你对怎么用好 ,其实是需要你经过这个传统手艺的一个这个可能是一个修炼 , 最后你才能用好这种新的手艺 。
对 。
你们内部怎么看 ?
我们内部这个 AI coding 的使用率非常高啊 , 就基本上我们的这些这个代码 , 尤其是写代码这个方面 , 我们是大量的采用了这个 AI coding。
对 ,AI coding 它在一些这种前端 , 一些这种生成一些这种实验性的代码 , 那效率是极高的 。 包括做一些中间件啊 , 这些都还是极高的 。
它在但是它做一些特别严谨的代码 ,其实还是有比较大的一个问题 , 现在是 。 然后再加上这些 AI coding 它做的这样的一些代码的话 , 它最终还是需要一个比较好的人去 review 它 。
对 。
对 , 它直接做出来的东西呢 , 里面是有坑的 , 你要去 review 它 。 然后所以呢 , 第一是怎么用好这个 AI coding, 第二呢 ,是这个怎么基于这个 AI coding 这个建立一个更好的开发测试产品协同的一个方式 。
它也会发生一些变化 。 所以我觉得到了今天这个时代 , 肯定有了这个好的工具 , 我们是要去适应这样的工具 。
但这引发另外一个问题 , 大家也会说 ,因为 coding 毕竟还是一个对于任何一家公司而言都是一个很核心的 、 很重要的一个数据资产 。
对 。
但如果我们用了公开的 coding 工具 , 那似乎会有安全啊 、 隐私啊 、 乱七八糟这种这种这种问题 。 那这个你们作为 ,因为你们本质上除了你们是一家开源数据公司 , 本质上你们也是一家 1,000 多人有不少业务的一家一家公司 , 那你们怎么看待这件事情的这个这个问题呢 ?
对 , 就我们最核心的代码都是完全 open source 的 , 所以对我们来讲 , 就是 OB 的最核心的资产其实是我们的员工 ,而不是他现在那些代码 。
对 , 就是最终你还是要不断的去创新 , 才能在这个场景有竞争力 。 就是比如说 OB, 我这个团队形成的这个组织能力 , 使得我不断的能够通过创新来去更好的解决用户的问题 。
当用户遇到问题 , 我能给他兜底 。 那这些东西它都不是说我有一天 。
纯代码的问题 。
合理合理 , 非常合理 。
然后我们再聊一个这个这个这个更更热跟更新的名词啊 , 就是进入到 26 年, 大家都说 , 反正至少硅谷的公司是说这个自主学习 , 对吧 ?Continual learning 是一个趋势了 。
自主学习40:47
那这个就像我们刚才在前台的时候说 , 就是 continual learning 这个这个词这么热 , 今天是谁的演 , 似乎对这个词本身的定义也还没有非常的清楚 。
但是也有一派观点会认为 , 这件事情真的想实现的话 , 可能更重要的还是数据的问题 。
嗯 。
您怎么看这个这个观点或这个角度 ?
嗯 , 我觉得这个这个今天确实有一个词比较热门 ,continual learning。continual learning 它是在两个层面去做 , 第一个层面是直接模型去 。
模型本身内化 。
对 , 模型本身内化去 continual learning。 第二个是模型跟这个数据库结合在一起来去做 , 叫完上下文工程 。 上下文 ,因为数据库它本本质上就是一个能够实时读写的一个能够持续的进化的一个东西 。
对 ,但是它跟模型的机制又不一样哈 。 第一种方式在模型里面直接去做的方式 , 到目前为止啊 , 还是没有一个很大的突破的 。
就大家在试 , 可能已经新的实验室在试 。
对 ,有那个 thinking machine lab 嘛 。
对 。
他们在试这样那些东西 。
但他们出事了 。
那个再说了 , 就是但是本质上就是这里面它确实有一些比较大的挑战 。 这个挑战在于说 , 比如说我们今天拿到一个模型 , 我们去做这个微调 , 对吧 ?
去做 low 了 ,low 了 ,low 了 , 搞几次以后开始哎 , 这个结果到底是什么 ? 基本上你是不可预测的 。
不知道 。
你要人去看它 。 所以它很难找到一种自动化的方式去做好这些事情 。 那到底是这个有一些理论上突破了就能做到呢 ?
还是说可能说这个不一定 , 可能说这里就做不好 ,因为全身碰都做不好 , 对吧 ? 那我们我们是一个比较实用的做法 , 我们实用的做法 , 我们还是首先我们先把这个基于数据跟模型结合在一起来做 continual learning 这件事情玩明白 。
嗯 ,其实基于上下文工程去玩明白数据跟模型结合 , 我觉得已经没没搞明白 。
对 , 已经已经是很前沿的事情了 。
已经很前沿的事情 。
那所以那你像呃传统数据库 。
嗯 。
到向量数据库 。
对 。
到向量加向量文加加加所有东西 , 那这个是不是也在匹配这个趋势的变化 ?
对 , 就是我们今天这个不管是 OB 还是 CDB, 我们在讲这个混合搜索 ,其实它解决的就是通过持续的迭代的上下文来去实现这种让模型跟这个数据结合在一起 ,不断去进化的这样的一个过程 。
对 , 那这个过程我至少认为这种方式 , 虽然我们也现在没有把整个事情完全玩明白 。 嗯 ,但是它一定是一个正确的方向 ,而且不管是对这种大企业还是小企业 ,其实都是非常有效的一个方式 。
因为小企业你来了以后, 你第一件事情就是要把数据管起来 , 才能把模型用好 。 你需要有好的 tool, 你需要有数据有变化的 , 我得随时去迭代我的这个能力 。
嗯 , 那就是我们要的这个 OceanBase 也好 ,CDB 也好 , 加这个模型的能力 。
对 ,其实你们在做的也是在匹配这个趋势的状态中 。 虽然大家不知道是不是比如说纯研究角度会突破 ,也不知道今天是基于更多工程上的努力也能走到什么点 ,但至少我们在匹配这个浪跟这个趋势的状态 , 再往前去做我们数据库相关的工作 , 能够让这个事情往前更走的更好的一个一个东西 。
对 ,而且我们的所有的东西 , 包括我们的 CDB, 包括 OB,也包括我们上面还会有一些探索性的一些工具 , 比如说 Power Rack、Power Memory 啊 , 这些东西 , 我们其实都是全部 open source 的 。
全部 。
全部 open source 的 ,而且是 iPad 2.0 的 。 就是第一 , 呃 , 我们是认为这个方向是对的 。 第二 , 我们认为说可能业界有一些人也会用我们这一套的 tool。
再玩 。
玩的更明白 。
因为因为因为那个我我记得那个蚂蚁开源每一段时间会发一个那个整个 AI 领域开源的那个趋势的那张 map 嘛 。
嗯嗯 。
对吧 ? 就是你明显感觉在可能在 24、25 年之前 , 嗯 , 业界对于开源领域的这些趋势变化是没有那么 , 或者说这些东西变化跟纯真正意义上的产业之间是割割裂的 。
嗯嗯 。
就是可能技术研发或者开源世界在玩一套东西 。
对 。
业界在研究另外一套东西 。
对对 。
但是在 25 年, 我印象特别深 , 蚂蚁开源是第一次发这个报告 , 应该是去年 6 月还是几月 , 就是它的那些比如说 Agent 的框架 、Infra, 包括数据层的那些东西的趋势变化 ,GitHub 的新的这个提升 ,以及研究的热点 , 跟业界是完全匹配在一起的 。
嗯 。
就是就是这个状态似乎也代表今天时间 , 大家会说开源其实并不等于公益 。
嗯 。
开源并不等于没有商业化 。
嗯 。
开源今天这时间似乎史无前例的跟真正意义上业界发展在绑在一起来做 。
对 , 就是因为早期这个 AI, 它其实是还是更多做一些创新嘛 。
对 。
所以它跟原有的这个技术站 , 原有的系统 , 它其实是有一定的这个 gap 的 。
对 。
那今天 AI, 包括你说的半年之前啊 , 它其实已经开始说 , 我甚至有一些传统的应用怎么去做智能化 , 那它跟原有的这个技术站 , 它是要去结合在一起 。
结合在一起的 。
它自然而然呢 , 原有的技术站也得想办法去拥抱这个 AI,因为这个趋势现在是非常确定的 。
这个状态也会让 , 呃 ,因为大家也会说 , 可能 25 年整个业界是强化学习年 。
嗯 。
但中国如果换一个关键词 ,其实是开源 。 就是 。
嗯嗯嗯 。
如果我们去只拿一个关键词或标签定义 25 年中国 AI 行业的发展的话 。
嗯 。
那可能很多人会讲到开源这个关键词 。
是 。
就是无论是模型层面的开源 , 还是整个生态的这个这个这个变化 。 那为什么 ? 就是我之前写 PPT 的时候 , 我说 。
嗯 。
我说过一句话 , 说我说开源可能是结果 ,也可能是原因 。
嗯 。
就是引发我们这轮跟中美的 AI 对抗 、 乱七八糟这些事情 , 它可能是结果 ,也可能是原因 。 你怎么看这件事情 ?
嗯 。
就是中国公司为什么我们在开源生态突然间这么强 , 就这么拥抱 ,而且看上去正确 , 就双引号的正确 。
我觉得有很多原因吧 。 那第一个还是说这个跟中国的今天的商业环境 。
嗯 。
跟中国整个技术在全球的一个影响力 ,也包括比如说很多 AI 的一些东西 , 毕竟还是美国人, 它把这个算法先发明出来了 。
那我们更强的地方在于说是在工程能力上做得更好 。 它对于一个你不是第一个做出来的 ,但是你是在工程上优化的更极致的一个这样的一个产品 , 最有效的方式就是面向全球市场去做开源 。
对 , 让生态帮你继续发展得更好 。
对 。
你们一直在践行这件事情 , 对吗 ?
对 ,OB 我们一直都是完全开源开放 。
OB 之前应该是蚂蚁的一个内部项目吗 ? 还是然后后来变成公司化的 ?
OB 应该是 2010 年我们就开始做 , 那前面的十年它都是蚂蚁内部的一个项目 , 然后 20 年之后我们才是正式成为了公司 。
公司化之后第二年我们就马上就那个开源出去了 。
当时是谁做的决定 ?
开源其实是我们建立这家公司的时候 , 大家就讨论好了要开源出去 。
嗯 。
只不过是筹备了一段时间 ,因为其实开源它并不是说你把内部的代码直接一丢出去就行 。 不是的 , 开源要做的事情很多 。
比如说有很多 , 比如 2020 年我们当时成立公司的时候 , 我们就想要开源要做的这个事情一二三 , 对吧 ?
第一可能就是对蚂蚁的代码的依赖得去 。
调掉 。
去把它给调掉 。 对 。 第二就是有些写得不好的代码得去改一改文档啊等等。
要对外了 ,是吧 ? 要见公婆了 , 对吧 ?
对对 , 很多活要干 。
那我有另外一个更好奇的 , 就是说本质上讲 ,因为原来我们相当于是做内部支撑的一个 。
嗯嗯 。
一个一个一个一个东西 。
嗯 。
然后今天我们要把它开放 , 甚至我们要去找客户 , 要找不同的 , 就是这个过程对于一个原来是一个偏 , 我问过 ,因为我们也有公司 , 我们公司内部也有一些 team 在这个时间点想做类似的这样的事 ,但是你会发现特别难 。
对 。
就是因为你的角色 、 你的状态 、 你的位置 , 然后你的目标完全不一样了 。
明白 。 我觉得这个首先还是你这个产品的初心是什么 ? 就是说这个产品创建的第一天 。
第一天是为什么 ?
它的是为了什么创立的 ?OB 创立的第一天是要讲做世界级的数据库 。 虽然是 2010 年当时只在内部 ,但是所以我们的所有的 design 是朝着通用的去做的 。
第一天发心就决定了 。
对 。
可以 , 可以 。 这个这个回答很好 , 非常好 。
嗯 。
青年视角49:18
好 , 我们再聊一个另外一个话题啊 , 就是想问问两位同学 , 就是你们现在就是我知道你们现在都是研二 , 对吧 ?
你也在工作 , 你可能马上也要面临这个工作问题 。 你觉得今天这个时间点 , 当然可能因为你们已经站在这个浪潮的最前面了 , 对吧 ?
那你们怎么看当下这个时间点 ,AI 比如说对于尤其你们还是学计算机的 , 或者说计算机相关的专业的 , 就是你觉得 AI 这波浪潮对于你们这些无论是你们学的东西 , 还是你们未来要做的事情的影响跟变化会有什么感觉吗 ?
嗯 , 我先来说吧 。 就是我感觉 AI 就是能大大大幅度的提高我们学习速度的 , 就是学习的速度 , 然后就让我们接触到更新的东西 。
它们教会我们 , 非常快的去教会我们东西 , 这样子就让我们就是更快的那种推力 , 这样让我们前进 。
但这是努力积极的 , 那有不努力不积极想躺着怎么办呢 ?
呃 , 就是就是如果你 , 我我感觉啊 , 如果你不去接受 AI, 就是你可能就是会被在 AI 时代被淘汰 。
你你要你去学安全的 。
对对 。
安全似乎更我觉得离这件事情更尖上, 就更在那个尖上的位置 。 因为关于 AI 这轮安全的探讨变得更复杂了 。
因为传统传统的安全 ,因为我原来也搞过 , 传统的话还是一个偏 , 就跟传统数据库一样 , 它是一个基于定式的 、 结构化的 、 有相对固定套路的一套东西 。
但是今天 AI 之后你会发现它变 , 就那个口子被打的无限大了 。
对对对 , 就是就是 。
犯的不能再犯了 。
对 , 现在 AI,AI 就是我们现在接触到的 AI 行业 , 它已经不再是原来 ,不安全行业 。
对 。
已经不再是原来传统的 。
是的 , 当然 。
它现在已经引出了比如说大模型的安全啊 。
对啊 ,是 。
模态的安全啊 , 就是对 , 所以我们就是我们的口已经被拉的很大了 。
超级大 。
对对对对对 , 就很有感受 。
那你们比如说这个过程中, 因为之前你像之前也很多年就大家总讲例子说那个一些某个美国的汽车公司把那个 AI 的客服能力放到它自己体系里 , 结果那个一个用户就通过 hack 的方式 8 美金买走了一辆汽车 , 就是大模型的幻觉加各种交易的环节乱七八糟 , 它就理论上是可以实现的 。
那这个问题在于 AI 之前的年代是不太可能出现 , 尤其对于安全板块来讲是不可能的 。 但是今天因为你的口子被放到了 ,因为我们在追求通用 , 我们在追求泛化 。
嗯 。
然后但是企业内部的无论数据库 、 网络 、 呃 , 交易系统本身来讲是一个封闭体系的
那么大的口子 , 那对安全的这个要求 , 我觉得我的天 , 就是我会觉得就是这波 ,因为今年其实讨论 AI 泛安全的问题也特别的多 , 就是无论是大模型本身带来的各种各样的问题 , 还是因为模型跟传统企业之间的业务结合产生的新的安全的问题 , 这个议题似乎也不小 。
是吧 。
你们就是作为这个这个这个算真正意义上在一线 , 比如说未来你工作想找什么方向吗 ?
就是可能啊 ,也也差不多是做 。
这个大的 。
对 , 做大模型的安全之类的可能 。
这个事情在国内目前是大概什么样的状态 ?
就是我在学校就是接触到 , 就是现在很多特别新颖的就是科研成果 , 就是都是呃 。
这个叫安全 。
对 , 大模型安全 , 或者说语音模态啊 , 那个那个啊 ,其他多模态的那个安全相关的很多很多 。
而且这个看上去这个问题也没有收敛到一个有比较明确的几件事情的这个状态里 , 它还是一个很宽的 。
对 , 它现在还就是感感觉是在快速的发展这个阶段 。 对 。
你们你你一直是做编程 , 然后今天实验其实你已经在你已经在干活了 , 对吧 ?
对 。
你觉得因为你还在一个银行 , 我觉得是最双引号保守 , 最当然它它它保守是有原因的嘛 , 对吧 ?
对 。
那但是今天 AI 来之后, 似乎对这个冲击也蛮大的 , 我觉得 。
呃 , 就是我觉得我那边还算是稍微接受度高一点的公司啊 , 就是他们也已经就是在内部使用 AI 去编程了 ,但是他们的需求就是有点 , 我本来是个后端工程师进去的 , 然后我现在 。
全都要做 。
我现在变成了一个 Java 也会 ,C++ 也会 , 呃 ,React 也会 , 就是有点变成全栈了 。 然后确实你通过 AI, 你只需要去描述你相关的需求 , 你只要能把它运行起来 , 你就能去实现这么个功能 。
那这个对未来有什么想法吗 ? 或者说想学一些什么新的东西吗 ?
呃 , 我我其实对我自己的未来非常的非常的模糊啊 。
嗯 。
就是没有一个固定的方向 , 就是还是在摸索啊 。
嗯 。 我我听说你们员工里是有很多原来参加比赛的这个这个学生进来的 。
对 。
嗯 , 就是这个当时是怎么怎么 ,是机缘巧合还是就本来就有这个想法 ?
啊 ,因为其实我们的比赛的题目好多还是涉及到数据库内核的开发嘛 。
嗯 。
对吧 ? 所以呢 , 呃 , 所以呢 , 这个有一些他本来就是做数据库内核研发的同学 , 那他其实加入 OB 对他来讲往往可能就是一个最好的选择 。
是 。
对 , 当然了 ,OB 我们举办这个比赛啊 , 我们不全是为自己操劳的 ,而且我们最早 2010 年当时做这个 OB 的时候 , 当时其实国内根本就没有能写数据库 , 没有能写数据库的开发人员 。
哦 。
所以我们当时招人是挺难的 , 所以我们慢慢有一个想法说 , 哎 , 我们通过一些比赛 。
比赛的方式挑一挑 。
对 , 来去培养人才 。
培养人才 。
可能有些人就会来 。
跟这个当年 NBA, 刚才耐克跟阿迪主办这个小球小球员的比赛是一样的 , 就是先看一波 , 然后再说 , 对吧 ?
嗯 , 当然这个一般来讲参加 OB 的比赛的同学 ,他会比较喜欢来 OB,但是也不是每个都来 OB, 基本上是会分散在整个行业里面 。
就我们的比赛的含金量是比较高的 。
大家比较认 。
比较认 ,他只要能拿到好的成绩 , 最终基本上这个大厂的 offer 肯定是一点问题都没有的 ,而且基本上都是比较好的 offer。
那你像你像刚才我们聊过 , 你像今天这个时间点 , 无论是向量数据库 , 然后多模态 , 然后可能 online learning 还是 AI 模型能力的提升 , 对这一轮我们叫数据库人才的画像本身来讲是有一些变化 。
嗯 。
那这个变化似乎我们是能够感知到这个这个情况 。 那其他那些不是专门做这件事情的厂商 ,他们怎么看这个 , 或者他们怎么去评判这个事情呢 ?
呃 , 我觉得第一个对数据库人才画像 , 我觉得有变与不变 。
嗯哼 。
对 , 首先这个不变的东西还是原来有一些数据库的一些基本的理论呢 , 包括我要真的把这个 AI 用起来 ,是需要把这个需求的理解描述得很清楚 。
很清楚 。
对 , 这个东西对数据库的一些基础理论的一些培养啊 , 包括一些基础的 coding 的老手艺 , 学会了才能学新手艺 , 这个东西是一定的 。
然后这个东西完了之后呢 , 可能确实需要这个研发数据库的同学 , 数据库虽然它是软件里面最核心的一个这种基础软件 。
对 。
但是也一定不要固步自封 , 要比较开放 。
开放 。
比较开放的去有好奇心的去接受新的一些东西嘛 。
明白 。 我问你们两个 , 就是因为这个比赛是你们参加过一届就不能再参加了 , 对吧 ?
嗯 。
但是你们的比如说师弟师妹们会有可能再再参加 , 就是你对这些比如说比你们小一点的 , 哪怕是刚刚入学的学生 ,有没有什么想跟他们说 , 或者建议也好 , 或者说想给他们提提醒 , 或者是避免一些弯路之类的 ?
嗯 , 我先说吧 , 就是嗯 , 就是我觉得如果学计算机的话 , 你就啊 , 就是要自己去多多探索 。
探索 。
对 。
就就像今天很多人会说 , 或者很多家长会被教育是说 ,在这个 AI 的能力条件下, 就不应该让孩子学计算机了 , 尤其不应该学 coding。
你怎么看这件事情 ?
嗯 , 就是你你学不学 coding 是一回事 ,但是你得去 。
了解 。
慢慢的去接触一些新东西 , 就是你你你肯定得跟得跟得跟时代去接轨 ,不然的话是肯定这样子肯定不行的 。
对 。
你当时为什么选择这个专业呢 ?
啊 , 我选择安全专业 。 啊 , 这个哈哈 , 我选择安全专业其实啊 ,是是因为嗯 , 就是
就是刚好到了 , 就就所以就来了 。
OK,也没想那么多当时 。
对对对对 。
OK, 那再对比如说如果你有实力 , 身边有想参加下一明年的比赛 , 你对咱们会有什么建议帮助 ?
就是这个比赛周期大概有两个月左右 , 所以就是你中间可能会遇到各种各样的挫折 , 你可能会因此就是感觉到很挫败 , 就是可能你的性能没有提升 , 你可能你的效果不好 ,但你在这个路上你就要一定要坚持下去 , 你就坚持走到最后, 然后你你不管结果怎么样 , 你反正你就自己是感觉到不会后悔的 。
对 。
呃 , 我说一句话吧 , 那虽然现在不太合适啊 , 我想说代码始终是人写的 , 就是你只要用心去看 , 迟早是能看懂的 ,但现在 AI 写的代码是是有点多 。
哈哈哈 ,而且越来越多看起来 。
嗯 ,但是它始终是有逻辑可以寻找的 。
你是之前一直参加 ACM 的比赛 ?
呃 , 我就本科的期间是一直有参加 。
你是本科学什么 ?
也我本科计算机的 。
然后研究生是 ?
大数据 。
哦 。
就是现在有很多这种用 AI 用得好的一些人, 包括我们团队内部的人呢 , 都是那些原来这个写代码写得比较好的 leader。
哦 。
对 ,他并不是说 , 哎 , 我没有写过代码 , 我最后就把 AI 能用到 。
凭空的 。
不是的 , 对 ,因为写代码就是我觉得写代码这个过程 , 从这个高效的角度是应该去培养的 ,因为即使 AI 能写 ,但是呢 , 你没有经过这个过程 , 学生他是不会有那个逻辑的能力的 。
嗯 。
就写写代码是最好的训练逻辑能力的一种方式 。 包括你一参加 ACM, 对吧 ?
嗯 。
那个东西就是怎么确保写出来代码又快 , 又能保证它永远是正确的 。 就这个东西 , 它不仅仅说是这是一项技能 , 它更多是锻炼的一些能力 。
对 。
这个很重要 。
所以那似乎就是当然这可能都是偏正 , 那你们会不会有些什么担心呢 ? 或者说在过程中遇到哪些坎 , 觉得真的过不太去了 , 无论是这次比赛过程中, 还是比如跟 AI 的结合过程中这些事情 。
嗯 , 我感觉啊 , 和和 AI 结合 , 就是我现在感觉 AI 的能力就是越来越强大了 。
嗯 , 当然 。
然后对 , 然后就是说可能你给他直接提一个需求 ,他可能就已经做得已经很好了 , 就是对于我们现在学生角度来说 。
对 。
嗯 。
因为北欧是一个 ,因为你是北欧 , 北欧已经是我们在整个互联网领域是最先锋意志的代表的一个学校 。 就是我我我不太确定你们比如学校内部对这种 AI 的看法 , 或者比如他们从一些对学生的要求或者实施或者建议上有什么变化 。
对 ,他他我们学校也是比较支持学生就是使用 AI 的 , 就是 AI 确实是能很大幅度的提高我们整个 。
那在日常教育中有什么实际的这个变化吗 ?
呃 ,因为因为我已经就是已经不在课堂上听过了 。
你年二了 , 对吧 ?
对对对 , 所以我这这块不太了解 。
因为我听说之前有哪个学校是给学生发算力的 。
哦 , 对 , 我们我们学校有算力中心 , 我们可以用学校的那个算力 。
但用的多吗 ? 就用的人多吗 ?
这个应该挺多的 , 对 。
那北欧可能还是一个比较特殊的 ,但是我上次听的是另外一种高校 , 就是校长说我发了那么多 ,但是就很少人用 ,他很担心 ,因为那已经是中国最好的学校了 ,但还是觉得这个比例不够不够高 , 所以他他在表达这个这个这个 ,但北欧确实不太一样的 。
那你们呢 ? 在过程中 。
嗯 , 我感觉就是确实吧 , 现在 AI 真的很夸张 , 我们答辩那个 PPT 甚至只是对我们把我们那个思路说给 AI 听 , 然后让它生成一个文档 , 然后再把这个文档丢过去 , 它生成那个那个 PPT, 它那几张图我觉得是我这辈子都画不出来的 。
真的哈 。 这个多想一下, 就我是常年就是你们代码很强的 , 你们是手抠的传统手艺人的代码的手艺 , 我是传统的手艺的 PPT 的手抠的手艺人。
有些现在 PPT 能力真的就是我会觉得我们这种真正还在坚持手抠做 PPT 的人真的快成非遗了 。 因为尤其这轮 Gemini 3 的 Nano Banana 出来之后, 尤其这就像你刚才说的那个 , 就跟我们最开始讲的是一模一样的 , 就是它不是画一张图 。
嗯 。
不是帮你做的 , 它的问题在于你给它讲了一个逻辑 , 它帮你把这个逻辑的可视化做得符合你讲的逻辑 。
就这个能力是一个我我就是本质上来讲 ,PPT 很多时候做的工作其实是一个排版的工作 , 它不是一个创作功能 , 它是个排版 。
排版就是说我要 123 金字塔什么 , 对吧 ? 它是一个那样的东西 , 那个东西是个可视化 , 它是有逻辑 ,有框架 ,有跟你内容匹配的 , 它的核心是那个 ,不是帮你画一张花 , 画一个草 ,不是那个 。
但你想今天 AI 能力是基于文本 、 多模态 、 可视化表达 、 逻辑框架帮你做出来 , 你真的会觉得我可能一辈子也做不出那样 。
然后我们这些非遗的坚守 , 最后那个手抠的真的越来我原来是真的非常坚持 , 每一页我都是要自己就对齐 , 找字体 、 标号 、 涂色 、 配色 , 全部都是一点点摁出来的 。
但是今天我因为我每大概两三个月会做一次 PPT 整 , 我最近在做的这一次里面就里面出现大量的 AI 做的配图 ,因为就是它真的就是又快又好又准 , 就是就跟代码的发展是一模一样的 。
所以就是人类在坚守的那个东西变得空间越来越小了 , 就越来越被挤压了 , 这个感觉非常的非常的强烈 , 就是代码是一层 , 然后今天我发现 PPT 这个战场也守不住了 。
嗯 。
对 , 然后我看我们今天聊到最后, 聊到一些这个这个我们聊的更更更发散一些问题啊 ,因为对 26 年有什么期待吗 ?
2026展望1:03:52
比如说你们作为一家开源数据公司 ,在当下这个时间点 ,在 AI 模型发展到今天时间 , 数据被提升到史无前例的高度情况下, 比如对 26 年有什么期待 , 无论是你们自己还是对业界还是对技术发展都可以 。
嗯 , 我觉得 26 年首先我还是比较相信这个 AI agent 它是会再进一步爆发的 。
嗯 。
那基于这个 AI agent 进一步爆发 , 它会把这 AI 能力真的在企业里面 , 它的业务流程里面去用起来 。
对 , 那所以在这样的一个趋势之下的话 , 我觉得不管是对 OB 还是对业界 , 我们肯定希望说我们真的能够探索出一条数据跟模型结合的一条路来 。
对 。
对 ,并且通过产品化能沉淀到产品 , 沉淀到系统 , 啊 , 帮助我们的企业真的去把这件事情给通通 。
嗯 。
对 , 然后这样子的话 , 只要 26 年通通了 , 那未来几年它可能它就会进一步去做复制 。
对 , 然后这个就就我顺延 ,因为 agent 也是 25 年一个很核心的一个关键词 。
嗯嗯 。
然后又因为大家会说 agent 要做规划 、 执行 、 呃 , 数据使用 , 然后到结果反馈这样一个过程 。 然后又因为我们从大语言的模型 , 从语言到 agent 的行为 。
嗯嗯 。
这个跨越过程中你会发现 , 呃 , 上一个阶段似乎只是模型公司的事情 。
嗯嗯 。
但是到了一阵你发现这个事情变得异常的复杂 。
对 。
因为它要跟外界环境产生交互 , 要跟数据打通 。
嗯 。
无论是企业的私有数据还是要有数据库的权限 。
嗯 。
要各种乱七八糟的东西 。 就这个事情看上去它就不可能是一个快的事情 。
嗯 。
因为上一个代的事情 , 它本身就是一个堆算力 , 理论上差不多就可以搞定的事情 。
对对 。
但是到这个似乎就是大家会说 25 年 agent 元年, 但也有人会说这个元年可能会元五次到十次 。
嗯 。
就是每年都是元年 。
嗯 。
你怎么看这个这个这个这个角度的 ?
它就我觉得两类吧 , 就一类 agent, 大模型它一定是快的 。
对 。
因为它本质上它是一个完全通用的 。
是的是的 。
技术带来的一个通用能力 , 对吧 ?Agent 它分两类 , 一类是那种通用的 agent, 通用的 agent 现在不都是说一年增长十倍吗 ?
对吧 ? 那个东西就是很快的 , 那个东西它是一类新的创新 , 那还有一类是你要把这个 agent 跟这个企业的业务流程结合在一起 , 这个东西它一定是是一个比较要长周期的一个过程 。
那这个时候就需要底层的这个数据类的系统啊 , 这个模型的一个整个的应付的能力 , 合在一起让企业去用起来 , 形成解决方案 , 形成标准 。
它这个东西它不会特别快 ,但是也不会慢 。 它可能说这个有点像我们做 2B 跟 2C 的一个区别 , 如果你能完全通用化 , 你本质上是一个 2C 的逻辑 。
2C 的逻辑 。
你不能通用化 , 你是个 2B 的逻辑 。 但是有了 AI 之后呢 , 比如说原来的 2B, 它的增长速度假如是 20%,有了 AI 可能会变成 30%、40%,但是它不会说变成 200%。
所以也是快的 ,因为 2B 的特点在于说它能让这个 20% 呀 、40% 呀 , 它连续增长 20 年 。
嗯 。
2C 可能是两年, 对吧 ?
就结束到底 。
所以没关系 。
以你们的经验 , 比如在哪些行业看上去趋势会更好一些 ? 因为你们服务很多类型的客户 。
嗯 , 我觉得嗯 , 一个是场景 , 一个是行业 。
嗯哼 。
那场景的话 , 今天可能说在很多这种泛搜索呀 、 风控啊 ,在这种客服啊等等这些场景 , 应该来讲都是在一个这个有点像是在大规模要去采用的前期了 。
这是第一个 。
就你们是能感受到这个浪的来的状态 。
就可能说大家不一定能用好 ,但是大家想用 。
嗯 。
而且是有这个需求 , 很迫切 。
OK OK。
是那行业的话 , 那肯定也是一些相对来讲会啊大一点的行业吧 , 就是它可能有些高价值数据的行业 , 比如说是金融啊 、 医疗啊这些 , 相对来讲它本身它数据的价值就比较高 ,而且有很多是企业它自己的一些数据 , 那这些数据它这个能跟它的业务也能结合得比较好 , 能产生一个特别好的 ROI, 所以它一定是会先爆发起来的 。
26 年有什么期待 ? 自己也好 ,其他也好 , 都可以 。
呃 , 我先说 , 我可能是想做一些有意思的事情 。
比如 ?
呃 , 比如说获得一份有意思的工作 , 或者是说 。
什么叫有意思的工作呢 ?
加入 OB 是吧 ?
对对对 , 跟绕老板的都聊聊 。
对 , 呃 , 呃 ,因为我的成分比较复杂嘛 , 我是个非全日制的学生 , 然后我是希望能直接进入公司 ,而不是通过实习之后再进入 。
啊 , 对 。
嗯 。
那你现在的工作是一个实习 , 偏实习性质的吗 ? 还是 。
不不 , 就是个正式的工作 。
哦 。
嗯 , 然后还有就是可能有点想成为一个独立开发者 , 就是自己做一些有意思的东西 。
小东西 。
对 , 我昨天听到一个很有意思的东西 , 就是说把你的手机呃 , 录制你今天一天的语音 , 然后它可以给你安排你的行程 。
你看现在不是那个有国国产有厂商做了一个那个挂在你胸前的摄像头吗 ?
哦 。
就是你正常眼镜里面还是要摁的嘛 , 你要你要自己主动的去 。 它那个就相当于它它有一套算法是说它可以记记录你一天的 ,因为它就挂在你胸口嘛 。
嗯 。
它看到就是你看到的所有 。
Notice 啊 。
对 , 它它相当于就记录你一天 , 然后它因为你一听就知道这个东西会有问题 , 对吧 ? 它甚至说你可以要求设置说所有数据在本地 ,在你的手机里跟你的电脑里 , 然后它能帮你做的事情是帮你分析 , 帮你画一张 , 比如今天一天你你来录制了 , 对吧 ?
你去吃饭了 , 你去写代码了 , 你去干嘛 , 你去见了人, 每天帮你生成一张小漫画 , 你可以把那个漫画比如分享到你社交媒体上 。
哦 。
就是是这样一个效果 。 然后听起来没什么用 , 对吧 ? 没什么用 ,但它就是个玩具嘛 , 然后又很新奇 , 很酷嘛 , 然后卖的还可以 , 朋友做的还可以 。
这个确实这个这个就是 AI 能力的这个带来的 。 我一直有个角度说 , 当然这个很多人都说 , 就说技术能力的提升一定会打开很多原来无趣没有用的场景 。
嗯 。
最开始可能看上去还是无趣的 , 还是没什么用的 ,但是它慢慢慢慢就会有点意思了 。 就 AI 这一步能力确实如此 。
然后这个这个 , 然后再再再也发现 ,因为昨天我刚从杭州来 , 昨天杭州在办那个一个一个朋友办的马拉松 , 黑色马拉松 , 现场估计有七七十到八十个队伍 , 非常大 , 然后两天的时间 。
然后我就开玩笑 , 我说这个只有在技术爆发的时候才会有马拉松这种东西 , 只有在技术没有稳定的时候才会有这种东西 , 让大家以无限的想法把一个发散的 idea 做成一个小东西 ,在很短的时间里 。AI 这一波非常明显 。
嗯 。
那当然银河互联网也是 ,但银河互联网稳定之后这个东西就没有了 ,因为都是正规军了 , 都是流水线了 。
但是 AI 这波来了 , 似乎这个机会变得更多了 。
对对 。 啊 , 那我从就是从学校角度来来说吧 , 就是做科研的时候 , 就是要写论文 , 就是我期待就是 。
AI for Science。
对 , 哈哈哈 。
AI for Science, 就是 AI 现在已经能有能力去帮我读论文了 。
嗯 。
然后但是它可能写的可能还不是特别严谨 。
对 。
我就期待可能在新的一年中 AI。 哦 , 我我另外一个细的 , 比如说你们你是学密码学的吗 ? 就是你更研究的系统方向是 , 比如今天时间最前沿的密码学的这些科研的方向在研究什么 ?
嗯 , 就是我我接触到的就是我们研究的密码学 , 就是做啊 , 传统态的加密 , 就是在啊 , 加密的数据上进行运算 , 然后得然后解密得到正确结果 , 做这这一类操作 。
我都快听不懂这些东西了 。
哈哈哈 。
OK, 然后那就差不多 。 然后最后比如说这个这个 , 呃 , 我们硬拉 , 我觉得拉高度也没有什么意义啊 , 就是比如说今天这个时间点 , 呃 , 问一个更我觉得更个人的问题 , 比如说 26 年你期待无论是在你们工作过程中, 还是你们在做的事情 ,有一个什么样的里程碑 , 会有什么样的变化吗 ?
嗯 。
一个小的小点也可以 。
OB 的话 , 我觉得 26 年我们最大的一个期望 , 或者说我自己会亲自去做的一件事情 , 我觉得肯定是怎么把 OB 的开源生态变成一个全球性的生态 。
嗯 。
现在我觉得 OB 在中国还算是一个最主流的产品 ,但是呢 , 离全球知名还是有很大的差距 。
现在这个这个全球最知名的是谁 ?
数据库领域全球知名的可能就是什么 MySQL 啊 、PostgreSQL 啊这些 。
但开源呢 ?
对 ,他们就开源 。
啊 ,他们也开源 。OK。
对对 , 就一般来讲 , 数据库领域做的最好的 , 除了 Oracle 以外, 还有大部分都是开源的 。
哈哈哈 。 那 Oracle 心不在此了 ,他现在太麻烦了 ,不要 ,他已经没有心思搞这些事情了 。
对 。
不用担心他了 。
嗯 。
有什么 26 年想期待或者想达成的事情吗 ? 一个小事情也可以 。
哈哈哈 。
生活上也可以 , 结个婚啊 , 找个女朋友都可以 。
呃 , 我可能就是随遇而安吧 。
OK, 什么星座你叫 ?
天秤 。
什么什么 MBTI 呢 ?
呃 , 我没有测过 。
哦 , 好啊 。
嗯 。 对于我的话 , 就是可能成为一个开源社区的 commuter, 可能对我来说是今年想要做的事情 。
之前有过积累跟 。
就我之前就我们队长是阿帕奇的 commuter, 我想向他学习 , 就是也想成为一个比较隆隆重的一个开源社区的 commuter。
看这帮年轻人的这个这个状态还是很很让人羡慕的哈 。 我们这些中年老的已经被踢在沙滩上了 ,也很很有很很有感触是说 , 呃 , 数据库原来是一个听起来有些传统 ,有些古典的一个事情 ,但是 AI 这波来了之后, 似乎让这件事情往前面走了很多步 ,而且看上去很多今天这个时间我们能够拿到这一轮 AI 模型能力的巨大提升的很核心的原因 ,是因
为这些做数据的人的努力 , 让这个事情走到了一个让全人类能够面对一个技术浪潮的状态 。 所以只能说很感谢这个时代 ,也感谢 AI。
结语1:13:49
对 , 然后也感谢今天的所有听我播客的听众 , 今天的通融之书到此结束 , 再次感谢几位 , 谢谢 。
嗯 。






