开场0:00
Hello 大家好 , 我是明浩 , 屠龙之术的主播 ,也是今天 《 赛博赶海 》 的串台主播 。 对 , 然后今天非常有幸邀请到两位嘉宾 , 聊一聊现在这个时间点可能很热门的一个话题 。
当然我觉得今天的节目可能跟大家最近一段时间频繁听到的很多节目的切入角度有不太一样的角度 。
我们可能更多会集中在偏数据这一层面去解读最近一段时间 AI 行业最热的话题 , 关于 Agent 跟龙虾的这个议题 。
然后要不我们今天先请两位嘉宾做个简单的自我介绍 ?
OK, 好的 。 我先做一个自我介绍 : 我姓刘 , 刘华阳 , 然后是一家企业的数据库架构师 ,也是这家企业的数据库部门的负责人。
戴老师 ?
大家好 , 我是戴涛 , 目前在 OceanBase 负责 AI 相关的解决方案 。
对 , 听到两位老师的这个背景 , 大家应该知道我们可能会集中在探讨 AI 这种泛滥的 , 今天尤其是 26 年初这个时间点 , 突然带来的新一波浪潮所引发的对于数据的讨论 。
那先问几个这个小问题 , 比如说两位老师都养自己的这个 OpenClaw 了吗 ? 或者说这个有什么在过程中遇到的比较有意思的事情 , 无论是你们的 , 还是你们听到的 , 还是你们朋友的 , 都可以 。
企业落地1:20
OK, 好的 。 那我先来哈 。 嗯 , 作为这个企业里边的一个 , 作为服务数据库的一个部门或者是一个机构 , 嗯 ,其实我们对这个 OpenClaw 的这个产品是有一些看法的 。
嗯哼 , 我们先不说养不养它 , 就是在这个整体的 OpenClaw 的这个设计当中 ,其实在企业的落地里边 , 我们觉得可能会有一些问题 。
嗯 , 对 , 尤其是在呃数据的这一块 。
对 , 所以今天会聊这个问题 , 会我们做比较多的延展在这个事情上 。
对 , 然后嗯 , 主要是数据库 ,其实还是要说到老本行哈 , 就是数据库 。 我这三句话离不开数据库 , 就是啊 , 无论是 AI 还是 Agent, 嗯哼 , 我们都是要有数据的 。
当然 。
没有数据的话是不能做这些事情的 。
是的 。
那么现在 OpenClaw 的一个最大的争议的地方 , 就是它对使用数据的一个啊范畴与安全性的一些问题啊 , 这是我们可能待会要深入去说的 。
是的 。
啊 , 这个部分 , 那其实我们特别想的是说 , 就是 OK, 现在养龙虾的人都是人 ,而不是企业 。
是的 。
就是我们为什么会很少听到哎 , 某某大企业去集体养龙虾 。
对 。
这个事情 ,因为 OpenClaw 的在数据端 , 呃 , 尤其数据库这个方面 , 它可能有很多的缺失 ,因为它是这个开源的软件 。
是的 ,而且是一个人做的 。
对 , 所以说其实我们 , 就是我作为一个企业的数据库负责人, 我其实特别想这个跟我们的戴老师去今天多多沟通一下, 多多学习一下, 就是您觉得就是 OpenClaw 的这一部分 , 比如说在数据库端 , 呃 , 如果我们企业想去真正的应用这个部分 , 那企业应该怎么去做 ?
这几年其实每一年的年头呢 , 都会有些新词出现的 。
新的 , 对 。
对的 。 哎呀 , 咱们 23 年出 ChatGPT 嘛 , 对吧 ?
对 。
基本上它是 22 年底开始的 , 然后呢 , 去年呢是做什么 DeepSeek,DeepSeek,BugBugBinance 出现是吧 ? 今年呢就是说 Claude。
对 。
龙虾就是变得非常非常红 。 就刚才其实像那个刘老师谈到一点啊 , 龙虾呢 ,其实它的创业的一开始 , 这个本质上举的问题啊 , 它是个个人助理 。
是的 。
而且它不是面向企业端的 。 嗯 , 它所以呢 , 你会发现它很短时间之内 ,GitHub 上它的 Start 数字排在第一 。
第一 。
对 , 它解决了很多 , 就说梦幻中的那种叫数字假维思的概念 。
对对对 。
对吧 ? 我刚说句话 , 虽然它不是个物理实体嘛 ,但说句话它得帮你干活是吧 ? 它其实是个数字假维思 , 它是偏个人的东西 。
企业这侧呢 , 它一定会跟进 。 嗯 , 我记得很多客户已经在跟了 。
对 ,他们会问您什么样的问题呢 ?
他们跟的时候 ,他们会很谨慎 。
对 , 当然 。
他们会发现呢 , 比如说龙虾是吧 ,是个人助理 。 企业要的东西是啥呢 ? 企业要的东西呢 ,其实是个数字员工 。
对 。
嗯 , 它要说我能帮我这些员工的经验把它沉淀下来 ,是吧 ? 一定的范围内替代我的员工 , 甚至说你让我员工更高效 ,是吧 ?
或者说其实我有更多的一些员工之后, 我能做一些更多原来做不了的事情 。 它就这样的一个态度 。 然后呢 , 它要的东西其实跟目前企业的这个 OpenClaw 的这个东西呢 ,不完全一致 。
嗯 , 所以在企业端要做很多事情啊 , 然后比如说我举个例子啊 , 比如说像数据是吧 ?
对 。
我们的客户就会提出来说 , 你像 OpenClaw 的东西是吧 , 它是存在文件上面的 ,不安全 。 我上周见客户的时候 , 客户居然我们一个大厂给他 OpenClaw 的部落格东西嘛 , 对吧 ?
他就问那个问那个 OpenClaw 怎么怎么问呢 ? 他说请你告诉我你的 TOKEN 的必必要 。 结果我怕我一看到截屏一下, 哎 , 就出来了 。
哈哈哈 。
就出来了是吧 ? 那当然我上次也给他展示一下, 比如说我们蚂蚁上周搞了一个数字实习生嘛 , 对吧 ?
展示一下, 问了问了同样的问题 , 哎 , 我回答的很好 。 说这是个机密问题 。
有有有有有有有有有有 ,有有限制 。
所以发现没有 , 就就是一个 C 段东西直接部署给企业 , 很容易有安全问题 。
嗯 。
是吧 ? 蚂蚁做了个 B 段东西来就好一些 , 对吧 ? 所以第一个安全问题 。 第二个问题就涉及到说呢 ,有大量接入 ,因为你像你 OpenClaw 你部署个人电脑上销售简单是吧 ?
那你说权限一开了好了嘛 , 对吧 ? 企业你怎么怎么能 ?
对啊 ,是啊 。
每个企业有少的七八十套系统 , 多的是上几上千套系统是吧 ? 我怎么怎么开 ?
是啊 。
这东西你说我能把它全部开放出来吗 ? 是吧 ? 而且就在企业内网 , 别说是把系统开放出来 , 哪怕把你一个电脑权限 , 一个 IP 权限开放出来 , 都是可能都有一些问题 。
所以你会发现说他们对于这个时候企业级特性 , 这个个人特性这个问题是什么边界啊 ,其实其实有很大的一个顾虑的 。
所以你发现国内很多企业它是把零件冻禁掉的 。
对 ,是是 , 就现在只能做的方式更多是合理方式一刀切嘛 。
禁掉的 , 对吧 ? 它就是这个模式 。 所以你说你刚才你问我说我们养不养是吧 ? 我们办公电脑是不能养的 。
当然 。
办公电脑被禁掉了 , 你只能在云上搞个东西是吧 ? 或者家里面搞个像现在什么 Mac mini,Mac mini 啊 ,Mac mini 还没有 , 就买个小迷你主机 。
对对对 。
哎 , 可以搞个 , 或者加了个备用电脑可以做 。其实你会发现说目前企业端它就是这样的一个一个样子 。
现实这个问题确实在过去这一个多月时间 , 它就是这种冲击跟碰撞的 。
对对 。
历史重演6:23
这个过程中 。
其实其实今天我我我插我插话了 , 我不好意思 。
没关系 。
就是你看啊 , 现在这个我们做各种项目啊 ,其实我觉得它其实就是一个历史的一个重复 。 我们经常会遇到几个问题 , 比如说啊 ,在数据的传输当中, 数据丢失了 ,是很有可能的 。
就说比如说我们在清洗数据 , 或者在数据传输当中由于某些原因 , 数据可能缺少了 。 嗯 , 或者是比如说在数据的传输当中, 数据传输不及时, 然后导致我们最后汇总到大数据里的数据可能是不正确的 。
那么我们可能还要再去重新的传输 , 重新的清洗 。 当时大家都特别欣喜大数据来了 , 然后又特别期盼大数据来了 , 然后大家后面又特别恨这个东西 ,因为太难用了 。
然后但是到了现在 , 就是大家可能会很少再提这个事情 。 因为为什么 ? 因为可能现在大数据的解决方案里边有单一的 , 或者是只有几种数据库的存在 , 就是相当于它的整体的架构变得简单了 。
那其实我特别想问 , 就是现在就是 AI 特别热 , 大家都特别想进入到这个里边 , 企业也非常想进入到里面 , 降本增效是不是 ?
我就特别害怕 , 就是回到大数据那里边的问题 , 就是我们的这些 AI 的产品里 , 比如说现在又引入了适量数据库 。
嗯 , 包括我们的 , 比如说可能把声音把图像再转成 , 对 , 转成这种 , 比如说那个 PINCORE 这些这些产品 , 就产品又太多了 。
然后这里呢 , 最后呢 , 我们需要把这东西又进行 RG, 然后再喂给我们的大模型 。 那这里可能是不是又会出现像我们大数据里边的 , 比如说数据缺失啊 , 数据不准确 , 数据一致性的问题等等等等。
而且还有一个特别让人头疼的问题 ,是大数据曾经遇到问题 , 就是成本的问题 。 我这存一份 , 那存一份 , 还要存一份副本 , 大数据里边又要存一份 , 可能 ETL 的软件里边又要存一份 , 然后这个成本居高不下, 就是单位有的时候上完这以后叫苦连天 。
看刘老师问了一个非常好的问题啊 ,其实这个问题呢 , 你发现了就 IT 这几十年以来啊 ,其实会不断重演一些循环反复一些故事 。
嗯 , 比刚才刘老师问的问题的核心点在什么呢 ? 其实说你会发现呢 , 新的这个技术浪潮出来之后, 企业里面会形成新的一些数据孤岛 。
嗯 , 然后甚至说不因为不同的技术站嘛 。
对 。
不同数据隔离嘛 , 对吧 ? 核心其实是这个问题 。 嗯 , 所以你发现了就是都是先就说一开始新技术出来是吧 , 百花争鸣 。
嗯 , 然后的话说慢慢会觉得是需要治理 ,因为刚才刘老师说了不舒服是吧 , 用的不好 。
是的 。
就要治理 , 比如像前几年像我们有些名词嘛 , 像业务中台这概念是吧 , 就是协图相冲 , 就是治理的角度上去处理的问题 。
现在 AI 的话说也是非常非常明显的 。 嗯 , 我举个例子 , 比如说咱们基本上 24 年左右国内开始谈 RIG 嘛 。
嗯 ,RIG。
看 Agent 开发嘛 , 对吧 ?
对 。
你发现其实你看就两年左右时间 , 企业里面就引入了很多套 Agent,有开源的 , 嗯 , 开源不同版本的 。
对 。
不同开源厂商的 ,是吧 ? 商业化的 。
是的 。
然后那个 RIG 也一样 。 所以刚刚是技术初期跑起来的时候呢 , 问题不大 , 你会尝鲜嘛 。
对 。
因为技术里面它有一个说现在这个成熟曲线嘛 , 作为那种说刚开始是接着上一阶段这个新技术理念的人是吧 ,是没问题的 。
但是呢 , 真正的企业里面大量的受众 ,其实是需要这个技术相对成熟以后 。
对 。
它才它有更有收益的是吧 ? 所以你会发现说我们现在客户已经提出来了 , 你说 AI 两年一年是吧 ?
对 。
从不造轮子 。 所以他们也会会提出也有些治理的概念 。 虽然这个这个名词不完全正确啊 ,但是我觉得有些思路给抛出来啊 , 比如说他们提出来要构建 AI 中台 。
嗯 。
但这个中台是不是业务中台是不是中台不一定啊 ? 但是意味着什么呢 ? 它系统是从从基础上统一各种的一些调用 , 各种各种能力 。
嗯 。
比如我刚刚举个例子是吧 , 我现在企业里面每做一个应用里面一个 AI 这里的应用 , 那里面自带的一套 Agent 框架 。
嗯 。
怎么维护呢 ? 每个 Agent 框架里面底下数据库也不一样是吧 ?
是的 。
技术也不一样 。 所以呢 , 如果说有一套中台是吧 , 它可能不是业务实体的 ,但说也这种偏技术中台这种东西是吧 , 偏 AI 的一些能力的 , 比如说怎么切片 , 怎么统一存储 , 怎么怎么搜索 , 包括怎么做整体编排是吧 , 包括像像做小龙虾是吧 , 统一小龙虾的这种调度是吧 。
嗯 。
统一搞出来是吧 , 这对企业来说特别很有价值是吧 。 所以我说这第一个概念说呢 , 这企业发现了它要说要做的东西 ,但最后最后形成结果呢 , 未必是 AI 中台 。
嗯 。
但是我说统一技术站 , 减少这种说技术上的这种说叫这种多技术站 , 引来的这种技术架构的复杂度嘛 , 对吧 ?
嗯 。
第二点呢 ,其实刚才其实刘老师也谈到 , 就说什么点呢 ? 数据 ,因为你想你统一技术站之后呢 , 你原来是因为多技术站造成的说是数据它也不是统一的 。
对 。
那你发现 AI 时代之后是吧 ,其实我们的经历就从原来原来程序开发是什么模式 , 先看需求 。
嗯 。
需求之后呢 , 做面向对象设计 , 然后呢 , 做表设计 ,也是说开发模式是吧 ?
嗯 。
现在你想说我们未来开发模式是啥 ? 我给 Agent 是吧 , 我给外部 coding, 我给他个需求 。
需求直接结果了 。
我管他怎么实现 , 怎么实现吗 ? 我管他这个面向对象怎么做吗 ? 当然大系统核心就不行 。
对 。
但是你说一个千能级系统是吧 , 业务团队大量千能级系统 , 它不需要这么多东西 。 那这时候你发现说它需要什么 ?
它需要说是一个能支持它敏捷快速变化的这样东西 , 能把我企业里面各种稀奇古怪的数据是吧 , 全部存起来 。
对 。
而且话说呢 , 能支持我实时访问 , 支持我一些这种轻量级分析是吧 , 支持刚才说那种向量分析 , 各种这种花式东西是吧 。
所以你会发现呢 , 对于客户用户而言 , 如果你要结合 Agent 开发或者 Web 开发这种概念之后啊 , 你会发现呢 , 未来的这种数据形态呢 , 它会变成说对企业而言就是个统一大数据湖库的概念 。
对 。
对吧 ? 各种数据 , 多模态数据 。
嗯 。
统一存储 。
嗯 。
各种负载 。
嗯 。
我管点 TPIP 向量是吧 。
是 。
统一处理 。
对 。
是吧 ? 而且呢 , 各种那种图像图文音视嘛 , 图像文本音视数据是吧 , 你不要还考虑说文件什么文件系统啥的 , 统一给我是吧 , 我来帮你处理 , 我来帮你存储 。
嗯 。
那对于未来呢 , 就非常有帮助 。 企业现在已经发现这个问题了 ,他们试图去做一些治理 ,而且也提了很多新的想法 , 比如统一数据底座 。
对 。
比如像 AI 中台的概念是吧 。
嗯 。
而且其实像我们这个产品厂商其实也在往这方面一些努力 ,也试图说其实通过一些更好的技术方向方向情况下, 能在我们看得见的未来的这种 3-5 年里面是吧 , 更好地支持这个目前这一波 AI 时代的发展 。
嗯 。
大概这样 。
数据为王13:03
就是今天这个时间点 , 大家都说未来这一波发展三个要素 , 算法 、 算率跟数据 。 似乎在这个时间点 , 如果我们只看过去这一段时间 , 跟未来短期内来说 , 这三个要素里面对今天这个时间点业界发展边际影响更大的应该是数据这一项 。
这我来我来提一下吧 ,因为刚才你说三个话题嘛 , 对吧 ?
对 。
因为今天正好今天是 26 年嘛 , 对吧 ?
对 。
AI 出来正好是 56 年出来的 。
嗯 。
到到今年正好是 70 年 。
对 ,是的 。
AI 刚出来的时候呢 ,因为毛氏会议嘛 , 对吧 ? 它的核心其实是算法 。
对 ,是算法 。
当时是研究各种算法是吧 ?
对对对 。
不管你是符号主义 、 连接主义 , 讲的是算法本身 。
是 。
然后呢 , 什么时候发现注重这个算力呢 ?
嗯哼 。
80 年代英特尔 CPU。
嗯 。
报告说 99 年英伟达 CPU,是吧 ?
嗯 。
你会发现你需要一些新的一些算力解决问题是吧 ?
嗯 。
但是你会发现这时代里面数据变得很重要 。
嗯 。
一个标志性的一个一个里程碑就是李飞飞去搞他的 ,他有个 ImageNet,因为有了 ImageNet 才有新盾 。
做那个两个 GPU 连在一起做那个 。
才有新盾搞出来现在的所谓的这些 。
对 。
这些就计算模式嘛 , 对吧 ?
对 。
才会有有了 Transformer 模型这个东西是吧 ?
对 ,是的 。
所以你发现呢 ,2010 年开始李飞飞去搞这个所谓的刚才说的 ImageNet 嘛 。
对 。
但但它仍然是在说偏研究领域 。
对 ,是的 。
偏这个说互联网产品领域的是吧 ?
是的 。
然后呢 , 对于企业而言呢 , 就刚才你谈到的 , 企业而言呢 , 就说因为去年还有个时间叫 DeepSeek 嘛 。
对 。
DeepSeek 解决了说这种超海量算力使用成本的问题 。
对 。
嗯 , 训练问题是吧 ? 这时你发现了其实我们对算法不是很焦虑了 。
对 。
我们对算力不是很焦虑了 。 那这种企业的焦虑点发生了 , 或者聚焦点什么 , 就是数据 。
嗯 。
所以你说现在 AI 的这三个角里面是吧 ?
对 。
现在就变成说你真的到企业应用来看 , 看数据 ,而且企业每家企业它的经营的最核心的东西 , 除了它的管理制度以外 ,在数据上面 。
对 。
所以现在这千万点之后就跟你谈到说为什么我要强调话题的时候 , 你发现呢 , 我们的很多企业它它动起来了 。
嗯 。
由于 DeepSeek 的推动 。
嗯哼 。
由于国内各种新品的推动是吧 ?
对 。
由于各种 Agent 推动之后它动起来了 ,而且发现说它的数据很有价值 。
嗯 。
不管是训练还是推理情况下是吧 , 或者说把企业数据 , 比如说能做一些更加智能化情况下, 都动起来了 。
所以我现在看得到这个趋势是很明显的 。
数据治理15:17
刚才戴老师那个这个话给我这个展开了我的思路哈 , 我又有一些新的想法了 。 就是我在想 , 就是 AI 是不是又能带火一段数据治理这么一个事情 。
因为现在 AI 要投喂数据 , 那么这些数据都是从企业来的 。 那么现在企业的数据的准确率是不是准确的 ?
那么我们的企业的数据散落在各种地方不行 。 对 。 然后我们其实实话实说 , 我们把它收集起来 , 我们对一些数据的准确度我们也不看去完全保证 。
那么我们如果把如果把这些不完全保证的数据喂给 AI, 让 AI 产生了一些结果 , 比如说像经常在网上看到的这个商库啊 、 商业数据啊 、 误操作啊这种事情 , 我觉得就就不太好了 。
当然这些可能是比较表面的 , 当然更深层次的 , 比如说我们通过 AI 来推演公司的未来的发展的一些模式 , 或者是推演公司发展的一些这个啊未来的数据 , 那这个推演错误了 , 那这个事情就大了 。
所以说我我现在就回到了这个事情 , 就是 OK, 外行看热闹 , 就是大家都在养龙虾 , 就是现在听说这个 60 岁的老太太都想去养龙虾 , 我觉得这些事情就有点有点这个有点这个失控了 。
但是我觉得企业现在不动 , 或者是动的非常的慢 ,其实有他们的考量 , 就是可能在 AI 的方面可能已经稍微的成熟了 ,在在企业应用里 。
但是数据的这块 , 数据的准确度 , 我们用什么去存这些数据 , 比如说我们有图形 、 视频等等等等这些 , 那这些应该怎么去处理 ?
因为现在的这个产品太多了 。 是的 。 那比如说就作为一个比如说数据库的负责人, 我不可能说我引入一个数据库 , 然后不经过测试这个这个这个长期的一种一种投入 , 然后就就把它弄进来 , 然后假如说它的版本有问题 , 或者它有 bug, 那这些都是对企业是毁灭性的 。
所以说就刚才像戴老师说的 , 就是我特别认同 , 就是架构一定要简单 ,不要说给我弄十个八个 , 就是什么矢量数据库 、 图数据库 , 然后 ES 就是哎呦那个那个成本高 , 咱不说 , 就是整体的 , 我觉得这个东西可能数据的处理上已经要失控 。
嗯嗯嗯 , 基本上是是这样的 。 因为刚才呃刘老师谈了几个观点啊 。
嗯 。
第一个就谈到其实是数据治理的问题啊 。 这个问题呢 , 我再给你拆拆来看一下 。其实它分成宏观 、 中观跟微观的视角 。
宏观视角呢 , 你会发现啊 ,其实去年咱们中国提出互联网加的概念之后啊 , 你发现其实说我们的顶级设计在搞什么高质量数据集 。
你发现高质量数据集的核心其实就解决是数据治理问题 。
嗯嗯 。
它要从国家规范上面是吧 , 包括说一些行业上面一些推的东西 ,因为只有高质量数据的只要数据质量是高的 , 你才能解决说你的这个训练推理是好的嘛 , 对吧 ?
对 。
这我说是宏观上的问题是吧 ? 其实国家已经动起来了 ,因为我们也会看一下一些国家课题上面 , 确实有些上面一些打的指引嘛 。
第二就属于是中观嘛 。
嗯 。
中观其实在企业这里 。
对 。
其实你发现呢 ,其实数据这个治理的话题呢 , 它不是一个新话题 。
嗯 。
很多年前就就在讲 。 但是呢 ,由于历史上是吧 , 各种原因 , 数据源头 , 各种什么问问题是吧 , 真正把它做好的呢 , 你发现不多 。
但是你发现这个问题呢 ,在 AI 时代呢 , 它就它会很要命 。
它放大了 。
必须我们得做好 。 它很要命是吧 ? 所以你会发现其实我们很多客户就提这个概念是吧 ? 它要做数据治理 , 就是它要需要什么工具是吧 ?
比如说我说数据治理有典型的几层嘛 , 统一的数据存储 。
嗯 。
统一的数据加工 。
嗯嗯 。
对吧 ? 还有一些比另外一些比较像血缘跟踪啊 , 各种一些数据工具 。
嗯 。
对 。 然后呢 , 你上面把数据服务暴露出来是吧 ?
嗯 。
所以你说可能说它是一个大平台 ,也可能是很多平台共同组合起来 , 然后呢 , 解决这个企业里面我说中观数据这个问题 。
它呢 , 可能不完全是某一个层单一层面能解决掉的 。
嗯 。
但是比较 OB 欧西北这边呢 , 像我们有一些像数据这里一些这个能力和经验是吧 ? 但我觉得大差不差能把这个图呢拼起来 。
然后我说在微观层面上呢 。
嗯 。
有可能企业呢 , 现在可能不是马上呢 , 我叫做企业数据治理 。
嗯嗯 。
因为因为企业它它跟人一样 , 它有性格 。 就是说呢 , 它可能是它是尝鲜型的 。 为啥呢 ? 因为老板想尝鲜是吧 ?
嗯 。
对 。 老板觉得说我现在先追 AI,因为我他怕错失嘛 。 然后这时候你说我先搞个一两年做数据治理 。
嗯 。
来不及 。
对 ,是的 。
但是我可以在一些局部上面是吧 ?
嗯 。
我在微观上面 , 比如说我现在这个某个域 , 你看你的生产域 、 营销域 。
嗯 。
销售域是吧 ? 或者说你在这个 IT 开发是吧 ?
嗯 。
某个域我先做起来 。
嗯 。
每个域我先做一些局部的一些 AI 东西 。 这话说成两不误 。 所以说你不是不做是吧 ? 你可以另外一条线再推 。
嗯 。
但是我另外你然后你可以单独一条线 , 我可以在一些局部上去做一些试点 。
嗯 。
其实我们自己发现 , 你说企业推 AI, 它截止大概你说先先从先走 0 到 1。
嗯 。
它总要走第一步嘛 , 对吧 ?
对 。
比如很多企业是 IT 是吧 ?
对 。
IT 搞知识库是吧 ? 或者营销 , 营销搞一个说 , 比如说这种说营销生图是吧 ? 生生文的东西是吧 ?
嗯 。
现在走第一步 , 走到第一步之后, 然后你然后你要走的是从 1 到 10。
嗯 。
那你要考虑到说我可能我在我的各个主要板块是吧 ? 我就铺点进去 , 搞点智能体啊 , 搞点知识库啊 , 搞点说真正这种说提效的东西是吧 ?
嗯 。
或者降本的东西 , 或者说我能增加收入的东西是吧 ? 做到第二步 。 第三步之后呢 ,有可能就要跟他说呢 , 结合 AI 中台 、 统一数据底座 , 或者结合数据治理是吧 ?
我做进一步推广 。
嗯 。
所以它它一定是这样一个迭代的一个过程 。
嗯嗯 。
所以我觉得这个事情呢 ,其实我觉得是一个自然规律 。
嗯 。
是吧 ? 咱们也也不着急是吧 ? 说呢 。
弄着呗 。
哈哈哈 。 虽然 AI 说发展很快 ,但是我说呢 , 伴随这个发展 , 它的企业信息化真正成熟的是有定周期的 。
嗯嗯 。
特别刚才说的像龙虾嘛 , 对吧 ? 我在说是需要点时间 , 然后让它成熟 。
向量之困21:15
对 。 然后我这边其实嗯 ,有一些同事 , 就是之前的同事 ,其实也问我们企业这个在 AI 方面有没有推进 。
然后他们发现一个问题 , 就是嗯 , 现在的数据库只要是加上向量 ,他们就说是 AI 数据库 。
支持 AI 的数据库 。
哈哈哈 。 这个这个我我作为一个数据库的这个这个从业快 20 年的这个人, 我不太认同这种概念 。 我觉得这是个综合类的这个产品 , 才能叫这个 AI 数据库 ,而不是说支持向量就叫 AI 数据库 。
现在是向量数据库 。
这个概念呢 ,其实我就说这是一个逢合怪 。
逢合怪 。
因为因为我说你得从时间上倒序来看啊 。
嗯 。
向量数据库不是说因为大模型出来之后 。
对 。
才出来的 。
是的是的 。
它其实十几年前就有的了 。其实 Web3 那一波的时候也在套这个 。
对 。
哦 。 它其实十多年前它就出来这个产品了 。
对 。
它其实解决的不完全是一个说大模型的问题 ,但它有它的价值 。 因为它把一个比如说因素数据嘛 , 对吧 ?
嗯 。
变成一个高位空间一个点 , 这样的话就将来在这个高位空间里面求找消失度嘛 , 对吧 ?
嗯 。
它解决这个问题 , 对吧 ?
对 。
但是为什么大模型出来之后呢 , 就发现呢 , 它就膨胀非常快 。
嗯 。
因为你发现说有模型之后是吧 , 我很多原因就开始出来的模型是大语言模型嘛 。
嗯 。
或者语音语 , 它会有一些语义 。 因为传统的言论搜索呢 ,其实是关键是搜索 。 它是一个 keywords 嘛 , 对吧 ?
对 。
这样一个搜索情况是吧 ? 所以你发现在大模型出来之后呢 , 它引入一个叫语义搜索概念 。
对 。
由于搜索之后的情况下呢 , 就会把这个所谓的向量数据库呢 , 就就就激活了 。 所以你发现向量数据库它有几个流派是吧 ?
纯向量的 、 关系加向量的 , 然后呢 , 就说 other 加向量的 。
嗯 。
然后我说这里面差异在在什么呢 ? 因为你发现其实你在做 , 特别你现在结合现在这种 web coding 啊 ,也好 , 龙虾也好 ,是吧 ?
你的很多一些需求 , 你让 AI 去做情况下是吧 ,其实你很难 。 它是一个跨领域需求 。
嗯 。
它不是说这个事情只有一个说一个向量需求 。
嗯 。
或者这个事情它只有一个说文本检索 。
嗯 。
你那个设计它以文本为主导嘛 , 对吧 ? 加向量 , 对吧 ? 你发现没有 , 它是一个多模态需求 。 你发现没有 , 就是说单纯的向量 , 或者说你原来数据库里面这个外挂啊 , 这种这种缝合怪啊 , 它解决不了它的它的核心的性的问题和价值问题 。
我觉得你还很有意思 , 就是就是现在很多企业还是在掉入缝合怪的一个状态 。 比如说像现在 , 就是我们的这个向量的数据在数据库里面 , 我们的标量的数据也在数据库里面 , 可能我们的一些音频啊 、 视频啊等等等的一些图形的数据都在各种各样的数据库里 。
所以我们现在就做了这样这样一条东西 , 我们内部的东西叫什么呢 ? 叫混合搜索 。
嗯 。
嗯 。
就前两天 Google Map 迎来了史上最大一次更新 。
嗯 。
它现在主打就是 Ask Maps。
嗯 。
它举的案例就是说 , 比如说我要就这附近找一个适合约会 。
嗯 。
宠物友好 , 人不太多 , 我马上就要去的一个什么样的东意大利餐厅 。
嗯 。
然后最好能提前预订 。 就是当然我们听到这个需求之后, 你还是可以用传统的关键词 tag 来去解 ,但似乎就这种需求 , 当它变成一个没有边界 , 没有办法用传统意义上的说关键词跟 tag 的方式去限定的时候 , 你还要给它结果 , 还要返回合适的方式的时候 , 那似乎对于比如像 Google Map 的团队而言 , 要做的事情就是刚才你说的所有这些事情 。
而且你肉眼可见 , 这种趋势会随着 AI 大模型推进发展之后, 这种需求会越来越多跟常见 , 甚至可能成为某种意义上的新的用户的界面的交互的范式 。
嗯 。
对吧 ? 那那当我们都要去面临这样的解决方案的时候 , 那对于在做相关业务的公司跟企业而言 , 那似乎就要有一个新的底层的配套的 , 无论是数据也好 , 架构也好 , 去适配这样的需求嘛 。
那似乎确实在往这走 , 对吧 ? 确实看上去 ,而且我看那个广告是 Google Map 什么十十年以来最大的更新 , 就是它把这个这个 Ask Map 放到这样一个高度 , 就代表确实呃 , 可能最先进的这些厂商在面临这样的这个问题 。
刚才他他那个广告是我们 24 年 。
就已经 。
24 年我们在用户大会上是吧 , 发布的我们的这个产品特性的时候就拿这个举例子 。
对 。
就开始说搜索 500 以之类是吧 ? 然后呢 , 就说各种价格 、 各种类型的 ,而且好吃的一个餐厅 。
嗯 。
就是这样的一个示例 。
嗯 。
就是说这个事情的话 ,Google Map 作为一个重大特性提供嘛 。
对 。
我们也把这个这个这个示例呢 ,也搬到我们的官网上了 。
OK。
我们官网上有一个东西说基于高德地图去做的啊 。
嗯 。
你就能说 , 比如说在杭州是吧 ?
嗯 。
杭州说呃呃呃 , 几百米之内最好的一个什么一个酒店啊啥的 。
嗯 。
我们现在官网上就有这样的示例 。
我们正好就聊到聊到这个业务落地的角度 。 我们业务落地 , 我觉得第一个问题是关于搜索引发的这样的数据 。
对 。
那我们聊第二个问题 , 可能关于是 AI 这波 AI 这波大模型 , 包括最近龙虾热 , 大家探讨比较多的关于记忆的事情 。
记忆难题25:56
嗯 。
因为大模型出来之后, 大家都会说它的上下文结构一直是很多厂商在突破的一件事 ,但上下文我觉得是一个这个问题的狭义的展现 , 它不仅仅只是一件事情 。
然后这种龙虾说的很多人也会说呃 ,在龙虾的整个的架构创新过程中 ,其实对于纯跟进模型业务发展比较多的人 ,他还会觉得他并没有做特别多的 0 到 1 的创新 ,但是他做了很多工程上的架构的设计 , 尤其在 45.md 那个文件的设计上, 大家会觉得有很大的不同 ,也是带来了个人用户在用过程中会觉得龙虾跟我们去用一个普通大模型聊天 , 它确实在
记忆这一层有比较大的区别 。 那似乎双引号的记忆这个问题也跟这波大模型发展的过程中变得越来越重 。
那我们再把这个问题放大 , 甚至记忆本身其实也是数据的泛的数据层面的问题 。 只不过现在厂模型厂商们在做的是把自己本身的模型的上下文在做扩扩 ,在不断的在加大那个数字 , 对吧 ?
然后那当然就会出现了也由此引发了很多问题 。 那同时可能这个市面上也会有一些专门针对 AI 这波大模型引发的记忆问题 , 做我们叫记忆的外挂 , 就像刚才说我们做记忆的单独的外挂系统 ,也来去解决 , 或者来去在很多固定或者说特定场景内解决模型本身带来的记忆的问题 , 对吧 ?
那这个这个包括龙虾用 45.md 来去解决某种程度上的问题 , 包括用 Markdown 这个格式 , 可能我觉得也是一种妥协之举 , 对吧 ?
它也绝对不是最后的标准答案 , 对吧 ? 那但是它至少这个方案本身可能在这个现阶段可能就比较匹配当下的发展状态 、 技术方案 、 成本 、 各种各样的实施 , 对吧 ?
那就是记忆这个问题 , 大家如何看待这轮发展 , 包括对相关厂商的要求提出什么样的要求 。 其实我特别想接着刚才那个话题说哈 , 比如说我我不是第一次来了 , 我是第二次来了 。
那第二次来可能我我 。
上次问过 。
哎 , 对 , 就是可能我这个问题呢 , 可能有一些这个这个这个标记 , 比如说上次我是一个人来的 , 可能这次我还是一个人来的 。
那他推荐的这个这个产品是不是得有记忆 , 就是他得记我上次来过 。OK, 那我根据他上次的推荐 , 再让他这次的这个又提出重这个重复的问题 , 那我可能通过 AI 来给他计算出来一个差不多的这么一个一个部分 。
那就说那我需要去把之前的信息要存储掉 。
对 。
但是现在这个部分其实我觉得对 AI 来说可能会很简单 ,但对企业来说非常的困难 ,因为我们真的不知道这个数据会存多长时间 ,因为我们企业里面数据会定期清理掉 , 比如说 OK, 这堆数据我们标定它存 3 年 。
嗯 。
这堆数据存 5 年 。
嗯 。
它到了时间我们会清理掉 。
对 。
但是 AI 的数据我怎么标定啊 ? 理论上应该一直都存在着 。 就是我我到现在我没有办法去标定 , 我说这个数据我什么时候要删 。
没没有人能告诉我 。 那可能就是现在有一个最大的问题 , 就是我可能要存的时间很长 , 同时呢 , 我还要调用它 。
那这里就会牵扯到很多问题了 , 比如说像成本的问题 , 我怎么调用的问题 , 怎么存储的问题 , 什么接口之类的一堆的问题 。
谈到这个企业这种智能体 agent 的时候啊 ,因为它基本有个公式嘛 。 哎 , 怎么理解 agent 呢 ? 就是大脑加记忆 。
对 。
加工具 。
推理加工具 。
对 。
嗯 。
所以发现记忆呢 , 是一个非常重要一个环节 。 就刚才明浩说的 , 记忆的问题它还有很很多解法 。
对 。
嗯 。 模型厂商的话说就是无限的增增加 , 增加它那个窗口嘛 。
对 。
嗯 。 因为呢 , 说白了 ,因为它它是按按着 token 算钱的 。
嗯 。
对 , 对吧 ? 所以呢 。
对 ,是 。
它恨不得真的越来越大 ,是吧 ? 你想你想你再大 。
越浪费越好 。 哈哈哈 。
再大你想你有极限 。
对 。
我我给一个大 100 个全书 ,是吧 ? 我给个磁卡给你 。
嗯 。
你能处理吗 ? 还能处理不了嘛 , 对吧 ?
嗯 。
所以呢 , 你总是有些极限 。 所以呢 , 你从企业的或者这个架构治理角度上看呢 , 理论上模型呢 , 最好变变成说是说无状态的 。
嗯 。
这样是最高效的 。
嗯 。
然后呢 , 所有这些记忆 ,因为记忆它有非常多的一些类型 ,是吧 ?
对 ,是的 。
应该通过一些外部的解决方案去解决掉 。
嗯 。
目前看其实企业很多种 , 刚才你您谈到的像龙虾里面的 Markdown 文件 ,是吧 ?
对 。
这其中一种 , 或一些本地的一些缓存嘛 。
对 。
我说 Markdown 就是本地缓存 ,是吧 ? 本地存储 ,是吧 ? 还有什么解法呢 ? 其实你像之前谈到的 RAG。
嗯 。
RAG 其实理解其实也是种记忆 。
嗯 。 对 。
只不过它处理的是企业里面的大量这种文档 。
对 。
嗯 。 文档知识的这种这种记忆嘛 , 对吧 ? 它是一种解法 。 第二种呢 , 就是还有这种 , 它虽然因为从去年开始谈这个 , 就一个叫记忆体的概念 。
对 。
就是我可以把一些说不是这种文档 , 偏这种对话式的东西 , 或者偏这种说喜好偏好型东西 ,是吧 ?
嗯 。
我把它变成一个说一个解决方案 , 它叫记忆体 。
嗯 。
就对我们来说 , 你像你就看你要处理什么样的记忆 。 如果说是知识的记忆 。
嗯 。
就说像这种企业一些特定知识 ,因为模型它是面向泛行业的嘛 , 对吧 ?
嗯 。
你企业内部的一些特有知识 , 我个人的一些特殊文档 , 这种记忆 , 你通过 RAG 去解 。
嗯 。
对吧 ? 我把一些本地文档啊 , 本地的一些东西啊去解决掉 ,是吧 ?
嗯 。
当然现在还有新的一个流派 , 就是说我的一些技能的记忆 ,是吧 ? 我从 skill。
Skill 来记 。
嗯 。 对吧 ? 我本地一些一些 SOP 的做法 ,是吧 ? 它不是一个知识 , 可能是个技能 。
嗯 。
我把它变成一个一个 skill, 一个知识嘛 , 这也是一个解法 , 对吧 ? 第二种情况下就刚才刘老师谈到的 。
嗯 。
就是我多轮对话 , 我人机交互 。
嗯 。
然后呢 , 我给模型交互 ,是吧 ? 我搜索这种多轮搜索之间这种记忆 。
嗯 。
你刚才说通过记忆体去解 。
嗯 。
那解什么问题呢 ? 就是说记忆里面分长期记忆管理 , 短期记忆管理 。
嗯 。
嗯 。 有一些就是短期记忆 ,是吧 ? 短期记忆刚才说的可能跟人一样吧 , 你就你忘了就忘了 。
嗯 。
也没事 ,是吧 ?
对 。
很重要的事情 , 然后呢 , 平常被喊麻痹体看到东西 ,是吧 ? 也会把它记住 。
嗯 。
它短期记忆变成长期记忆 。 还有一种东西 , 比如说叫私有记忆 ,是吧 ?
嗯 。
就我自己知道的东西 。
嗯 。
谁也不告诉 , 对吧 ?
是的 。
还有一种 , 比如说是团队级公共记忆 , 比如你多过智能体之间 ,是吧 ? 它也它也共享记忆 。 所以你发现呢 ,其实我需要一种记忆体的解决方案去解决刚才您谈到谈到的这种不同场景下面这种记忆处理 。
嗯 。
比如刚才说你落到 API 级别嘛 , 就是说你记忆的新增 。
嗯 。
然后你记忆这种追溯 ,是吧 ?
嗯 。
记忆的更新 。
对 , 对 。
记忆的淘汰机制嘛 , 对吧 ? 就是这样一个一个状态 。 所以你看我们呢 ,其实也针对不同场景呢 , 推出了不同的一些解决方案 。
嗯 。
比如说刚才谈到说针对这种说企业级这种知识库这个场景下啊 ,其实我们呢 , 做了一个叫 PowerDrive 的一个软件 。
嗯 。
它适用于企业级 ,因为又结合我们 OB 更强的这种混合搜索啊 , 统一这种存储能力 ,是吧 ?
嗯 。
咱做了一个说企业统一 RAG 能力 , 然后针对这种记忆体呢 , 我们做了一个 PowerMemory 的一个软件 。
嗯 。
你刚才说的是呢 ,而且它是呃 , 跟开源的那个 Map0 啊 ,Map0Z 专门做记忆的 。
API 是一致的 。
对 。
因为 Map0Z 去年试验出来的嘛 。
对 。
我们跟它 API 一致 ,但是提供了一些更强的一些功能 。
嗯 。
这个情况就是说 ,不管是你的这种说纯的知识记忆 ,是吧 ?
嗯 。
还有这种说偏对话这种记忆啊 , 都能做 。 再给你举个例子啊 , 你像比如说在淘宝里面的话 , 说它去年推了个新功能 , 淘宝 APP 里面啊 。
嗯 。
叫 AI 万能搜 。
嗯 。
AI 万能搜就是说说呢 , 它是个搜退场景 。
嗯 。
每次我去搜 , 比如说哎 , 我今天我给老我给老中人带来礼物 ,是吧 ? 然后呢 , 我该送什么礼物 ?
哎 , 我问他个东西 ,是吧 ? 那就是呢 , 它能把你原来问的东西呢 , 把它记下来 , 然后呢 , 就说第二次再重新推给你 。
对 , 对 ,是的 。
这是一个完整的叫搜推的方案 。 搜推方案里面它那个记忆体 ,是吧 ?
嗯 。
其实都是去 AOB 做的 。 刚才说它还不不是去我们的 PowerMemory,是去说是把 OB 变成一个向量存储之后 ,是吧 ?
嗯 。
然后呢 , 把它一个去小知识库之后 ,是吧 ? 能能去做一些一些检索嘛 。 对吧 ? 第二个是我们去年呢 , 蚂蚁去年推了推了一个很好玩的应用 , 叫个蚂蚁阿福 。
嗯 。
我春晚上还还上了嘛 。
嗯 。
对吧 ? 蚂蚁阿福应用呢 , 它的定位呢 , 叫什么呢 ? 叫呃 , 家庭的 。
医生 。
呃 , 私人医生 。
对 。
但是阿福刚推出来的时候呢 , 它是没有记忆的 。 每次你就问它问题 。
它就单词 。
你发现是新病人。
就是每次都是新的新窗口 。
对吧 ? 新病人新医生 ,是吧 ? 这个不行 ,是吧 ? 这个东西你我请个私人医生 , 你还不还不了解我 , 这个不行 ,是吧 ?
所以你发现阿福呢 , 它也会得跟 OB 一些结合嘛 ,是吧 ? 底下一些记忆的能力 。
嗯 。
正好你发现呢 , 说它就能提供一些这种偏 , 说能把你一些历史上你你问的问题 ,是吧 ? 你说哎 , 我今天我不舒服 , 今天我母亲不舒服 ,是吧 ?
或者说能帮我一些学检报告 , 我传了学检报告给他 ,是吧 ?
嗯 。
情况下记下来 。 记下之后, 你想它第二你在未来再问他问题的时候 , 它能带出这些关键信息给他 。
啊 。
就多好了 ,是吧 ?
对 , 对 , 对 。
还有你说像互联网企业 ,他们做那个什么陪伴场景 。
我们做的那个 。
哎 , 陪伴嘛 , 对吧 ? 陪伴场景之后, 你说你说你都能去去对话 ,是吧 ? 你说原来怎么做 ? 原来是把多轮对话全部给他 。
全部给他 。
对 。 哇 , 搞死成本搞死了 ,是吧 ? 你加入记忆体之后 ,是吧 ? 加一些事件提取 , 把你关键信息提取出来 。
你说哎 , 我哪学毕业的 ,是吧 ? 我是哪天在工作的 , 我什么什么时候去过哪里玩 。
嗯 。
这些记下来之后 ,其实你每次只需要把一个很小的窗口给大模型 , 用了几点 token,是吧 ? 又怎么 , 虽然我说的这些东西呢 , 不同的一个解法 。
嗯 。
然后呢 , 决定的时候你的成本 。
哈哈 。
对 。 戴老师今天给我扩展思路 , 这样我们就能节省这个使用 token 的费用了 。
是这样 。 很多企业都在谈这个问题 。
用不起啊 , 真的是用不起这个 。
我后面再聊这个 。 我反正我们的现实案例是 , 我们是一家 , 我们公司其实是一家做社交的公司 , 确实在 AI 上的尝试也是这个逻辑 。
就是确实大家会认为传统的 , 就是或者说基本的大模型更多是在做普通的语言 。 那如果我们加一层情感 , 它要做更多的更复杂 , 双引号情感的表达 。
那这种表达看上去 , 它用通用模型能力的记忆上文就是解决不了 。
嗯 。
就是它就没有办法在这上面做偏 。 那你当然可以用一些提示词工程去往这调一调 。
嗯 。
但是那个成本就像你说那个太 , 就我们也试过 , 发现成本真的扛不住 。
嗯 。
就是因为现在用户也没有办法直接付钱 , 尤其在国内 。
嗯 。
海外可能还好一点 , 对吧 ? 所以大模型厂商现在都去这个板块 , 大模型厂基本都在海外做 , 国内不太做 。
然后所以逼得我们没办法 , 就是尝试过那种方式 , 一一定阶段为什么我们会自己在做自己一套自己系统 , 就是刚才你那个逻辑 。
既然在这个场景下, 用通用大模型的上下文的记忆能力解决不了 , 或者成本太高 , 那我们就自己做一个 , 做一套 。
嗯 。
或者说只限定在这个场景内解决我们现有面临的问题的这一套东西 。 然后这套东西你会发现 ,其实市面上也有一些做相关记忆系统的公司 , 都在解决类似的问题 。
就是针对一个固定的场景 ,在已有的上下文跟模型能力通用的基础上 ,在这个场景下, 无论是提高效率 , 还是更接近人的感觉 , 还是降低成本 , 反正你有一个原因 ,以及在这上面深挖 , 做出来一个东西 , 现在看上去已经有一些效果在显现的过程中 。
所以似乎我们可以看到 , 呃 , 我还是认为 Markdown 今天我们看到的是一种中间态的妥协的方式 ,但是这种方式让大家已经看到了 , 它相较于通用的一个我跟一个常规的 ChatGPT 或者是豆包去聊天的巨大的区别 。
嗯 。
那再往后推 , 那似乎应该还会有更好的 , 我们能够提高感受到更容易提提升这个感觉的一套记忆的东西的眼睛 。
所以我觉得确实它在往这个方向在走 。
嗯 。
其实其实刚才明浩老师说的那个 Markdown, 嗯 , 作为公用的 , 我我觉得 OK。
安全隐私37:15
对 。
但是今天今天作为企业的这个用户 , 我我们实在是没有办法接受 。 原因原因在于这个 , 就是每个企业都是有这个安全数据要求的 。
你比如说我们企业 , 比如要过 2 万 、1 万 4 等等这些 , 那数据是要经过审核 , 我们每一个操作都要审核 , 每一个操作都要有记录 , 每一个这个数据的存储都是要有一个安全的一个范围之内的 。
都是有人去检查你的 。 而现在这个 OpenClaw 的这个企业没法用 , 一个最根本的原因是企业它真的没有办法拿这个东西去突破这个真正的安全的数据的防线 。
那如果用完这个以后, 企业数据暴露了 , 那比如说我是个乙方 , 那甲方直接就要投诉我 , 我我就没有办法去干了 。
哈哈 。
数据泄密安全合规都都过不了 。
对 , 这根本就过不了 。
所以说我就是我还听说这个有一些其他国家的这个这个案例 , 直接就禁掉了这这个产品 。其实我们对产品的这个数据在这个方面的安全还是比较看重的 , 或者是这是一个没有办法逾越的这个部分 。
对 , 对中国企业来说 , 这是个非常重要的命题 。
嗯 。
因为你看龙虾出来这个三个月了嘛 。
对 。
你发现其实现在中国的热度比美国高 。
嗯 , 超级高 。
对吧 ?
对 。
你说中国的大量企业 , 今天互联网公司我我有牵引嘛 , 对吧 ?
嗯 。
就是各种的龙虾 , 各种玩法 , 反而都是你看看美国的那几大 AI 公司 ,是吧 ?
比较安静 。
反而就比较安静 。
嗯 。
这里面我先不说这个路线这个问题 ,因为传统上都是认为中国的场景更丰富嘛 。
对 。
那再一说现在如果龙虾作为一个主流 , 我们有很多一些企业客户 ,是吧 ? 不管是处于工薪失薪 , 比如说交际的一个需要 。
嗯 。
他要看看这个龙虾 ,是吧 ?
是什么东西 ?
秀一下 。
对的 。
研究的需要 ,是吧 ? 要自己一些去去玩一下 ,是吧 ?
嗯 。
或者说现在企业内部很多说也提交了一些需要 ,是吧 ?
对 。
嗯 。 所以发现呢 , 现在我们能看得见今年啊 , 你现在才 3 月中嘛 。
对 。
你看见今年这个事情呢 , 现在是一定是一个大话题 。
嗯 。
而且而且有可能龙虾变成一个入口 。 为什么入口呢 ? 你看你不管是你嵌入到微信 , 嵌入到钉钉 , 嵌入到飞书里面 ,是吧 ?
嗯 。
它变成就就是刚才刚说一个数据贾维斯 。
对 。
然后呢 , 我会把我的原来的所有的搜索 , 传统知识库搜索 , 传统这种说企业制度搜索 。
嗯 。
然后呢 , 我一定是任务 。
对 。
然后呢 , 还有一些比如说一些 。
应用之类的东西 。
Web coding 的一些写代码 ,是吧 ?
嗯 。
包括一些这种是问数 。
对 。
我全部都丢给它 。
嗯 。
它就变成说其实是个应用入口了 。
就从它这走 。
对 。
嗯 。
你想跟 ChatGPT 一样 。
对 。
它是一个对话框式的一个应用入口 。
嗯 。
所以这时候你看这时候呢 , 如果我们现在已经看得见 , 很多客户也这么想嘛 , 对吧 ?
对 。
也这么想 , 去规划这么做 。 那这时候刚才您谈到这个问题就来了 。
对 。
那 。
也是我们想要马上谈的第三个问题 , 安全跟隐私的问题 。
对 。 做完你咋搞 , 对吧 ?
对 。
你说你说你刚才我举个例子嘛 ,是吧 ? 你说你就问人家一个龙虾 , 一下一下出来了 ,是吧 ? 这这哪行 ?
哈哈哈 , 这哪行 ,是吧 ? 哈哈哈 。
所以就是我我会觉得这轮 , 当然可能也是因为逐渐的成熟 , 这一轮关于龙虾热之后的安全跟隐私的探讨 ,其实是比想象中更热烈的 。
甚至很多有一个侧面是说 , 很多用户可能都没有装 ,但他会提前担心这个事情 , 哪怕是个人用户 。
嗯 ,是的 。
所以所以我觉得这个议题就变得更加 , 所以反过来讲 , 为什么是中国这些安全厂商对这件事情这么的突然间的 , 你像老周 、 傅盛其实都是做安全的 ,他为什么突然间的脑袋亮了一下的感觉 , 就是因为确实这个问题它把就是我们真的走到了 ,因为我还是那个观点 , 就是我们从原来的纯语言走到了 agent, 对吧 ?
就是从语言到行为 。 走到这的时候 , 确实模型本身看起来能力已经 ready 了 , 我们真的要去做行为了 。
那行为必然会面临权限 、 数据 、 围栏所有这些事情 。 然后龙虾相当于是一个极端啊 , 我们说它把这个事情推到一个极致 , 说我完全不 care, 就百分百的开给你 。
嗯 。
我们做出来这个东西 , 所以它当然会在某一部分人群内得到巨大的欢迎 。
是的 。
但是它因为它是个个人软件 , 个人它是开源的 , 它当然可以以它的方式把这推到这 , 告诉大家模型现在已经能做到这个样子 。
但是问题在于 , 它推的那个地方太不安定跟太开放 , 双引号的开放了 。 所以我们需要是说 , 我们当然承认这件事情已经走到这了 , 走到行为 , 走到 agent 了 ,但是龙虾的示范不是一个双引号好的示范 。
对 。
那我们要在中间找到一个合适的方式 , 适合无论是个人还是企业来去把它真正意义上继续让这个事情往前推 。
所以似乎我觉得安全是一个太宽的话题了 , 就是它里面涉及到的数据安全 、 隐私 、 权限 、 账户乱七八糟这套整套体系 , 本来网络安全就已经是一个百花齐放 , 产业链非常复杂且有非常多公司在做的板块 。
那今天似乎把这个议题又推到了一个 , 就你要知道原来那个行业的分工已经武装到牙齿了 。 今天框给了 , 相当于给了一个全行业的统一命题 , 让大家去解决 。
嗯 。
那就是这个问题被推到了这种层次之后, 你就发现这个问题好难解啊 , 好难解啊 。
是 ,是的 。其实从我们企业的这个角度来说 ,其实我们更希望能更简单的来适应 ,而并不是说要加那么多东西复杂 。
比如说我们其实非常熟悉 Circle, 那么我们有没有可能说 , 哎 , 未来使用 AI 的查询 , 我们其实还用我们原来的那套现有的方式来去 , 哪怕就是稍微的去哎改改 ,但是你不要就是说整体推翻它 , 然后让我重新再重来一遍这个 , 嗯 , 从人员的消耗上等等这些都是问题 。
那其实我觉得从数据库厂商是不是可以考虑到 , 哎 , 这个是不是一个切入的一个点 , 就是我们把这个企业的一些简单使用 AI 的需求融合到数据库里边 , 融合到 Circle 里边去做这个事情 ,有没有这种可能性呢 ?
OB进化43:17
我回一下刚才聊的题目啊 , 就是我们今年把我们的产品愿景改了一下 。
嗯 。
就是我们现在不完全定义是数据库厂商了 。
嗯 , 数据库厂商 。
其实我们现在定定用这叫智能数据平台厂商 。
嗯 ,是 。
为什么这么说呢 ? 就是 , 嗯 ,Database 它也不是个新东西 。
是 。
对吧 ?50、60 年代出来的 。
嗯 。
一直到 70 年代 、80 年代 , 从 IBM 的 DB2 或者出来嘛 , 就正式开始搞 , 对吧 ?
嗯 。
因为他们 OB 呢 , 之前呢 , 就说我们这个产品创立的一个基础呢 ,其实它是以分布式数据库解决海量交易 。
对 ,因为原来淘宝的需求嘛 。
淘宝支付宝嘛 , 需求嘛 , 它这样的这一个场景嘛 , 对吧 ?
对 。
然后呢 , 期端的时候你发现我们其实不断的 。 小做 。
嗯 。
淘宝是一种海量大集群 , 可能三地三地三活的状态嘛 , 对吧 ?
嗯 。
那期端的话 , 可能你没那样的基础设施 , 所以我们变成叫三副本 , 或者两副本加上一个一个监控节点啊 。
嗯 。
这个这个架构 ,是吧 ?
嗯 。
然后我们又推出了叫什么呢 ? 推出了一个叫主备架构 。
嗯 。
单机叫主备架构 ,是吧 ?
嗯 。
因为说因为企业里面有有有应用 , 你也不需要三副本 。
对 。
成本真的很高 , 对吧 ?
对 ,是的 。
我们去年还推出一个子产品叫 CKDB。
嗯 。
它解决那种嵌入式跟端的场景 ,因为 OB 是一个云的一个产品嘛 , 对吧 ? 因为它分布式为主嘛 , 云产品 , 所以端上我们也在做 。
所以你发现其实我们是通过不同的一些产品组合呢 , 去解决这个说传统的这个 AI 搜索的问题 。
嗯 。
所以那个产品真的定义叫 AI 数据库嘛 。
嗯 。
偏这种解决 , 刚才说的 AI 搜索 , 混合搜索 ,是吧 ? 或者说一些叫 AI 函数这概念 , 它提供的是各种各样的一些 AI 搜索的场景 。
嗯 。
但你发现你再往下走之后呢 , 显然它就不是个路数 。
嗯 。
显然说你需要啥呢 ? 你需要其实说是一个叫 AI 数据湖库 , 刚才说的嘛 , 可能叫 Lake LakeBase。
嗯 。
或一个 Lakehouse。
嗯 。
它能统一处理你的各种一些数据 ,而且呢 , 包括那种图文音视数据 ,是吧 ?
嗯 。
这这这么来来处理 。 所以再回到刚才说的 , 你说呢 , 就说那个您问的问题呢 ,因为分成几个层面嘛 。
嗯 。
第一呢 ,其实说那个 Circle 呢 , 作为底层而言 , 它是一个通用语言 。
对的 。
我们会继续以这种 Circle 为一个基础语言 , 能使得它就是数据做越来越强 。 从刚才说的说 AI 数据库的概念 , 到 AI 数据湖湖库的概念 。
嗯 。
会增加各种文档啊 , 这种数据处理啊 , 这些环节啊 , 变成而且呢 , 它肯定是以 Circle Base 为主的 。
嗯 。
它们肯定会拓展一些新的一些语法啊 , 做成一个一个大基础 。 第二话说 , 你也会发现 。
嗯 。
其实我们很多业务用户不需要了解 Circle。
嗯 , 对 。
您是专业用户 。
他知道 。
还是骨骨灰级的专业用户 ,是吧 ?
对 。
所以这种用户呢 , 就说呢 ,Circle 呢 , 就说不管数据库也好 , 数据湖库也好嘛 , 我们说定位叫数据数据智能数据平台公司 。
嗯 。
这是它其实是针对您这样的客户呢 , 就是说来提供一些标准服务的 ,是吧 ?
嗯 。
但是我们其实上面还有一些中间建成 。
嗯 。
中间建成你发现呢 , 就说它是解决说传统这种什么呢 , 业务用户 。
嗯 。
业务用户其实 Circle 还是蛮难学的 。
是 ,是 。
因为 Circle 的底座它是关系代数 。
对 。
对吧 ? 你要没点关系代数的基础 , 你要理解起来还还挺麻烦的 ,是吧 ? 虽然你说真的要花点时间学呢 ,也还是可以 ,但是呢 , 你对那种普通用户咋办 ?
是 。
普通用户你发现刚才说的说 , 它会基于龙虾作为入口 , 知识库加 Web coding,是吧 ?
嗯 。
加各种东西的话 , 变成它一些工具 , 包括 skill 嘛 。
嗯 。
变成各种工具 , 它会这么去用 AI。
嗯 。
这个 AI 是不是又回到刚才的问题 , 就是说呢 , 它需要一个统一存储 。
嗯 。
统一任务调度 ,是吧 ? 统一的这种过度负载在这个情况下 。 所以我们会以传统的叫数据智能数据平台 , 再加上各种应用中间件的形式 , 来满足这种客户的一些需求 。
嗯 。
当然这里面就叠加说刚才企业级的一些安全啊 , 企业级的很多东西啊 , 我们都会做 ,是吧 ?
嗯 。
你看 , 比如刚才你看谈小龙虾 , 我们现在也在做我们自己的小龙虾 。
哦 。
不是给我们内部做啊 , 给用户来做 。
哦 。
就说呢 ,在一些我们一些大客户上面 ,是吧 ? 它也可能也需要的东西 ,因为解决企业安全问题嘛 。
嗯 。
比刚才说的说 Markdown 文件不安全 ,是吧 ?
嗯 。
把它放到数据库里面 。
哦 。
是吧 ? 然后呢 , 本地不安全 ,是吧 ?
嗯 。
我放到云上沙箱 , 跟内部沙箱里面 ,是吧 ?
对 。
还有你的 skill 文件 ,是吧 ?
嗯 。
你 skill 文件也不能说随便改的 。
是啊 。
有些 skill 是一个 SOP。
对 , 就就是这样 , 你不能动 。
我把它 skill 文件也放到数据库里面 ,因为数据库它好管控啊 。
对对对 。
所以在我们的结合本身一些标准的一些数据库 、 数据湖库这些特色 ,是吧 ?
嗯 。
结合现在小龙虾的一些本身一些这种需求嘛 , 对吧 ?
嗯 。
把它变成说基于云上沙箱的这种说的一种变种服务 ,而且结合安全安全管控 , 这么去处理这些问题 。
嗯 。
这话就好好做一些 ,是吧 ?
投资视角47:50
就是现在这个数据库 , 如果要是就是咱们刚才说的是一种这个理念哈 , 做成数据库平台 , 那么我还是一个比较爱国的人。
有没有可能我们以这种方式超越国外的 , 就是那些老牌的厂商的那种 , 还就还是那种哎 , 单体的怎么样怎么样 , 就是在上面就是增加一些功能而已 。
就这种产品 , 我们有没有可能就像我们的这个军工产品一样去超越他们 ?
嗯 , 这个是非常好的一个话题 。 嗯 ,因为呃 , 技术的替代呢 ,其实它有多个维度嘛 。 嗯 ,有可能是说因为你结合现在大的这种说宏观政治经济形势来看啊 ,其实呢 , 刚才话题是一定是成立的 。
对 ,因为呢 ,其实你在传统情况下 ,是吧 ? 你回到 30 年前 , 甚至现在 10 年前 。 嗯 , 我们所有数据库基本上是美国的 。
是的 。
那那这个时候 , 现在我们呢 ,其实也会代表着新的技术路线 。 对 , 中国的产品 。
是的 。
然后呢 , 世界的未来第二级或者第三级 ,是吧 ? 所以你会发现其实说我们会在国内市场上会有很多 ,不管处于供应链安全也好 , 还是很多说避免对美国依赖 , 独家依赖情况下, 它一定有很多一些企业或者说一些区域市场 , 它会选择我们这种第三级的产品或者中国的一些产品 。
嗯 ,其实中国的很多产品 , 我说中国的市场很卷嘛 , 对吧 ? 对 , 超级卷 。 选出来产品之后, 你发现它的质量是非常牛逼的 。
嗯 , 这个我在这边 , 我在这个市场上我直接产品已经好了 ,是吧 ? 你说你看看 , 你说我比如谈金融板块 ,是吧 ?
你说有蚂蚁银行 ,有中国这些六大行 ,是吧 ? 这个成长体量它没有的 ,是吧 ? 你把我们最好的家庭 , 你像运营商 ,是吧 ?
拿回来运营商 ,有什么江苏移动 、 浙江移动 、 广州移动这么体量大 。 对 , 没有的 。 所以说你把我们的案例拿出来之后的时候 , 直接正面竞争金融市场 。
所以我说刚才您问的问题 , 我们觉得我们的愿景是 , 我们希望我们成为一家全球知名的公司 。 嗯 。
然后明浩老师 , 我我还想问您一个 。
好 。
问题啊 , 就是今天我还是本身一个小学生的一个 。
别别别别别别 , 就是交流交流 。
就是如果从投资的这种角度来说 , 假如说咱们去找这个好的数据库公司 , 那么去投资 , 那么如果您是一个资深的投资者 , 那么您以哪些指标或者是以哪些方面可能去判定 ?
呃 , 上一次跟那个咱们身边 CTO 的时候 ,其实也聊了这个议题 , 就是首先呢 , 国内的意识上看公司 , 还是大家会把 2B 跟 2C 作为一个比较大的分隔 。
那数据库厂商可能或者说偏软的公司 , 或者偏 , 甚至包括 SaaS 公司 , 可能都算我们叫 2B 这个市场 。 然后 2B 这个市场其实过去十几年一直都是有不错的基金持续在看的 。
嗯 ,但是国内的 2B 市场遇到了一些现实的挑战跟问题 。 这种挑战问题 , 前两天那个美股那边很多 SaaS 公司 , 包括我们今天提到什么 Snowflake 啊 、Salesforce 都在暴跌嘛 。
然后前两天那个美团的原来的二把手王沪文说过这句这样一句话 , 我觉得说的很好 。他说大家原来的投资逻辑是说 , 我们看到了美国非常丰富且繁荣的 2B 的生态 。
嗯 , 对吧 ? 企业服务 、2B、SaaS、 云 , 所有的厂商都很大 , 长得都很好 , 都无限的扩展 , 对吧 ? 他们也做并购变得越来越大 。
我们原来也期待中国也会这样 。 嗯 ,但是过去的十几年, 似乎基于我们这边所熟知的移动互联网的语气下, 产生的这配套的这些公司而言 ,并没有得到那个好的结果 。
我们原来期待是说我们这些公司会涨 , 或者说会类似他们那么大 。 但现在他们暴跌之后出现的问题是说 ,因为 AI 的崛起 , 似乎看上去美国那个公司会像中国这些 2B 公司一样不太值钱 。
哦 , 这是一个玩笑 ,但似乎带来另外一句话是说 , 新的 AI 时代出现之后, 无论是 Web coding 的演进 , 还是厂商对于 AI 能力的拓展 , 还是说我们言论更更大的话题是说 , 今天所有的事情都什么都被值得被 AI 重做一遍 , 对吧 ?
还是这种议题而言 , 你似乎发现今天去以 2B 跟 2C 去区别看这件事情 , 可能本质看待本身的方法就出现了挑战 。
第二 , 我们似乎会觉得因为 AI 的能力的提升 , 组织公司的形态 , 包括他们去采购相关的服务 , 这件事情的流程跟状态在中国可能也会出现变化 。
我觉得再举个更现实的例子 , 比如说这就是我还是觉得这轮龙虾的兴起 , 让我们看到了很多不一样的苗头 。
大家原来会说中国的用户是不愿意付钱的 , 无论是 2B 还是 2C。 嗯 , 对吧 ? 就是会有一个通用的这样的感觉 。
但你发现这轮龙虾出现之后, 厂商的 coding plan 是要限量卖的 。 当然他们有算力的限制 ,但更重要的 , 你会发现即使面临新一波的技术浪潮的时候 , 个人也好 , 企业也好的复印院 ,其实某种程度上是比原来那个最悲观的结论上要好一些的 。
哦 , 这个度我们不知道是多少 ,但肯定不是那个可以所有人都拍一个最极端的不行的结论的 。 就这个的天平的偏转 , 我觉得再往这边偏 , 就这是一个看得到的事情 。
然后再落到比如说偏数据库这个角度 ,因为我不是这个专家 , 我只能说偏软件或者偏 SaaS 或者偏云或者偏 2B 服务这样的公司 , 常规态大家来看无非就是那些方式 , 那些更战术层的操作指标 。
嗯 , 收入是吧 ? 市场占有率 ,在各个细分领域的影响力 、 口碑 、 品牌 、 历史的投资者 , 然后发展速度 。
嗯 , 然后影响力的变化 、 占有率的提升 , 就是它其实是一种偏常规态的战术层的讨论 。 但是我还是那个观点 , 就是这种战术层的讨论在过去十几年其实被证明是不太 , 至少那一波厂商是不太 work 的 。
但是 AI 这波来了之后, 这件事情因为刚才我们谈了这么多话题 , 就数据这件事情的地位跟状态 , 它已经不单纯只是一家纯软件公司那么简单的事情了 , 对吧 ?
我们的愿景变成我们不是一个软件 , 我们变成平台化运营的方式 。 平台化运营方式就理应该用平台企业的方式去衡量了 。
那如果这个逻辑跟这个天平能转到这边一些的话 , 那似乎这件事情就出现了变化 。 所以就是我觉得就是所有这些我们刚才聊的角度 、 评判标准 、 逻辑框架 , 或者说加权评中的这些权重而已 , 都是一个度的感觉 。
它它没有明确 , 当然你可以去写那些明确的指标 ,但那些指标都是滞后的 。 就是很多这种度的天平到了一定的阈值之后, 它可能就把局面打开了 。
我觉得某种程度上说 , 我们从往前推 , 大模型到多模态到去年 DeepSeek 到这轮 agent,其实某种程度上也在把这个天平往这边推 。
而且随着这一 ,而且我还是觉得就是某种程度上说 , 回去回看过去几年 AI 的行业发展 , 基本上是符合某一项技术到了一定程度之后, 它就会打开一定的东西 , 一定的局面 , 无论是开源软件 、2B 的生态 , 还是个人用户的什么变化 。
就这个事情已经证证明了好几次了 。 那这轮更是 , 就是它就是因为纯底层技术模型的能力到了 , 你在做之前是不知道的 ,但它到了就是到了 。
然后突然间 , 无论是开源软件 , 还是一个什么特别的方案 , 还是一个家公司做的一件什么事情 , 它就打开了一一波窗口跟一个局面 , 然后再以这个方式扎一下说再做延展 , 然后再就是 , 然后你要在过程中这个底层技术还在更新 , 它会再打开再更新再延展 。
所以那似乎我们就看到了这样的一个趋势的演进过程 。 那反过来讲 , 为什么意识上中国的意识上一样 , 美国意识上过去几年对于 AI 的投资是越来越多的角度 ,也是这个原因 , 就是它不断的在证明 ,不像之前我们谈论的很多 , 比如什么 Web3 啊 , 什么元宇宙 , 甚至包括当年的大数据 , 就是它不像那个时候 , 它变成了一个可能三年期结束之后, 大家就
没有人讨论这件事情了 。 是 , 它今天看上去不是这样 , 它在持续的打开很多事情 。 而且你像刚才谈的过程中, 我们不是强调了成本的问题 、 算力的问题 , 你像今天我们真的去回到今天我们讨论最开始龙虾引发我们今天所有讨论 , 你说今天这个世界 , 哪怕这些厂商这么狂推 , 这么用力度的去各种各样的策略 , 今天真正意义上, 比如中国
的 ,在本地也好 ,在云端也好 , 部署了龙虾的用户量级 , 还是一个很小的数量级 。 对 , 可是你要知道 , 这么小的数量级平摊到这么多厂商身上, 云厂商 、 模型厂商 、 互联网公司 , 你会发现大家已经遇到了瓶颈 。
哦 , 那才刚刚开始 , 对吗 ? 很多事情才刚刚开始 , 还远远没有到说 , 那你就想 , 你直接想一下, 如果未来真的每一个用户都有一个 agent 也好 , 个人的类似贾维斯也好 , 还是那样一个什么东西也好 , 它真的它的能力可以到像 Claude 那样演那个样子的情况下, 那你需要在今天的基础上涨多少呢 ?
复杂多少呢 ? 这个议题当然这么说特别的看多 , 对吧 ? 特别像那个大忽悠 , 对吧 ? 特别像一个讲故事 ,但事实你想其实就是这么个逻辑嘛 。
所以那如果是今天只是个开始 , 只不过是因为模型能力提升到了一定程度 , 打开了 agent 这一轮的探讨 ,并且 agent 这轮走到这之后, 需要我们底层的记忆也好 , 数据也好 , 数据库底层也好 , 存储也好 , 所有东西一直相配套 , 那你发现上面那条路才刚刚开始 , 那就就再往前走呗 , 对吧 ?
企业建议57:13
我们今天就收束到最后一个问题 , 今天确实我觉得个人已经非常焦虑了 , 那企业主其实也是啊 , 包括你们在做跟你们面对的客户 。
那今天如果真的给到一些面临今天 AI 浪潮来了 ,有非常强烈的焦虑 , 想让自己的业务跟 AI 产生关联 、 产生绑定的这些企业主也好 ,他们的 CTO 也好 , 还是他们的 CIO 也好 ,有什么好的建议 , 哪怕是一碗鸡汤 , 哪怕是一个案例都可以 。
嗯 , 那那我就先说吧 , 就是我希望我们的 AI 在使用之前 , 它是安全的 。 嗯 ,并且它的数据应该进行哪怕是部分治理 , 它也要是治理 。
戴老师 ,其实 AI 有今年 70 年嘛 , 它其实基本上每十多年呢 , 它就会有一些浪潮 , 又会有寒冬 。 嗯 ,但是这一波呢 , 看起来啊 , 就说可能会真的会持续改变我们很多东西 。
嗯 , 所以我说如果以中伪史的思想思维方式去看的情况下呢 , 企业主也好 , 还是我们大量这些用户也好 , 它最好是一种偏说思维方式 , 是一种偏主动求变 。
对 , 那快速进化的思维方式 。 是的 ,不要迟疑 ,是吧 ? 对 , 现在想想说 AI 能帮助我们解决什么问题 , 快速用起来 ,但用的时候呢 ,不要说一上来就过于激进 。
嗯 , 小不快 , 小不快跑 ,是吧 ? 小不快跑 ,因为企业的它的它方式跟员工不一样 , 个人用户呢 , 尽量最激进方式去拥拥抱 AI。
对 , 企业的话说小不快跑方式 ,是吧 ? 也一步一个节奏的方式来推动 AI 在企业里面大量一些落地 。 然后呢 ,其实也真的说把 ,因为刚才也谈到嘛 , 说数据是更重要的一个话题 , 所以我们的 AI 是说最后呢 ,也是希望说企业呢 , 说以类似像采用 OB 这样统一数据底座的方式 ,是吧 ?
真正把这个企业的数据发挥更大的智能化 AI 价值 ,在我们也希望在这过程中的时候陪伴企业一起来成长 。
感谢感谢 , 感谢大家收听赛博赶海的第一期播客节目 。 今天先在这里 , 然后大家有什么想说的 , 或者想想想对两位嘉宾有什么询问的 , 欢迎大家在留言区评论 。
感谢感谢 。
嗯 , 好 , 多谢各位 , 谢谢谢谢谢谢
。






