5 月 31 日,由品玩主办的「模型思辨」国内大模型产业生态研讨会在北京举办。360 集团创始人周鸿祎、百度、阿里巴巴、商汤科技、Zilliz、瀚博半导体等来自大模型产业链上的头部互联网公司、芯片、数据库、应用项目、投资机构等 100 多位 VP 级的嘉宾参与此次研讨会,深度探讨中国大模型产业生态的建设。Zilliz 创始人兼首席执行官星爵发表了《向量数据库:大模型的记忆体》的主题演讲。
图为 Zilliz 创始人兼首席执行官星爵他认为,移动应用时代程序开发经历了从复杂到简单的过程,AI 浪潮的来临则提高了程序开发的成本,而随着大模型时代和新的 AI 时代的到来,CVP Stack 这种新范式的出现改变了这一现状,人人都可能是 AI 时代的工程师。此外,大模型的发展,离不开存储这一关键点,其中以 Milvus 和 Zilliz Cloud 为代表的向量数据库扮演着大模型记忆体的角色,可以让大模型们进行知识增强。下一个杀手软件会是智能体,它同样需要向量数据库的存储和检索能力。最后,向量数据库将迎来快速的市场规模增长,未来可期。
以下是星爵演讲全文:
(资料图)
(资料图片仅供参考)
大家好,我是 Zilliz 创始人星爵,今天给大家带来的分享是向量数据库在大模型时代的存储,但其实今天我讲的内容一点都不技术。在座的肯定有很多大模型和 IT 的从业者,今天我跟大家分享的是从程序员的时代看新一轮的 AI 和大语言模型时代。
从移动应用时代到大模型时代
其实这个时代被冠以很多花里胡哨的文字,同样的热浪在十年前的硅谷也有经历过,当时硅谷的每个周末或者任何一座大城市都有一群熙熙攘攘的人在探讨 IOS 和 Android。经过了十多年,我们见证了移动技术的成长,改变了生活的方方面面。
这是今年 3 月份来自硅谷的一张照片,它是 OpenAI 做的一场沙龙,从东海岸到西海岸,从西雅图到旧金山,每周都会有数场类似的沙龙,无数开发者涌入这个赛道,在周末不眠不休,用二十四小时开发出一个好的应用程序。
为什么会发生这样的变化?借用英伟达 CEO 老黄的一句话,iPhone 时刻已至。那么,这和我们的程序员有什么关系?为什么移动时代会诞生几百万、几千万的令人眼花缭乱的创意和应用程序?
不知道在座的各位有多少写过智能手机时代以前的移动开发程序?因为当时写移动开发程序是相当复杂的,需要用到内存管理、工具链、编译和调试,相当复杂。但 IOS 和 Android 的出现,不只带来了大屏手机,也使得内容生态的开发难度得到极度简化。在过去十多年的时间里,开发者凭借 IOS 和 Android 操作系统,再加上 MongoDB 这些灵活的数据库系统和前端设计师,基本上可以在二十四小时以内做出 DEMO 程序和 MVP 产品。
不过,过去十年 AI 蓬勃发展,工具却变得越来越复杂。去年给出的 MLOps 全景图涵盖了模型调优、训练、部署、数据的观察性和安全性等上百个工具。需要招十几个人花上半年时间和几百万资金才能做出一个 AI 应用程序,开发成本特别高,然而过去半年大模型的出现改变了这一切。现在市面上有很多开发工具,就是用大模型加上 AI 的语义存储的向量数据库,配合能够把业务逻辑准确翻译出来的提示工程,进行交互,便可做出一个效果很好的应用程序。
如何用大语言逻辑把商业逻辑表达出来?我们把这种全新的开发范式抽象了出来命名为 CVP Stack, C 是以 ChatGPT 为代表的这种大模型, V 是指以 Milvus、 Zilliz Cloud 为代表的向量数据库为大模型去存储数据,作为它的一个额外记忆体。P 不只是 提示工程,更多的是 提示工程跟 产品设计的一个结合,是新一代产品设计的方式。有了它一个周末就可以写出一个 AI 应用程序。
这种新的开发范式催生出很多新的应用场景,从聊天机器人到企业知识库,PDF 到 Excel、Copilot 都有全新的管理,包括文档的摘要、会议的记要甚至汇报。我们也可以跟传统的数据库 BI 进行交互,就是用自然语言去写报表,当然也包括写代码,这些应用可以通过 CVP Stack 轻松搭建起来,开发门槛被降得很低,跟几年前动辄花费五六个月、几百万资金的投入形成了鲜明的对比。
举个例子,我们的同事用了两天就做出了一个 ChatGPT + Milvus 向量数据库的应用,他的名字叫 OSSChat。随着很多人拥抱开源,越来越多的开源项目先后出现,但开发文档繁琐冗长,很多问题分布在各种论坛和讨论区,为开发者带来了一定的困扰。所以我们把所有数据整合在一起,存在向量数据库,然后把这些知识给 ChatGPT 增强,两天就把原型做出来了,又花了两天时间完善就把服务上线了。目前我们已经支持几十个主流的开源项目,每天都有很大的访问量,用户甚至可以去生成开源项目的代码。
存储比计算更便宜,大模型也不例外
所有应用场景的本质就是用向量数据库帮助我们管理私域的知识,老黄在今年的 GTC 上也专门提出了 " 向量数据库对于构建专有大语言模型的组织来说至关重要 " 这样一个观点。 为什么我们要把私域数据和公域数据用向量数据库来做?这里有一个数据归属权的问题,我们并不愿意把这些数据交给大模型,希望可以在保留用户使用权的情况下,可以不用私人的数据进行训练,同时可以得到大语言提供的更好的知识生成、辅助解决问题的能力。而我们都知道,大模型更新的时间比较长,成本也比较高,知识也具有一定的滞后性(例如 ChatGPT 的知识只停留在 2021 年底),如果用现在的数据库存储方式,可以把最新的知识提供给向量数据库,对大模型进行知识增强,可以得到更好的答案。
大家可能会问,现在大语言模型发展得特别快,计算成本可能变得更低,大模型变得越来越大,能不能把所有知识都放到大模型里面?那是不是就不需要向量数据库了?
回答这个问题之前,我们可以看一看过去几十年发生了什么。在计算机发展史中,最经典的架构是冯 · 诺伊曼架构,最核心的贡献就是实现存储与计算分离,即把所有信息、所有计算归为计算问题和存储问题。存储与计算分离有各种各样的好处,传统的冯 · 诺伊曼架构是把信息用二进制代表,实现存储和计算分离。
随着深度学习与新的 AI 浪潮的发展,向量嵌入日渐成为基本的数据交换方式,要是把任何神经网络的每个节点都作为神经元,交换信息是用生物电的信号,但在神经网络里面传播信息都是向量嵌入,所以这是所有神经网络深度学习技术,包括大模型技术中基本的信息交换单元,其实这个单元是在传统的二进制抽象表现加上语义抽象。
我们知道二进制是比较宽泛的表示,但如果赋予智能的话需要有语义,需要知道这个语义和其它语义有没有什么区别。有了向量嵌入,我们再去看 CVP Stack 就会比较简单,本质上就是面向新一代的 AI 应用,基于向量嵌入的计算结构。
大语言模型本质上就是向量嵌入的处理器,归根结底,向量数据库负责的是向量嵌入语义数据的存储与检索。我们要把大语言模型和向量数据库分为两个模块,就是存储与计算分离,正如冯诺伊曼架构一样。这样做的好处就是历史上存储价格永远比计算价格便宜几个数量级以上,大语言模型也不例外。假设有一个大模型可以做 100KB Token,同样条件下,给到大语言模型运算的成本远大于做向量召回。如果这个大模型要做 1000 Token 呢?运算成本将更加昂贵。虽然大语言模型未来会有越来越大的 Token 的窗口,但我们本质上不会把所有信息都分到大模型里面,且大模型不能覆盖全世界所有信息。
未来向量数据库应该会成为大语言片外存储的标配,传统的数据库之所以不适合为大模型做存储,因为没有语义表达,不能提供语义存储。如果说现在有一种数据库方案和存储方案,能够提供语义检索的话,只能是向量存储。Zilliz 开始做世界上第一款向量数据库的时候,内存应用场景根本不是大语言模型,更多的是图片搜索、视频搜索,包括个性化的搜索引擎,但本质上都是用神经网络做成向量嵌入。大语言模型开发门槛的降低让这个领域成为面向开发者友好的 Killer 领域,所以我们认为向量数据库这个领域未来几年将迎来快速的增长与更加庞大的市场规模。
下一个杀手软件
讲完过去一年半年的机会,我们来聊聊下一个机会是什么?刚才老周和轶航的对话也有讲到智能代理越来越被认为是下一代杀手级应用,对此,我很认同。大模型还需要人不停地给予提示,智能代理就是希望通过做任务和场景拆解,解决无限复杂的问题,最终实现和人一样的自我演进的能力,或者形成自己独特观点和演化的能力。例如,可以看看机器的表达,你跟它说今天上班晚了,被老板骂了,它跟你说不用理会老板。
目前,智能代理的商业化已经初露头角,例如 AI 偶像,它不一定是大明星,可以是小网红,AI 通过复制一百个一千个自己和无数人谈恋爱来赚钱。刚才也有聊到我们可以做一个虚拟的骆轶航,实现数字永生,同时参加一百个会议,做一百个演讲,每个分身都有个性,增加游戏的可玩性,甚至在社群里面可以让这些用户在游戏社区里面交互和对话,形成虚拟偶像。文学网站可以拿到一本小说,直接创造很多跟主人公一模一样的角色进行复制。其实这个道理很容易理解,一部小说中主角的对话、行为是很多样的,解读以后 AI 就可以一比一复制,跟小说主角玩一个无穷无尽的游戏。
人类如果想要达到完完全全的智能体,必须做到不断演进,即要有一个智能的处理器和记忆。人类的大脑有一个区域叫做海马体,就是负责长期记忆。记忆是人类智能很重要的部分,不可能今天把昨天的事情忘记还说自己很聪明。如果我们需要一个长期记忆的话,现在行业里面的尝试是用向量数据库存储长期记忆,因为向量数据库的成本是很可控的。假设有一个数字人从第一天开始安装大脑,与其他人没有区别,但每次跟外界的感知、跟外界对话的过程它都会记下来:今天这个人问了我一个不好的问题,明天他又问了一个我特别喜欢的问题……十年以后我依然知道从前和这个人进行过怎样的交互。而如果要做这种大时间跨度的上下文记忆,一定要有一个具备低廉的成本、快速召回并且能够增大的记忆体。想要满足上述需求,向量数据库是很好的选择。
如果我们相信以后会出现很多智能体,可能现在电脑手机中的很多程序都可以用智能体重做一次。举例来说,现在我们订机票、订火车票需要反复比较和操作,酒店、美食就更复杂了,有时候还需要看一看评论再根据自己的喜好做决定。如果有一个智能体可以复制所有的决定,将大大减少我们在这些事情上所耗费的时间成本。此外,写 PPT、写文档的程序也都可以重新来过。智能体的出现会让我们大语言模型的应用从 Copilot 变成 Autopilot,ChatGPT 就是一个 Copilot,需要人不断引导,Autopilot 只要给任务就可以自己拆解,可以全自动驾驶。
未来如果每个人都能够有几十个智能体帮助我们生产生活,像向量数据库这样具有语义查询的存储市场会有很大的增长。过去我们所有的存储,不管是磁盘、内存还是数据库都不具备语义的能力,以后如果有语义存储的话,这个市场是相当大的。
AI 时代,人人都可能是工程师
GitHub 数据显示全球程序员有五千多万,两千多万是移动开发者,十年前其实在全球的移动开发者小于一百万,因为那个时候移动开发特别麻烦。IOS 和 Android 的出现让这一生态极其简单,大量开发者涌入这个生态。过去的十年大家都在讲 AI,但 AI 程序员到今天为止也就区区一百万,工资很高,很多时候招不到人。未来几年可能会得到很大的改变,因为有大量前端工程师、大量移动工程师、大量产品经理,甚至不会写代码的人,大量的在座的各位,可能被我安利一下回去就会拿起电脑写出自己的第一个大语言模型应用。未来几年,AI 工程师会有几十倍的增长,因为在这个时代人人都会写代码,写一个 AI 应用程序是如此简单。
我们今天是在讲 AIGC,主要应用也是专注于 AIGC 和大语言模型领域,其实数据库应用场景远不止如此。过去五年,我们见识到任何一个图片检索的场景,数据库都是标配,任何一个企业如果有海量图片,需要图片检索的时候都会用向量数据库,拍张照片也要检索,视频截图也要检索。抖音、快手这样的程序会去做个性化推荐,其实用的也是向量数据库。目前我们看到所有的 AI 还只是起步,希望在座的各位听了我的演讲以后,回去能够拿起键盘学习 AI 时代怎么去写应用程序,可能会发现特别特别简单,只要花一个下午时间就能够写出你人生的第一个 AI 应用。