AI魔法学院客服
向量数据库不是一个单独的数据库分类
在不久的将来,我们会看到: 每个数据库都会提供某种形式的向量搜索。 其中包括图数据库、关系数据库、文档数据库以及键值数据库,甚至还包括缓存。
 2023-11-30
收藏 复制地址分享海报

在不久的将来,我们会看到:

每个数据库都会提供某种形式的向量搜索。

其中包括图数据库、关系数据库、文档数据库以及键值数据库,甚至还包括缓存。

向量数据库和其他数据库之间的边界会变得模糊。

目前被分类为“向量数据库”的产品,如PineconeWeaviateMilvus等,不再有竞争优势,也不再有亮点。

现有的数据库产品会利用已有的负载和客户基础来获取新的RAG(检索增强生成)负载。

其结果是,我们有必要考虑“向量数据库”是否有必要作为单独的数据库分类存在,还是仅仅是一个任何数据库都能提供的特性。

随着生成式AI的飞速发展,很大一部分的查询会以“密集向量搜索”的方式执行。相信任何数据库公司都不会无视这种负载。因此,相信绝大多数能够存储文本的数据库都会提供向量搜索。

实际上,这种“数据库的向量数据库化”正在进行中。

直到2023年第二季度之前,“向量搜索”还主要存在于数据库初创公司,如PineconeMilvusWeaviate等。但现有的数据库产品很快捕捉到了这个需求,如今所有云厂商都进入了“向量搜索”市场。就连原本不卖数据库的Cloudflare也进入了市场。这是因为任何“与数据有关”的公司都想从RAG负载中分一杯羹。

2023927日,Cloudflare发布了vectorize

2023622日,MongoDB发布了Atlas Vector Search

2023628日,Databricks宣布了新的生成式AI工具。

2023年第四季度,IBM发布了向量数据库的预览

当然,像Elastic、微软等公司早就提供了向量数据库。

但这并不仅仅是大公司们害怕自己错失良机。现有的数据库产品提供向量搜索是合理的选择,这样就不需要将数据库移动到专门的向量数据库。同一个数据库中同时搜索向量和原始文档也能降低延迟。因此,现有的数据库进入这个市场,对客户是有利的。

一般而言,独立的向量数据库会带来额外的开销和复杂性。假如你使用MongoDB,在多个地区的数据库中保存了几亿个文档。如果使用独立的向量数据库,比如Pinecone,就意味着可能要在两个数据库之间跨地区传递数十亿个嵌入。这部分成本非常高,更不用说额外的复杂性了,因为你还要自己生成嵌入。

而使用一个支持向量搜索的数据库(比如MongoElastic),就可以更快、更便宜、更简单。

当然,提供向量搜索也是一种防御措施。RAG是生成式AI最大的两种负载之一(另一种是推断)。不提供向量搜索意味着放弃RAG负载,就会导致客户迁移到其他数据库。这对于数据库公司是一种威胁。

现有的数据库会越来越多地支持RAG负载的整个生命周期,包括生成嵌入。

数据库会为嵌入提供越来越多的原生支持(即数据库用户只需插入文档,数据库将负责在向量存储中本地生成嵌入)。

甚至是端到端的RAG和重新排名都可能得到数据库的支持。

这种融合趋势将产生一些后果:

越来越多客户考虑使用专用的向量数据库,还是使用现有数据库的向量功能。

每个数据库都会试图介入生产中的RAG工作负载。

数据库和人工智能公司的路线图产生冲突的频率越来越高。

向量数据库初创公司的增长速度会放缓。直到2023年上半年,他们都在享受着企业购买者对于生成式AI负载不熟悉、犹豫不决而带来的红利。但是现在已经是2023年第四季度了,企业对于什么是向量搜索已经更加了解,他们更倾向于寻求与其当前数据基础设施无缝集成的解决方案。若论无缝衔接,还有比为当前数据库添加向量搜索功能更理想的方案吗?

出自:https://mp.weixin.qq.com/s/wPKKkBrAQ19naawwmAtYUw

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
5 评论
王子牛2023/11/30 17:17:54
强悍!这篇文章为我们揭示了向量搜索在数据库领域的未来发展趋势,真的太科技、太新颖了!生成式AI的发展推动了这一变革,让向量搜索成为所有数据库的基础特性,太先进了!这一变革对向量数据库初创公司可能带来的影响也值得我们思考。真的太创新了!期待未来的发展!
自封大师2023/11/30 17:17:29
这个预测很有意思,向量搜索成为所有数据库的基础特性,那将会对查询效率产生巨大的提升。同时,生成式AI的发展也确实在推动这一趋势。但不知道向量数据库初创公司的未来发展会如何,是否会受到行业巨头的挤压,还是能够开拓出新的市场呢?值得持续关注。
高质量人类2023/11/30 17:17:06
感谢分享这篇文章,真的很有意思!文章提到的向量搜索将成为所有数据库的基础特性这一点,我深表认同。生成式AI的发展确实在很大程度上推动了这一趋势,现在大部分查询都是通过“密集向量搜索”的方式执行,这一点也很值得关注。另外,文章提到向量数据库初创公司的增长速度可能会放缓,这确实是一个值得思考的问题。希望这篇文章能引发更多关于数据库领域未来发展的思考和讨论。
鲜奶千层雪2023/11/30 9:45:23
这篇文章让我对数据库领域的未来发展有了更清晰的认识,尤其是向量搜索这一趋势在其中的重要性
国产大宝贝2023/11/30 9:45:13
虽然向量数据库初创公司的增长速度可能会放缓,但整个行业的发展前景仍然值得期待