在上周五完成最后一个每周行业动态[49]之后,才发现距离春节只剩一个月了,2024也即将过去,要不就整体回顾一下这一整年所看到的数据库领域现状与变化吧。
AI(或者说LLM)所展现的能力,似乎还没有看到上限。而基于此的,面相各行业的应用,也在蓬勃发展。数据库和这个领域最大的结合点,就是向量存储与搜索了。在这一年里,几乎所有的主流数据库,都推出或增强了相关功能。Forrester 也率先发布了独立的 Vector Database Wave ,对各个数据库的向量处理能力做了评估。
在今年的Q3,Forrester 发布了独立的 Vector Database Wave,其中 Zilliz(对应开源产品名:milvus)凭借完整、高效的向量数据处理能力处于绝对领先的位置。后续厂商分别有:DataStax、Microsoft、Amazon、Oracle、Pinecone 等[30]。
现在,几乎所有的数据库或云厂商也都在投入“向量”技术,这类 AI 技术与应用也都在快速演进,向量存储与应用的竞争还远没有结束。
再过去的2024年,各个数据库厂商都争相发布了自己在向量方向的支持。具体的:
在整个关系型数据库领域,分布式数据库的市场份额应该是比较有限的。但是,因为其解决的是一个非常困难的问题,而且是大型用户通常需要解决的问题,所以,“分布式数据库”在 RDBMS 领域一直都是一个关键的“组件”。
在中国,主要的分布式数据库厂商有:OceanBase、TiDB、TDSQL、GoldenDB、PolarDB 等,这些产品在一些垂直场景各有优势。在今年07月,IDC发布了《中国金融行业分布式事务型数据库市场份额》报告[7],则很好的反应这个现状:
从这些数据中,可以看到中国金融行业分布式数据库的情况[7]:整体市场空间约为 2.2 亿美元,同比增长12.1%,其中公共云占比约为30%,专有云占比为70%。
由于 TiDB 更加坚定的开源、国际化策略,在这次数据中并没有看到 PingCAP 去太多的宣传。TiDB的重点则在Cloud、国际化、Vector Serach等方向。
随着全球局势变得更加不确定,对抗思潮的不断推高,更加“自主可控”的基础技术已经变得越来越重要了。在今年的9月,“中国信息安全测评中心”发布了最新一批的安全可靠产品认证名录[36]。相比往期目录,经过认证的数据库数量是增加了,并且额外新增了分布式数据库目录。
集中式数据库主要厂商有华为 GaussDB、金仓、神通、海量、瀚高、华为 TaurusDB。
分布式数据库厂商很多,包括了 PingCAP TiDB、达梦、PolarDB、金仓、GBase、神通、虚谷、TDSQL、GaussDB、GoldenDB、OceanBase等。
此外,今年,CockroachDB 对开源协议做出了重大调整,对于使用开源的用户进一步做出限制。具体的,可以理解为对于小企业(年收入1000万美金,似乎也不是很小…)免费使用,年收入超过1000万美金的企业则需要付费[34]。
依旧,PostgreSQL在经历一场缓慢的崛起,MySQL则在原地踏步。在2022年的总结中,就曾给出了这个结论[50],而这个趋势似乎越来越明显。
根据Stack Overflow在2024年的调研数据[51],PostgreSQL已经成为最受开发者欢迎的数据库。在海外,由于云厂商在不断增加对PostgreSQL的投入;在国内,由于国产数据库对于PostgreSQL的青睐。看到,PostgreSQL 崛起的趋势也越来越明显。
虽然,在DB-Engines的排名中,MySQL依旧优势很大,但,过去的一年,MySQL在引入创新版后,发布8.1/2/3/4、9.0版本,但,MySQL最大的进步本身,大概就是版本迭代的模式变化,而这种变化给MySQL创新带来的效果还没有出现。在9.0版本中MySQL虽然发布了vector
但功能还非常不完善,而 PostgreSQL 的 pg_vector 已经被广为使用了。
在由 JetBrains 发布的 《State of Developer Ecosystem Report 2024》[47],也可以看出类似的趋势。该数据显示:
受大环境的影响,除了AI或大模型相关技术除外,最近两年融资市场都非常冷清。但在过去的2024年,在数据库领域,依旧有非常多的亮眼的融资事件。
达梦数据库上市:首日公开交易,发行价为86.96元/股,当日收盘价为240元(对应市值182亿),盘中最高报313元(参考);而到今年年底,达梦的股价一直 350~400 元上下波动,市值则高达250~300亿之间。
PostgreSQL托管初创公司Tembo获$1400万美元A轮融资[1] ,该公司以开源产品的形式提供完整的PostgreSQL生态产品托管服务,同时提供Tembo Cloud以云产品形式提供托管服务。
OpenAI 收购 实时分析数据库开发商Rockset[2],其估值约为5~10亿美金,以增强大模型在实时数据搜索与分析的能力。
开源时序数据库 GreptimeDB宣布完成数百万美元的新一轮融资。GreptimeDB是一款Rust 语言编写的时序数据库,具有分布式,开源,云原生,兼容性强等特点,帮助企业实时读写、处理和分析时序数据的同时,降低长期存储的成本[5]。
K1 100%收购 MariaDB。K1是最大的小型企业软件投资公司,总部设在加州曼哈顿海滩。MariaDB 是一个独立的 MySQL 分支,由 MySQL 的创始人 Michael Widenius 发起并创建[15]
Supabase 完成C轮8000万美元融资,该平台以PostgreSQL为中心,向开发者提供各类服务的平台,包括数据库、认证服务、存储、实时事件同步、向量数据库等 [24]
ApertureDB 融资$8百万美元,致力于构建AI时代的多模数据流服务,帮助企业更加敏捷的构建上层的智能化的服务[31]
在今年的12月,也就是前几天,Gartner 正式对外发布了 2024 数据库魔力象限[48]。今年,依旧由Google、AWS、Azure、Oracle领跑;MongoDB、DataBricks、Snowflake则又向左上角前进了一些。
阿里云则依旧保持在领导者象限。华为云则在时隔两年后,再次进入该象限。
分布式数据库厂商 SingleStore 进入,而 Yugabyte 跌出。
AWS re:Invent 发布新的数据库产品 Aurora DSQL ,提供了跨区域、强一致、多区域读写的能力,同时具备99.999%(多区域部署)的可用性,兼容PostgreSQL;同时发布的还有 DynamoDB 也提供类似的跨区域强一致的能力[6]
阿里云李飞飞发布由Data+AI驱动的多模数据管理平台DMS[22];RDS 产品则主打“降本增效”发布了自研倚天ARM版、集群版、新增了加速 IO 方案(BPE)等,PolarDB 则发布了 Redis 协议接口
字节火山云 veDB MySQL 发布透明HTAP支持,当前处于邀测阶段。采用了MySQL plugin 架构方式,在内核侧自动分流AP 和 TP 请求,如需手动分流,可以使用Proxy[19]。
腾讯云开源了 TXSQL [17]; TDSQL 再创 TPC-DS 世界纪录,以7260万QphDS的性能和37.52元/kQphDS的性价比打破榜单纪录,性能提升282%,成本降低37% [32]
在 Oracle CloudWorld 上,Larry发表主题演讲《Open MultiCloud Era & AI + Cloud Security》,坚定的走多云、私有云战略,发布了Oracle@Google、Oracle@Azure、Oracle@AWS等方案 [16]
GCP的主要发力方向为 AlloyDB;同时也在增强其基础产品的能力,例如 Cloud SQL for SQL Server 现提供两种版本 Enterprise Plus 和 Enterprise。
微软云 Azure 的重点依旧是 Cosmos DB 和 SQL Database。在向量数据库上,Azure多款数据库发布DiskANN向量索引[42]。
OceanBase开发者大会发布 4.3 发版,高调进入实时分析 AP 领域,同时将支持行存 & 列存一体化、新向量化引擎、物化视图等能力,同时宣布了OB Cloud将作为独立的数据库厂商,登陆阿里云精选市场 [23] 。
相比其他数据库,PingCAP 投入了更多资源到 AI (LLM 或者 GenAI,不管叫什么吧)方向上去进行探索,除了支持初步的向量存储之外,TiDB 还可以使用 AutoFlow 和 LlamaIndex 开始的构建一个基于知识库的聊天助手。虽然这个功能与一般意义的“数据库”不那么相关,但是也能看到TiDB的执行力和投入之坚决[35]。
腾讯云 TDSQL 再创 TPC-DS 世界纪录,以7260万QphDS的性能和37.52元/kQphDS的性价比打破世界纪录,性能提升282%,成本降低37%。通过自研MPP和并行执行框架,TDSQL显著提升资源利用率和计算效率,广泛应用于30多家金融机构 [32]
这算是一个非常酷的探索。正如 ApeCloud 创始人曹伟所说,“数据库可以做的方向不多”,ApeCloud 在发布了开源数据库的云原生管控平台之后,与今年的11月又开源了一个有意思的产品:WeSQL,基于S3的MySQL数据库。WeSQL 目前属于探索阶段,如果数据存储量很大的测试环境,可以考虑该方案降低存储成本[37]。
此外,其他方向诸如,Text2SQL、数据库优化等方向,也有一些厂商在做更多的探索,例如,AWS Redshift 正式支持(GA)自然语言生成SQL功能,该功能由 Amazon Q 实现,可以再Redshift Query Editor中使用该功能 [21] ,Copilot for Azure新增了对Azure SQL、 Azure Database for MySQL的支持等。
图数据库是大模型生态的一部分,在过去的一年,各个图数据库厂商也借势迅速发展。
Neo4j 宣布其年度经常性收入(ARR)已超过2亿美元,并在过去三年中实现了ARR翻番。Neo4j 在快速扩张的图技术市场中的领导地位,以及最近几年图技术对于提升生成式AI(GenAI)结果的准确性、透明性和可解释性至关重要作用,是增长的核心因素[38]。
今年,在主要的数据库学术会议中,国内的厂商也有很多亮眼的表现。包括:
关于作者:周振兴,NineData 联合创始人 & 技术副总裁 ;Oracle ACE ;《高性能MySQL 第三、四版》译者;曾任阿里云数据库资深技术专家