数据库管理系统继续向云迈进——这个举措正在造就越来越复杂的供应商和产品格局。该魔力象限将帮助数据和分析负责人在复杂且快速变化的市场中做出正确的选择。
战略规划假设
到2025年,组织偏爱使用云来管理数据将大大缩减供应商版图,而多云的增长将加大数据治理和集成的复杂性。
到2022年,云数据库管理系统(DBMS)的收入将占DBMS市场总收入的50%。
市场定义/描述
Gartner对云DBMS市场的定义如下。核心功能是指供应商完全提供由供应商管理的公共云或私有云软件系统,这种系统负责管理云存储平台上的数据。数据存储在云存储层(比如云对象存储系统、分布式数据存储系统或其他专有的云存储基础架构)中。或者,它们可以适合多种数据模型和数据类型——关系型、非关系型(文档、键值、宽列和图)、地理空间、时间序列及其他类型的数据。
这些DBMS反映了旨在为以下一种或多种用途支持事务型处理及/或分析型处理的优化策略:
- 传统的增强型事务处理
- 传统的逻辑数据仓库
- 数据科学探索/深度学习
- 数据流/事件处理
- 操作型智能
该市场不包括仅提供在IaaS(比如虚拟机或容器)中托管、由客户管理的DBMS的供应商。
市场概况
这个市场继续呈现出以下特点:云收入增长、云收入在DBMS总收入中的百分比提高,以及用户对本地产品的兴趣下降。这是Gartner的客户咨询服务得出的结果。
Gartner的DBMS市场数据和Gartner的2020年企业公共云部门数据显示,DBMS市场总收入为648亿美元,其中262亿美元来自云DBMS产品(占整个DBMS市场的40%)。更为重要的是,在DBMS总收入增长的95亿美元中,云DBMS这部分贡献了88亿美元(占DBMS总收入增长的93%)。
Gartner预测,到2022年,云DBMS收入将占DBMS市场总收入的50%,比2020年预测的提前了一年。
今年魔力象限的顶部和右侧有大块空白,表明仍有改进的空间。提供多云、互联云和混合云的功能已非常先进,但并非所有供应商都能提供这三种云,也并非每种云都做得一样好。
此外,云DBMS对元数据的处理变得更重要。需要元数据来帮助发现数据,并了解数据的使用、治理、安全、沿袭和质量,并作为更多增强型数据管理功能(包括优化)的基础。很显然,元数据将不仅仅由集中式专用工具控制,DBMS将更多地参与到元数据的处理中。这将有助于实施数据结构和数据治理。总体而言,其他市场将以更具创新的方式充分利用元数据。预计云DBMS会日益关注这个方面。
供应商最初向云迁移的举动现已接近尾声,现在的动向更多地是利用云。云原生供应商一开始提供简单的云产品,现在通过提供更复杂的功能来扩展云产品。同样,总的来说,传统的本地供应商如今已成功地转移到云。它们旨在融合功能丰富的易于使用又可靠的云服务。
CSP在一定程度上认识到客户需要云之间的协同操作,但这尚未普及,也不是所有用途和场景都需要的。
对于分析型用途的DBMS而言,需要满足一个高标准。有效的SQL处理、与数据湖集成以及与AI和机器学习集成现在司空见惯。这样一来,新进入者更难进入市场。此外,随着CSP丰富壮大功能集,ISV保持差异化优势并因而维持增长面临挑战。
在分析型数据库领域,数据共享概念已普及开来,多家供应商拥有产品或发布了公告。虽然使用数据库共享数据这个概念本身不是什么新鲜事,但新一代数据共享功能使组织可以轻松地在数据市场内打包和销售数据,并让消费者而不是发布者承担访问成本数据并将其与自己的数据集成的成本。基本功能对竞争对手而言不难复制,我们预计大多数大型供应商会提供这些功能。然而,尚不清楚用户组织会希望采用特定技术来访问数据,而不是采用更加类似开放系统的方法——Apache软件基金会已经至少在开展这种类型的一项计划。此外,几家供应商拥有重要的专有数据集或者拥有现成的一批客户,他们将构成一个天然的市场。可能会出现多个相互关联的市场。
针对操作型DBMS,传统的联机事务处理得到了很好的服务。批式事务处理已成为 Spark的一种用途,特别是数据湖软件中拥有更强大的功能,比如实现湖仓一体(Lakehouse)的那些系统。另一个值得注意的OPDBMS趋势是,出现了分布式数据库管理系统(DDBMS)。目前,这些数据库针对非常特殊的大规模需求,或面向中国这样的庞大区域市场。然而,随着时间的推移,这些数据库可能会进入主流,更加本地化的系统只是将所有DDBMS组件和数据集中在一个位置,但能够跨多个位置和云随意扩展,或随意移动到其他位置,然而,就目前而言,主流的非分布式DBMS将继续能够满足大多数组织的要求。
开源软件API的影响力越来越大。大多数云供应商为流行的开源数据库管理系统 (OSDBMS)提供服务,尤其是PostgreSQL和MySQL。更值得关注的是,几家供应商(包括CSP和独立供应商)提供的DBMS拥有与PostgreSQL或MySQL兼容的API,但它们自己的后端具有高度可扩展性。其中一些还旨在提供事务型处理和分析型处理的混合型处理。
向数据生态系统迈进的趋势仍在继续。数据生态系统出现在这种环境下:提供商不仅在针对特定服务(比如数据仓库、数据湖或机器学习)的单点解决方案上展开竞争,还在集成多项服务的方上展开竞争,从而使它们很容易被一起使用。这个趋势可能愈演愈烈,不过与此同时,一些供应商会继续在同类最佳解决方案的基础上展开竞争。
最后,值得一提的是,除了提供许多服务的大型组织外,还有许多供应商致力于提供一组特定的功能,就注重这组功能,并且做得很好。其中一些供应商多年来一直在市场上提供解决方案,或者可能是所在领域的创新者。如果最终用户组织希望获得这些供应商提供的特定功能,它们可能是不错的选择——重要的是供应商及其产品适合用户组织的实际需求。
2021年云数据库管理系统魔力象限:
2020年云数据库管理系统魔力象限:
腾讯之所以被淘汰,是因为它没有达到Gartner的市场动能门槛。
新增:Cockroach Labs、Couchbase、Exasol、MariaDB、SingleStore。
Gartner 对各厂商的评价,云头条仅列举部分,完整版可参阅原文。
阿里云提供多款产品,甚至一个类别提供多款。比如说,除了PolarDB和两个版本的AnalyticDB外,还有多款操作型数据库产品。一个版本基于Greenplum,另一个版本直接针对大规模高并发OLAP式样的处理而开发。
追求创新和规模:PolarDB、AnalyticDB和AliSQL由内部设计和开发,是大规模的云产品。PolarDB为阿里巴巴双11全球购物节提供技术支撑,2020年峰值时段每秒处理583000笔订单,高峰时段创下每秒处理1.4亿次查询的新纪录。
产品重叠:虽然阿里云拥有广泛的产品是优点,但另一方面也让人混淆。不过采用英文和其他语言的文档易于访问和浏览,阿里云在简化产品不必要的重叠方面取得了重大进展。
AWS是全球最大的云供应商。然而,它在多个云平台上提供服务方面落后于一些云服务提供商(CSP)和几乎所有独立软件开发商(ISV)。鉴于AWS支持混合云环境、某些场景下在不同云之间共享其数据,以及承认存在多个云平台并适应这一现状的数据策略,以AWS为中心的这个问题似乎略有缓解。
AWS对数据库服务采用最适合的方法,因而能够为不同类型的使用场景提供针对性的解决方案。然而,AWS数据集成、目录和元数据解决方案正在兴起,现在不如一些竞争对手的解决方案来得强大,这可能给架构师们带来更多的工作。
Cloudera 专注于混合云部署的做法,这基于它创建一种为部署在本地环境和多个公共云上而设计的治理型架构。它为客户提供了一种方法,以便客户按照各自的步伐,以一种按部就班的方式将适当的工作负载迁移到云端,同时保留并扩展策略执行和安全机制。
CockroachDB Dedicated在AWS和GCP上都可以运行,在本地混合环境上也可以运行,还可以访问多个云上的数据,而一些分布式平台竞争对手无法提供这种功能。
Couchbase 有数量众多的本地和自我管理的云部署系统,它们用于大企业环境中要求苛刻的内存中工作负载。它能够结合一种基于文档的架构与内存中处理和ACID事务,并使用一种流行的基于SQL的查询语言,因此适合满足市场对这类应用不断增长的需求。
Couchbase在咨询Gartner的客户中颇受好评,常常被视为是MongoDB的替代者。Couchbase在定价和合同灵活性方面受到好评,这是讨论竞争产品时经常提到的话题。
Databricks 提供一种真正开放式的架构,甚至支持存储方面的多种开源格式。这种开放性体现为可以与众多平台上的其他数据源相连接,并有助于扩大这家供应商的数据市场的覆盖范围和吸引力。Databricks还与其他供应商共同推进开源Delta共享(Delta Sharing)计划。
Lakehouse架构在数据湖存储的基础上提供了关系型功能。先进的关系型功能虽然很好,但还达不到更成熟的关系型数据库具有的水准。
Databricks为最新版本增添了工作负载管理功能,但其功能仍然无法与市场上更成熟的解决方案相匹敌。
谷歌虽然满足大多数的核心需求,但GCP 的产品组合不如与之竞争的云服务提供商多样而全面。强大的技术合作伙伴关系确实填补了其中一部分空白,但潜在客户应了解什么是第三方集成而不是原生的GCP产品。
虽然华为提供一系列广泛的产品,但潜在客户可能难以确定哪种解决方案是最佳选择,因为存在诸多重叠现象——比如说,GaussDB(for MySQL)就与 RDS for MySQL和RDS for PostgreSQL重叠。
Gartner预计,随着GaussDB扮演更重要的角色,华为的入市方法会有所改善。
IBM Cloud Pak for Data建立在OpenShift 容器化基础架构之上。客户将需要管理整个堆栈的更多组件,这取决于它部署在哪里。完全托管的“即服务”操作目前仅在IBM Cloud中可以使用,或通过面向特定产品的IBM Cloud Satellite来使用。
与任何ISV一样,MariaDB 面临来自原生云服务提供商和市场地位更牢固的ISV的激烈竞争。每家CSP 都有 MySQL产品或与MySQL兼容的产品,其中许多产品已深入集成到CSP基础架构中。
虽然MariaDB已成为开源社区(包括大多数Linux 发行版)中与MySQL兼容的DBMS产品的事实上标准,但这尚未在更广泛市场的商业收入中有所体现。在Gartner评定的按收入排名的DBMS供应商中,MariaDB依然排名垫底,在产值近650亿美元的市场中仅占不到1%的市场份额。
Gartner对其的评价是不一致的生态系统成熟度。
微软云生态系统的一些关键部分仍在建设中,即Purview、Synapse Link(用于 Dataverse)和行业数据模型。潜在用户应仔细核查微软目前的功能是否满足自己的需求,并核查交付所需额外功能的时间表是否明确。
只有Oracle自己的DBMS服务可作为托管服务在OCI上使用;Oracle将在2022年提供PostgreSQL托管服务。虽然Oracle数据库通常可以移植到其他云上,但Oracle数据库客户在其他云上运行时需要为多出一倍的虚拟CPU付费。Oracle Real Application Clusters(RAC)在其他云上不受支持 ,Oracle数据库尚未通过可在所有主要CSP上运行的认证。
Oracle的本地产品常常被认为价格昂贵且难以管理,客户继续对合同谈判表示担忧。Oracle在这些方面已取得了进展:改用一种新的云端商业模式(采用按需付费的价格)、完全自动化的自主数据库、始终免费(Always Free)服务方案、自带许可证(BYOL)以及动态弹性。此外,免费的Oracle Cloud Lift Services可帮助客户迁移到OCI,支持奖励(Support Rewards)计划为购置消费OCI服务提供奖励。客户应该认真评估给出的方案,以实现价值最大化。
Oracle在提供真正的dbPaaS托管服务方面动作非常慢。这导致许多企业使用来自CSP和ISV的其他dbPaaS产品。据Gartner的数据显示,Oracle在2020年dbPaaS市场的份额仍保持在3.3%(262亿美元中的8.759亿美元)。非Oracle客户应认真评估近期的云迁移选择。
Redis 在内存中数据缓存方面大获成功,使其成为一家成功的供应商,但常常作为现有DBMS供应商的补充或者应用程序开发人员需要它时出现。这限制了Redis在DBMS市场中的公认实力及整体增长机会。
为了确保高性能,Redis没有开启实现强一致性的机制;然而,这最近已得到了纠正。这是一项比较新的功能,用户应核实该功能是否适合其事务工作负载。
Redis提供了在数据仓库中很有用的功能,即RedisTimeSeries、RedisGraph和RedisConnect。然而,用户应该注意Redis对SQL和关系型范式其余部分的支持很有限,因而限制了其对数据仓库的适用性。
Snowflake在六年前首次推出其产品时,拥有高度差异化的优势。今天,其主要竞争对手的产品越来越强大,Snowflake在一些方面的差异化优势已经缩小,而在其他方面继续取得进步。
参考资料:Magic Quadrant for Cloud Database Management Systems