大变局:国产数据库的机遇与挑战|深度研报

核心结论汇总

市场环境



Hadoop:随着数据仓库在 Hadoop/Hive 体系上搭建和完善,ETL 任务全部转移至 Hadoop 集群,这个阶段使用Presto 完成 OLAP 分析。Presto 天然和 Hive 共享元数据信息,且共同使用物理数据存储,即插即用。大量的对数仓表的灵活查询使用 Presto 完成;组件非常复杂,软件定义存储,分布式文件系统;存储和计算还是绑定的,交付非常复杂,做了一些边缘场景;







社交领域:Facebook, Twitter,Linkedin用它来管理社交关系,实现好友推荐;
零售领域:eBay,沃尔玛使用它实现商品实时推荐,给买家更好的购物体验;
金融领域:摩根大通,花旗和瑞银等银行在用图数据库做风控处理;
汽车制造领域:沃尔沃,戴姆勒和丰田等顶级汽车制造商依靠图数据库推动创新制造解决方案;
电信领域:Verizon, Orange和AT&T 等电信公司依靠图数据库来管理网络,控制访问并支持客户360;
酒店领域:万豪和雅高酒店等顶级酒店公司依使用图数据库来管理复杂且快速变化的库存。

Gartner对数据库细分市场的规模统计,2020年关系型数据库全球市场规模为531亿美元,占比83.3%。
根据Gartner,2020年非关系型数据库市场增速34.5%,关系型数据库市场增速15.2%。全球非关系型数据库(NoSQL)在 2020~2022年市场增速30%左右,远高于数据库市场整体增速。
我国数据库市场规模在全球占比约5.2%,而同期我国IT支出在全球占比约12%。
2020年我国数据库市场规模在国内IT支出占比约0.9%,而全球这一比例则达1.9%。两组数据都表明,我国数据库市场增长潜力巨大。
伴随云计算底层设施成熟,云端数据库市场份额迅速扩大。中国信通院报告显示,2020年我国公有云数据库市场规模为107.68亿元,占我国数据库规模45%,未来5年复合增长率36.1%,预计到2025年公有云数据库市场规模将超过500亿元。
中国关系型数据库规模为31亿美元,占比76%。由此可见,关系型数据库在国内外无疑都是数据库中的绝对主流。

产业链与行业格局





内核层面:底层能力+性能表现为基础。
底层代码积累与产品迭代需要与具体业务场景深度融合。国内厂商诞生之初就面对Oracle、IBM 的激烈竞争,难以拥有接触客户核心业务场景的机会,目前国家要求金融行业全替换,也是针对办公系统的数据库全替换,在业务系统层面更多的是在小业务系统上做实验,现在去谈核心业务系统的数据库国产化还为时尚早。阿里、腾讯的数据库产品之所以能够成为国内代表,依靠的是与自身电商、支付、社交等核心业务场景的不断打磨,而其他数据库公司之前难以拥有这样的机会。因此,厂商要先争取拿到小业务系统的备份系统机会。
大厂拼综合实力,创业公司拼技术,创业公司胜出的要素是产品过硬。数据库云化是关于部署形态、架构形态的问题,但是对底层技术能力的掌握和提升仍然重要。数据库包括数据库内核、分布式组件和接口驱动,SQL引擎、事务引擎和存储引擎,是否支持多副本、分布式事务、高性能、扩展能力、故障恢复、优化器、多活容灾、语法兼容等核心技术。
数据库性能优势也是要素之一。AP场景天然有很多复杂的用户查询,具体到SQL语句上就是大量的多表连接、复杂的表达式计算、多层嵌套的子查询、聚合函数等等,这些对引擎的查询优化能力要求门槛极高。数据分析型基准测试(TPC-H)是公认的衡量数据库数据分析能力的权威标准之一,因此TPC-H测试结果也被作为数据库性能的衡量标准之一。
外壳层面,大数据与数据库一体化趋势明显,需要完善外部组件部分:自研或兼容主流生态组件,完善产品力为进一步发展支撑。
大数据生态中的组件罗列:

生态重要性凸显
融资历史:
2017-04-01 天使轮 数百万人民币 红点中国
2017-10-31 A轮 数千万人民币 红杉资本中国(领投) 红点中国
2020-11-04 B轮 数千万人民币 金山云 势乘资本Scale Partners(财务顾问)
2021-08-25 B+轮 2亿人民币 腾讯投资(领投) 红杉资本中国 红点中国 势乘资本Scale Partners(财务顾问)
推荐理由:
产品架构全球领先:采用计算存储分离的云原生架构,弹性扩展,可扩展至上万节点,利用云服务器、分布式存储,对数据基础设施的可扩展性进行深度优化,充分满足云端应用高度弹性、无限扩容的要求;
完善的大数据配套工具矩阵:数据管理平台Lava(支持敏捷数据应用开发)、自动化机器学习平台LittleBoy(图形化建模);
多云支持:支持主流公有云部署,包括腾讯云、阿里云、华为云、金山云、微软Azure、AWS等主流云平台,同时支持私有云及混合云,帮助客户解除云绑定限制;
性能优势:领先的 SIMD 性能优化技术,相比MPP和SQL-on-Hadoop快一个数量级。全新设计的执行器让性能提升5~10倍,显著降低批处理和即席查询所需的时间;
兼容性强:具备完善的SQL标准和ACID特性,支持HDFS和多种对象存储的增删改查、以及偶数自研的Magma存储。兼容基于Oracle,PostgreSQL,Greenplum开发的数字应用,用户可以轻松实现不同数据基础设施的平稳迁移;
新一代湖仓一体:创新性提出 ANCHOR“锚点”概念,其6个字母分别代表All Data Types(支持多类型数据)、Native on Cloud(云原生)、Consistency(数据一致性)、High Concurrency(超高并发)、One Copy of Data(一份数据)、Real-Time(实时T+0)。真正的从物理和实施层面形成一体化架构,彻底解决实时性和并发度,以及集群规模受限、非结构化数据无法整合、建模路径冗长、数据一致性弱、性能瓶颈等问题,有效降低IT运维成本和数据管理的技术门槛;
Omega实时方案:率先提出Omega架构,由流数据处理系统和实时数仓构成。相比Lambda和Kappa,Omega架构在批处理层同时满足实时按需和离线按需的数据处理,同时在服务层创新引入了快照视图 (Snapshot View),解决了Lambda 长期的数据一致性问题;
资深核心研发团队:OushuDB由国内顶尖数据库内核研发团队自主开发,符合国家信创标准。偶数研发团队曾主导国际顶级的数据库开源项目Apache HAWQ,担任项目Chair和PMC;
头部客户积累:产品已在建设银行、中国联通、国家电网、VMWare等头部客户落地,并获得广泛认可;
全面生态协同:除了腾讯云、金山云等云厂商股东背书,还兼容UOS、麒麟等国产操作系统,及飞腾、鲲鹏、申威、兆芯、海光、龙芯等国产硬件平台。
来源:光锥智能