400-801-8971

实时湖仓一体

规避数据孤岛,优化数据供给能效

湖仓一体的演进历程

传统关系型数据库的技术架构,尤其是 OLTP 数据库在海量数据的存储、查阅以及分析方面出现了明显的性能瓶颈。随着分布式技术的产生和发展,出现了以 Teradata 为代表的 MPP 一体机数据库,以及 Greenplum 和 Vertica 等软硬件分离的 MPP 数据库。 2000 年到 2012 年,数据仓库在国内得到了广泛的推广,银行、电信等行业最早建立起数据仓库。

2010年前后,大数据热推动 Hadoop 技术快速普及,逐步形成了以 Hadoop 作为数据湖,MPP 作为数据仓库的协作模式。这个阶段的Hadoop+MPP 协作模式,即“湖仓分体”模式。

湖仓分体造成愈发严重的数据孤岛

异构技术架构造成的数据孤岛

湖仓分体方案基本上是以湖、仓和其他组件构成,逻辑上为用户提供统一的数据管理,但物理层面湖和仓仍然是分离的,同一份数据在多个集群冗余存储,导致分体模式下的湖和仓各自形成数据孤岛。

集群规模受限造成的数据孤岛

多数的湖通过 Hadoop 构建,数仓是 MPP 数据库,当数据达到 PB 级别,由于 Hadoop 和 MPP 集群规模受限,企业往往会部署和使用多个 Hadoop 集群和多个 MPP 集群,事实上进一步造成了数据孤岛。

高并发被迫形成的数据孤岛

MPP 单一集群仅支持几十并发,而 Hadoop 支持的并发则更低,因此一个遍历数百 TB 数据的复杂查询可能使整个系统的性能受到很大影响。为了满足高并发,企业不得不把业务分割到更多的集群中,造成更严重的数据孤岛。

偶数实时湖仓解决方案

偶数实时湖仓方案通过虚拟计算集群技术在数十万节点的超大规模集群上实现了高并发,保障事务支持,提供实时能力,实现一个技术平台、一份业务数据、一份元数据。偶数科技通过首创的 Omega 架构保障了湖仓一体 ANCHOR 的实时优势特性,形成了具备全实时能力的实时湖仓方案。

实时湖仓六大特性 ANCHOR

区分「湖仓一体」与「湖仓分体」的锚

偶数湖仓一体方案真正在数据和查询层面形成一体化架构,彻底解决集群规模和并发受限、非结构化数据无法整合、建模路径冗长、数据一致性弱、性能和时效瓶颈等问题,从而帮助用户彻底规避数据孤岛,优化数据供给能效。偶数率先提出湖仓一体 ANCHOR 标准,ANCHOR 中文译为锚点、顶梁柱,ANCHOR 标准或将成为湖仓一体浪潮下的定海神针。

湖仓一体方案比较

通过以下方案对比,可以发现基于 Skylab 的实时湖仓方案在技术先进性、性能和并发、功能特性、开发和运维难度等方面都具有领先优势,完全满足 ANCHOR 标准,为用户节省 1 倍的存储成本,提高 1 倍的开发和运维效率。