金融行业进入数字化转型的深水区,在宏观政策和监管层面,数字化转型的核心目标之一就是推动基于数字资产和数字化技术的金融创新有序发展,这也对金融机构的数据基础设施提出了更为明确和严格的要求。

针对这一挑战,中信建投证券股份有限公司(下称“中信建投”)在“科技赋能、运营升级,以数字化转型助推客户服务体系建设”的战略目标下,通过整合湖仓一体的新型数据基座架构,积累实践经验,为中信建投的全面数字化转型奠定坚实基础。

 

积土成山,风雨兴焉

 
2017年,中信建投洞察到数字化转型对金融行业的深远影响,启动了数据仓库建设项目。2018年,采用基于MPP架构的数仓平台和金融业逻辑数据模型,整合了经营、管理等领域多个重点业务数据源,数据仓库正式投入运行。这是证券行业全渠道数据在MPP上独立运行的早期成功实践,基于数据仓库成功构建了数十个关键应用,全面支撑了中信建投零售、市场、风险、财务、运营等业务板块的数据应用场景。

图1:中信建投数据仓库架构


到了2019年,尽管数据仓库已经不断丰富和优化了大数据的应用管理能力,但随着数据量的急剧膨胀,数据仓库开始暴露出一系列挑战:扩容和管理成本压力日益增大,传统架构已无法满足开放生态的数据应用,深入洞察业务价值的需求逐渐凸显。

为应对这些挑战,中信建投于2020年启动了基于Hadoop技术栈的企业数据湖建设项目。Hadoop技术栈在非结构化数据查询、集群管理效率等方面较以往有较大提升,开源社区也涌现出一批优秀的计算框架可以支撑各类数据应用场景。

企业数据湖建设项目陆续构建了适应不同使用场景、数据类型和数据处理方式的逻辑数据湖,累计数据量达数百TB,为中信建投提供了一站式的大数据应用管理能力。

图2:中信建投数据湖架构


为了能同时管理好Hadoop数据湖和MPP数仓,中信建投使用统一平台管理工具,尽量保障湖、仓双边一致性。在此期间,双平台数据存储达PB级,日作业数超上万个,每日联机服务百万次,每日即席查询十万余次。

然而,随着数据量和数据应用的快速增长,MPP+Hadoop方案的局限性逐渐凸显:平台、集市数据孤岛现象日益严重,导致数据和信息难以流通;大量的数据冗余增加了存储和管理成本;数据处理性能难以满足日益增长的业务需求。

中信建投深入剖析了现有双架构模式,从技术视角入手,发现无论是MPP还是Hadoop,或是MPP+Hadoop组合都存在技术局限。

首先,以中信建投的Greenplum数据仓库为例,尽管MPP架构具备高并行计算能力和良好的查询性能,但其紧密耦合的存储和计算设计使得系统扩容变得相对繁琐和复杂。

其次,Hadoop(Hive+HDFS)数据湖虽然实现了存储与计算的逻辑分离,具备一定扩展能力,并能管理大规模的数据存储,但其依赖于MapReduce的计算引擎导致数据处理的物化代价较高,从而影响了整体查询和分析的性能。Hadoop对大规模、复杂数据管控机制相对较弱,机构用户直接基于未经优化的数据进行查询时,很可能会遇到性能瓶颈,从而导致用户体验下降。

此外,为了消除数据孤岛,MPP和Hadoop之间频繁的数据迁移和同步操作不仅增加了系统的复杂性,还对数据的一致性和实时性构成了严峻挑战。双架构并行往往涉及众多的技术组件,这不仅使得平台整体变得复杂,而且增加了系统出错的概率和运维成本。面临多模态的数据处理问题,平台存储形态的差异导致基础数据的副本数越来越多,数据冗余严重。

在这样的背景下,如何整合湖仓,规划和引入新一代数据平台,成为了中信建投当下的战略重心。

它山之石,可以攻玉

 
2022年末,云原生产业联盟组织了云原生湖仓一体研讨峰会,中信建投专家组与偶数科技团队进行了深度交流,中信建投非常认同偶数科技提出的新一代湖仓一体平台六大核心特点:一是支持多类型数据存储;二是具备完善的事务机制以保障数据一致性;三是能通过一份开放格式数据支持丰富的计算引擎;四是具备分析查询场景下的超高并发负载能力;五是能提供T+0的数据实时技术支撑;六是具备云原生的技术架构,实现存储和计算的分离以及弹性资源应用管理。

在知痛寻解的过程中,中信建投将偶数的湖仓一体解决方案列为首选。基于OushuDB的湖仓平台不仅完全具备了MPP并行和高性能,还具备Hadoop的可扩展能力。OushuDB的存算分离架构使得存储和计算可以独立扩容,极大简化了系统扩容的复杂性,同时具有基于精准统计信息的查询优化器,能够生成优化的查询计划,显著提高查询性能。

因此,中信建投决定将湖仓一体技术作为数字化转型项下的数据平台升级核心技术,并将其纳入2023年新一代数据平台的实践。

 

凝矩画圆,湖仓合一

 

中信建投与偶数科技联手,充分利用偶数在大数据处理领域的技术优势进行湖仓平台的规划和实践,通过存储层、计算层、租户应用层三层,灵活应对数据规模、数据计算、数据用户的“弹性”需求。


存储层转变为低成本、开放的、支持多种数据类型的存储集群,采用开放ORC格式(未来可扩展使用Hudi/Iceberg等格式);计算层则是支持ORC的计算引擎,提供数据管理特性和高效访问性能,能够支持多样数据分析和计算。然后,通过存算分离架构实现节点的灵活扩展,减少数据搬迁,提升数据可靠性和一致性。


图3:中信建投湖仓一体平台系统架构 


积微成著,云智融通

 
中信建投根据湖仓一体平台的规划,进行湖仓异构的互联整合,并在存储介质、数据标准、平台迁移、信创生态等方面各个击破,在技术及管理方面形成了证券科技的最佳实践。

存储介质融合

偶数帮助中信建投构建了高度统一、标准化的数据存储环境。首先,实现了数据存储介质的统一,通过采用标准的HDFS替代Greenplum的私有格式存储,消除了不同存储介质带来的管理复杂性。其次,推行数据格式和标准的一致性,确保数据在整个生命周期中稳定、可追溯。此外,为了进一步提升数据存储的智能化水平,偶数为中信建投设计和实施了冷热数据分析智能分流机制,以及冷数据不出库移动策略,从而优化了数据的存储成本和访问效率。

数据开发标准化

多计算引擎间语法与性能的差异,使得SQL的实现方式呈现出显著的多样性,存量计算任务逐渐成为机构运营的沉重负担。为此,由中信建投牵头、偶数等厂商共同研发了新一代数据开发平台。该平台可基于标准SQL语法,引导开发人员基于“数据逻辑”进行设计,而不局限于“数据实现”的开发。该平台设计消除了不同计算引擎间的差异,实现计算引擎的无缝切换,为湖仓一体平台可控性和使用便捷性奠定了坚实的基础。

数据平台迁移

为了确保原Greenplum和Hive平台能安全、高效和准确迁移,偶数帮助中信建投研发并部署了四款关键工具。
  • 数据交换平台自动化迁移工具,大大提高了数据迁移的安全性和效率,减少了人为错误的可能性。
  • 数据湖血缘梳理工具,为团队提供了清晰的数据脉络视图,帮助用户快速掌握数据结构。
  • OushuDB翻译工具,轻松地将Hive SQL脚本转译为标准SQL,降低了跨语系脚本转译的难度。
  • 跨平台数据核对工具,实现了标准化、自动化的核对流程,确保数据的一致性和准确性。

信创生态的云原生

云原生架构是湖仓一体平台发展的必然趋势,中信建投基于信创替代战略的私有数据中心,依托国产硬件、国产芯片、国产操作系统以及国产分布式数据库,构建了一个具备云原生、数据一致性、无冗余、超高并发、多类型数据支持以及实时处理能力六大特性的湖仓一体基础数据架构。

虽部署环境基于裸金属设备,但中信建投引入OushuDB云原生分布式数据库技术,实现存储与计算的分离,从而在私有云环境中实现了弹性、可靠和快速迭代能力。



图4:中信建投湖仓一体平台技术架构


与公有云的多租户模式相比,中信建投能够直接管理所有访问和操作流程,并通过物理隔离和网络隔离等安全策略,进一步降低资源共享引发的数据泄露风险。

 

结语

  
在偶数科技的支持下,中信建投完成了湖仓融合前沿技术的重要历程,打造了既符合国产信创替代战略,又能满足金融科技高度可靠、安全和稳定需求的湖仓一体基础数据服务体系,实现全量数据、全域数据服务的并行支持。

过去五年,中信建投已在数据仓库、数据湖和实时数据应用等方面取得显著的建设成效。随着该项目的落地,中信建投在平台异构整合、存储介质融合、数据开发标准、数据平台迁移和信创生态云原生等关键技术领域,继续形成核心竞争力。

展望未来,湖仓一体平台的探索与实践将是一个持续演进的过程。偶数科技也将不断总结与优化,持续利用云原生和AI技术的创新与融合,支持中信建投打造智能、敏捷、安全、稳定的数字底座。