偶数科技亮相2021金融科技、监管科技、区块链蓝皮书发布会
2021年12月18日,一年一届的2021金融科技、监管科技、区块链蓝皮书发布会(以下简称“蓝皮书发布会”)成功举办,受疫情影响,本次发布会采用直播形式,偶数科技受邀出席并作演讲。
蓝皮书发布会由中国社会科学院社会科学文献出版社、中国支付清算协会、中国金融学会金融科技专业委员会等机构指导。北京区块链技术应用协会(BBAA)主办。
本次大会发布了《中国监管科技发展报告(2021)》、《中国金融科技发展报告(2021)》、《中国区块链发展报告(2021)》,三部年度蓝皮书分别由中国人民银行货币政策司司长孙国峰、中国人民银行科技司司长李伟、中国证监会科技监管局局长姚前担任主编。
三部蓝皮书均由中国人民银行等权威机构指导,社会科学文献出版社授权出版,汇聚了来自监管机构、银行、科研院所、行业名企等的专家、学者及行业代表共同参与编写。同时发布了的“金融科技产业图谱”、“监管科技产业图谱”和“区块链产业图谱”,重点描述了各自领域内的产业生态、细分领域和代表性企业,有助于客观、全面、正确认识各领域发展水平和趋势,为政府部门、企业、投资机构以及行业从业者等提供科学参考。
以下为偶数科技发言实录:
1、数据仓库架构发展路线:无限扩展、超强性能与兼容性
近年来,大数据和云计算技术不断推陈出新,在千行百业尤其是金融行业中更快加速落地,通过改变战略决策、改变企业创造价值和服务方式,不断彰显数据对业务的驱动力。当我们提及大数据和云计算,就不得不提云数仓。云数仓是如何出现在今天金融科技的聚光灯下的?我们可以一起简单回顾下数据仓库的发展脉络。
数据仓库的发展可以分为四个阶段。从上世纪80年代开始,以Oracle和IBM DB2为代表的共享存储架构是当时的主流数据库产品。早期我们做分析应用还没有专门使用分析型的数据库,仍然是使用经典的事务型数据库。
相信不少开发者对传统的事务型数据库的特性都非常了解,比如SQL兼容性非常好。但在做大规模复杂查询的时候,性能表现得并不是很让人满意,同时由于共享存储架构本身的特点,扩展性并不是很好,通常一个集群只能达到十几个节点。
随着数据体量不断增大,以及用户分析需求的不断增强。从80年代开始出现了专门用于分析的MPP分析型数据库,像我们熟知的Greenplum和Teradata,仍然保持跟传统事务型数据库一样优秀的SQL兼容性,虽然MPP数据库的存储和计算没有分离,但凭这样的并行架构已经能扩展至上百个节点。MPP架构跟传统事务型数据库一样,对云的支持并不友好。
从2000年开始,国内外陆续的提出和提倡大数据平台的概念,也就是第3代的SQL-on-Hadoop架构。比如我们比较熟悉的SparkSQL和Cloudera,可以达到上千个节点,并且对云有一定的支持。但是跟传统的MPP数据仓库相比,在性能和SQL兼容性上都不尽如人意。
那下一代的数据仓库的架构是什么样的呢?我们认为应该是云原生架构。尽管云原生计算基金会CNCF给出了应用层面云原生的定义,但是目前行业还没有统一的云原生数据库的定义。从架构本身的特点以及云设施的特性来看,你可以发现云原生应该是存储和计算完全分离的。云原生架构把MPP和SQL-on-Hadoop的不足之处进行了很好的优化。单个集群可以达到数千节点,同时在复杂查询性能和SQL兼容性上也非常完善。由于存储和计算是完全分离的,所以可以很容易的,也就是云原生的支持主流云平台的基础设施。美国的Snowflake就凭借这样的特性在资本市场上大为吸睛,甚至得到了巴菲特老爷子的关注;在国内,偶数科技自主研发的Oushu Database也凭借计算存储完全分离的架构,获得了很多用户和投资人的青睐。
2、OushuDB 架构
极速分析型数据库
领先的SIMD性能优化技术
实现PB级大数据交互式查询
性能超越传统数据仓库5-10倍,SQL on Hadoop引擎数十倍
云原生数据库架构
计算与存储分离、多虚拟计算集群、弹性扩展、多级资源管理
完整兼容ANSI-SQL等国际标准
高兼容性、ACID特性
无缝支持AI
国产自主可控
计算与存储分离
计算集群之间数据可以方便共享,相比传统数据库很大的一个优点
多虚拟计算集群
虚拟计算集群之间资源可以隔离,相互不影响
可插拔存储
支持各种对象存储、HDFS和自研Magma分布式表存储
支持多云、混合云及跨云
支持腾讯云、阿里云、华为云、AWS,Azure,金山云
80+%企业使用多云,防止云厂商锁定
弹性扩展架构
增删节点时无需对数据进行重分布
系统可用性高,扩展性好
多级资源管理
支持全局-用户-操作符多级别资源管理
Pay-as-you-go
但是OushuDB并不是一个镜像的Snowflake。OushuDB有自己的特色和优势,比如在底层存储这方面,Snowflake只支持对象存储S3,因此只能在AWS上为用户提供服务;
OushuDB除了S3还支持腾讯云的COS存储、HDFS以及偶数自研的Magma存储。这样也就使得OushuDB在不同的云平台,以及私有化部署上都能够满足用户的需求。同时也依托多种存储格式,在混合工作负载和实时分析方面提供了更好的解决方案。
我们可以看到云原生架构的数据仓库有非常多的优势和特点,像计算存储分离、多虚拟计算集群以及可插拔存储,由于时间原因,我就不为大家一一展开了。我想重点分享一下,由于计算存储完全分离促成的集群弹性扩展,从用户侧最直接的感受就是按量计费。
3、成本不变,效率提升
这样会带给用户什么样的全新服务和体验呢?原来一个复杂查询我们要用10个计算节点要跑一个小时,那现在我们可以选择100个计算节点跑6分钟。同样的IT成本,用户的效率提升了。我相信这样的用户体验,会为包括金融行业在内的众多行业客户带来更加极致的体验和数字化转型的想象空间。
4、SIMD 的新执行器创造卓越性能表现
OushuDB是目前全球领先的新一代分析型云原生数据库引擎,基于SIMD技术,可以实现PB级大数据交互式查询
性能比传统数据仓库快5-10倍,比传统SQL on Hadoop引擎快几十倍
领先的性能优化技术
采用了基于SIMD的全新执行器
动态流水线架构
基于SIMD的压缩解压算法
为什么OushuDB保证云原生架构的同时又能达成卓越的查询分析性能?我们可以着重说下说计算引擎。计算引擎就像跑车的发动机一样,直接决定了一台跑车的速度。执行器作为计算引擎中最重要的组件,它的优化策略直接决定了计算引擎的性能,也就是决定了一台跑车的马力和速度。OushuDB采用的是SIMD(单指令多数据流)的执行器优化策略,显著提升了执行器的效率。
5、SIMD 执行器
OushuDB基于SIMD的新执行器,在国际标准测试数据集TPCH上的测试结果表明,OushuDB比Greenplum大约快5-10倍,比SparkSQL
3.0版本要快几十倍。
6、传统数仓平台架构
这一页展示了传统数据仓库的数据处理流程。今天我们要讨论的除了数据仓库本身,还可以看到近些年银行业的数据跨域融合需求不断增长,融合生态不断完善,构建湖仓一体化平台,实现湖内建仓、湖仓协同,进而对外提供离线和实时分析、以及交互式查询。
目前,尽管很多头部金融机构多做了系统性规划,在集团层面建立统一数据平台,但是大多数地方金融机构内部仍存在湖仓割裂、“数据孤岛”等现象。
7、传统数据湖平台架构
这是传统数据湖的数据处理流程,不同数据源和各种类型的数据先汇总至数据湖,再到数据仓库。这是搭建传统数据湖后很常见的湖仓割裂的情形。
8、偶数数据云助力实现湖仓一体
偶数湖仓一体方案通过可插拔存储和虛拟计算集群打通数据湖和数据仓库。结合底层大数据存算分离架构,实现全量数据统一存储;通过统一元数据实现全量数据的视图统一;上层提供SQL接口实现接口统一,并极大地降低了大数据使用的难度。
这种湖仓一体架构,使得金融机构的用户有能力构建逻辑数据湖,全局的使用一份数据,通过灵活的计算引擎应对高速发展的业务需求。
9、以OushuDB为核心,为企业提供超强性能的分析型数据库
除了刚刚跟大家分享的这些OushuDB的特点,偶数科技也围绕着偶数的生态打造了不同的组件和产品,为用户提供完整的产品矩阵。比如自动化机器学习平台LittleBoy和数据管理平台Lava。目前偶数已在金融行业的头部客具备最佳实践,比如建设银行、中信银行、浙商银行。
10、中国建设银行 & 偶数高性能大数据处理技术实验室
同时,我们非常重视与金融行业客户共同研究、合作和创新。偶数与建信金科共同成立了高性能大数据处理技术实验室,融合建行PB级海量数据的应用场景和偶数科技的数据库创新能力,共同打造新一代的极速云原生数据仓库,用于数据湖、湖仓一体等大规模核心数据的处理场景。
11、云原生数仓领航者
偶数科技成立于2016年,是一家云数仓和AI产品提供商,致力于赋能国内外各行业客户。偶数的愿景和使命是“让人类只为兴趣而工作”。偶数科技的产品已在包括金融在内的众多行业得到广泛的部署和应用。目前,偶数科技已经获得世界顶级投资机构红杉中国、腾讯、红点中国与金山云的四轮投资。是微软加速器和腾讯加速器的成员企业,并入选福布斯中国企业科技 50 强和美国著名商业杂志《快公司》中国最佳创新公司50强