干货 | 十五年DBA教你如何多、快、好、省的进行大数据平台硬件选型(一)
在进行硬件配置时,好多人常常会进入一个误区,由于大数据平台存储使用的大多是HDFS,网上的很多说法是HDFS对硬件要求不高,因此一般都选用非常差的硬件。其实这种说法是不对的,这种观念的产生,主要还是技术和业务理解不到位导致的。
硬件是性能的基础,这里我们可以开一下脑洞,让我们想象一下在硬件性能无穷强大的情况下,什么设计与优化都不必关心,当然这是不现实的事情。因此合理的硬件选型就显得尤为重要。我们要做的是在现有需求的前提下做最佳性价比的选择。
在硬件配置中,均衡是一个非常重要的原则,不然会出现严重的资源浪费情况。下面举几个例子:
配置1看起来很强劲,但是只有两块物理盘,最终会怎么样呢,出现了一个明显的"木桶短板",两块SATA盘IO吞吐量才200多MB,那么在应用繁忙时CPU和网络都在等IO,这种配置还不如配差一点的CPU,千兆网络。这样可以减少硬件资源浪费,性价比还更高一些。(当然这也不是绝对情况,在需要CPU密集计算的情况下,CPU数量多点还是好的,但是对于一般数据分析类产品,IO和CPU的需求都很大)。
配置2也是同理,在其他配置都很高的情况下,却使用了千兆网卡。千兆网卡的实际可用带宽也就100MB左右,而12块硬盘一般都在1GB以上的带宽,因此最终瓶颈集中在了网络上。
配置3很有意思,看似乎配置很均衡,不过在这个配置中,每块盘的容量都是8T,明显这是大容量盘,使用这种类型硬盘存在两个问题:
第一个问题,在后期运维时一般我们申请扩容都是与存储使用率相关的,如果一个节点的空间没用到50%以上,申请扩容理由不充分。但是若不扩容,那么在空间使用率超过50%的情况下计算能力很可能跟不上,就会出现"小马拉大车的情况"。
第二个问题,在预算一定的情况下,容量和性能不可兼得。8T的大容量盘往往转速低(多在5400转或7200转),性能相较于15000转的小容量SAS盘差很多。那么在进行读写操作时性能就会成为瓶颈。
所以总结一下,均衡配置不单要考虑项目前期,还要考虑后期随数据量上升,扩容的问题,才能保证系统与资源的健康良性扩展。
关于偶数
偶数科技是一家总部位于北京的云数据仓和AI产品提供商,致力为全球各行业客户提供大数据和AI产品及行业解决方案。我们的愿景和使命是“用科技让人类只为兴趣而工作”。目前偶数科技已经获得来自红杉中国、红点中国、金山云以及产业科技巨头的融资。
公司核心产品“偶数数据云Oushu Data Cloud”由“新一代云原生数据仓库OushuDB”、“自动化机器学习平台LittleBoy”以及“数据管理平台Lava ”组成。产品已在金融、互联网、电信、政府等行业数百家头部企业得到广泛应用。
偶数科技同时是微软加速器和腾讯加速器成员企业,并入选美国著名商业杂志《快公司》 “中国最佳创新公司 50”榜单。