数字化时代,我们的的一举一动,一言一行,都幻化成了海量的数据。
许多人都有过这样的经历——你可以随时在银行、运营商查询最近几个月或者近一年的账单;但当时间跨度超过一年的时候,系统查询的时间就要长一些,你可能会间歇性的等待几秒钟。这并不是系统在“偷懒”,相反它正在全速帮你从曾经的数据库中检索数据。
这就是在线业务与离线业务的区别。对于那些检索频次高、应用范围广的数据,许多都存储在在线数据库中,方便用户随时调取;而对于那些时间比较长或者检索频率低的数据,更多时候会存储在离线数据库中,这样就可以进一步降低使用成本,也提升了整个系统的资源利用效率。
但是这种好处也并不是一概而论的。数据查询与检索是一件复杂性的工程。要知道,目前中国用于商用的数据库种类达到了60多种,这还不包括许多企业自行开发的开源版本。换句话说,这些不同品牌的数据库很容易产生数据应用的壁垒,也让你在数据应用中遇到包括应用复杂性、数据处理速度、系统吞吐能力、平台部署与调优等多个层面的问题,相应的也就影响了用户决策,制约行业发展的关键。而想要解决这个问题,最重要的就是提升数据检索的效率,即提升数据处理性能与系统吞吐能力。
以最看中安全、稳定性的金融业务为例。我们许多人都有跟银行打交道的经历。以往我们去银行办理业务大多是对应后端的结构化数据库,比如我们的每一笔交易都在这里;但是如今银行也强调非结构化数据的应用,比如人脸识别、比如账户开户的全程录像,这些非结构化的数据同样需要存储在数据中,也使得原本的数据应用形态和方式产生了改变。
在传统环境中,数据库大多针对结构化数据所构建,所采用的也多是机械硬盘;许多人对于数据库的性能虽然有所认知,但是受限于吞吐量能力,大部分人对于数据库性能的要求也并不高,甚至稳定性的要求更胜一筹。但是伴随着大数据和人工智能时代的来临,高效率、低延迟、实时响应等需求的出现使得传统数据库已经不再复合应用需求,越来越多的供应商也开始结合全闪存开发新的数据库平台,以满足用户对于极致性能的需求。
分布式数据库的出现恰恰是解决了数据利用的效率与安全性等诸多问题。集群中的每台服务器可能有DBMS的一份完整拷贝副本,或者部分拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。这样无论是从数据调取的效率还是在数据安全、稳定等多个方面都有所提升。
星环科技就是这其中的佼佼者。作为一家专注于企业级大数据基础软件的公司,星环科技自创立时起就推出了多款大数据基础软件平台,特别是其中一款名为Transwarp ArgoDB的分布式关系型数据库产品获得行业的认可与青睐。甚至在几年前,星环科技还凭借Transwarp ArgoDB成为了英特尔精选解决方案之一。而伴随着不久前的升级,Transwarp ArgoDB也采用了全新发布的第三代英特尔至强可扩展处理器,从而将性能表现提升到了新的层级。
Argo这个单词取自太阳帆,由一个中心出发展开多个叶片,同时也是星座名,星环科技用Argo来命名自家的分布式闪存数据库产品,体现一个多模数据库可以满足多种应用场景,同时太阳帆螺旋结构具有运动感和速度感,体现出ArgoDB的高性能,也是希望Argo这艘太阳帆能帮助客户徜徉在大数据的世界当中,与大家一起迎风破浪,披荆斩棘。事实上,结合当下开源开放的趋势,分布式数据库也成为了许多企业的选择,Transwarp ArgoDB更是凭借完整的SQL支持、分布式事务支持、实时与批量数据接入、海量数据OLAP和离线分析、支持三级混合存储等五大特性获得了行业的认可。而在这五大特性之中,后三者都与全闪存的性能直接相关。
比如“实时与批量数据接入”。ArgoDB的这一特性支持实时和批量两种数据导入方式。在线业务使用实时数据接入,保证数据时效性;数据仓库等离线业务使用批量数据导入方式,吞吐更高。很显然,这就要求系统具备实时响应的效果,而借助于英特尔闪存平台的优势,ArgoDB不但保质保量的完成数据写入任务,还可以在PB级别的数据量上同时支撑离线分析和高并发的实时/准实时的数据集市类业务,让系统的存储与计算能力得到更大幅度的提升,具备了更大的性能优势。
更重要的是,ArgoDB支持内存/闪存/磁盘的三级混合存储,这让它不仅仅具备了全闪存的优势,还能够兼容传统的数据库平台。比如对于同一张报表来说,DBA可以指定副本的存储策略,如一副本存储在闪存,两副本存储在磁盘,这样多种备份方式大大提升了系统安全性和可靠性。多级存储也使得用户可以更好的在性能和硬件预算间找到平衡点。
俗话说——火车跑得快,全凭车头带。想要让数据处理速度更上一层楼,除了提升存储介质与算法优化之外,更重要的、更直接的方式就是采用更强大的计算平台,为此星环采用了第三代英特尔至强可扩展处理器,通过软硬件结合的方式为客户提供超强算力。
为了验证这种提升,星环科技与英特尔在测试中选择了TPC-H基准测试。这是一个面向决策支持系统的基准测试,由一套面向业务的即席查询和并发数据修改组成,模拟数据库日常应用的情况,可以检索大量数据,执行高度复杂的查询,并为关键业务问题提供答案。
在实际测试中,星环科技选择了计算密集的相关查询 1、4、5、9、10、16、18、20 和 21等项目。而测试结果显示,相较于上代CPU, 第三代英特尔至强可扩展处理器使得星环科技Transwarp ArgoDB的每小时查询处理数(Query Per Hour,QPH)提升了40%。这大大解决了以往计算密集作业下CPU性能不足的效率瓶颈,更好地满足离线批处理数据仓库、实时数据分析平台、OLAP 数据库、全文检索数据库等负载的计算要求,也让整体性能获得提升。
不仅如此,借助于英特尔固态盘DC P4510、英特尔固态盘D3 S4510和英特尔网卡等产品,整个英特尔至强可扩展家族也对性能实现了加成,这样对于用户来说也一劳永逸的解决了后续应用困难。而从用户最关心的成本控制角度来说,正因为新平台性能的优势,使得原本单服务器节点的QPH性能得到巨大提升,用户能够减少基础设施所需要部署的服务器节点规模,减少相应的采购、能源、运维、空间等成本,也符合当下国家强调的“碳达峰”、“碳中和”需求。
正如星环科技联合创始人兼副总裁朱珺辰所强调的那样:“近年来,星环科技与英特尔进行了广泛而深入的合作,不但持续在英特尔架构上优化大数据、云计算和人工智能产品,还合作加快第三代英特尔至强可扩展处理器的应用落地。此次在星环科技Transwarp ArgoDB测试中的实例显示,第三代英特尔至强可扩展处理器在性能上相对上代产品有着显著的优势,结合精选解决方案在可用性、扩展性等方面的优势,能够帮助用户加快以数据为中心的变革。”
如今,随着互联网的飞速发展,人类社会的数据量迅速激增,我们一年产生的数据就相当于人类进入现代化以前所有历史的总和,甚至许多业务量很可能在短短的一个月内突然爆发式地增长几千倍,对应的数据也很可能快速地从原来的几百GB飞速上涨到了几百个TB,这对于各行各业都产生了全新的挑战,尤其对于一贯以稳健著称的金融行业来说,更需要的全面的转型与升级。
在这个过程中,我们更需要能够快速响应、零延迟服务的数据平台,而基于第三代英特尔至强可扩展处理器的星环分布式数据库Transwarp ArgoDB则扮演了更为重要的角色,使得以银行为代表的金融业无论是在结构化还是非结构化数据上都能够快速响应,同时也帮助金融应用更快落地,使得业务本身无论从运行速度还是从用户体验上都有了全新的升级,更适合未来大数据、数字化的应用需求。