闫跃龙

闫跃龙

公告

在通信知名媒体工作超过6 年,担任总编;在京东工作超过5 年,
对互联网、通信、IT 等行业有深入了解和独特观点。擅长撰写深度文章、评论文章,文章不
仅传递观点,而且还能让读者获益。

文集

统计

今日访问:12617

总访问量:15070692

直击天翼云智能计算平台“云骁”:这朵云“骁勇善算”

2023年05月10日

评论数(0)

现在各行各业最火的是什么?答案是AI大模型。据民生证券的统计,国内目前已经有超过30个大模型亮相,各行各业都在热议AI大模型将带来的沧桑巨变。

大模型炙手可热的背后,本质上是一场算力的比拼。据估计,大模型训练的实际算力总需求高达 3640PF-days,即假如每秒计算一千万亿次,需要计算 3640 天,单次训练成本超过千万美元。

国内大模型的崛起,有赖于算力基础设施的突破,千行百业的智能化转型,更是有赖于算力的支撑。最近,在第六届数字中国建设峰会·云生态大会高峰论坛上,中国电信天翼云重磅发布的天翼云智能计算平台“云骁”,就是为此而生,不仅可以更好地支撑起国内大模型发展的星辰大海,更将为千行百业的智能化转型提供澎湃动力。

这朵云,“骁勇善算”


云骁,正如其名,是骁勇善算的“骁”,依托天翼分布式架构云底座和海量计算、存储、网络资源,提供智算、超算、通算多样化算力服务,为大模型训练、无人驾驶、生命科学等场景提供软硬一体解决方案。

在笔者看来,云骁平台以卓越性能、灵活多样和自主可控,切中的是当下智能计算时代的诸多痛点。

如上所述,AI的本质就是高性能计算。中国工程院院士郑纬民表示,预计到2025年,我国AI算力总量将超过1800EFlops,AI算力占总算力比重超过85%。

在这样的背景下,算力底座必须具备超强性能。云骁平台通过GPU裸金属及云主机、HPFS并行文件系统、RDMA网络等底座能力,以技术创新打造出高性能的鲜明标签GPU单卡最高算力可达1979Tflops,HPFS支持100GB带宽、百万级IOPS,RDMA吞吐可高达1.6Tb。

而且,云骁平台还针对超大规模分布式集群训练进行技术优化,带来充沛性能。一个数字可以说明:云骁平台分布式训练的线性加速比高达80%,算效大幅提升,可以更好地助力深度学习时的海量数据模型训练。

智能计算时代的另一大痛点,是算力需求趋于多样化。除了通用算力、AI算力之外,还有高性能计算(HPC),它们在走向融合。郑纬民院士就表示,AI for Science的出现,让HPC的程序中包含了算法,因此“HPC+AI”的融合成为刚性需求。

站在企业的角度,希望能够一站式获取不同类型的算力。这在云骁平台上成为现实,其支持各种主流的AI框架和高性能计算任务管理器,支持多种CPU与GPU的多样化异构算力,可以帮助客户应对多样化的业务需求。换句话说,无论客户需要通用算力,还是AI算力,或是HPC超算力,都能获得满足,堪称是“把简单留给客户,把复杂留给自己”。

而且,云骁平台将通用算力、AI算力、超算力都融合在一起通过云的方式提供,契合了算力统一云化的趋势。尤其是HPC高性能计算在云端实现是比较前卫的事情。HPC最早主要用于基础科研领域,但最近几年也应用于智能制造、智慧医疗、智能城市等领域。云可以赋予HPC丰富的弹性和资源的扩展性、敏捷性,还能降低成本和运维的复杂度。换句话说,云可以让HPC更接地气,变得更普惠。Hyperion Research调研数据显示,2022年底有18.8%的HPC在云端运行,而这个数据在2021年只有12.3%。相信云骁平台的推出,将能加速云端高性能计算的普及。

在特殊的国际形势下,对自主可控以及安全性的关注,是行业对算力底座的另一大要求。在这方面,云骁平台也值得放心。中国电信董事长柯瑞文最近透露,天翼云相继突破了云操作系统、超大规模计算调度、存储引擎、分布式数据库、大数据平台等“卡脖子”技术,基于主动防御理念打造了云原生安全平台“红盾”。汇聚这些自主可控技术突破的云骁平台,也将是更坚固、更安全的算力基础设施。

因此,云骁平台切中的是智能时代对算力需求的诸多痛点,让算力获取简单化、安全化、普惠化,的确称得上是“骁勇善算”。


智能时代的“新基建”,能带来什么?


云骁平台,到底能为千行百业带来什么?站在行业的角度可见一斑。

仿真模拟在汽车开发中扮演重要角色,通常一辆新开发的汽车在进入风洞试验前,要对方案进行上千轮的仿真模拟测试,测试可模拟出汽车整个碰撞过程,通过不同强度的材料在碰撞时发生的变化,对汽车安全性加以验证。

测试背后需要大量的高性能计算能力。吉利中央研究院工程中心空气动力学技术专家梁长裘回忆,自己12年多以前刚入行时,空气动力学开发在设计阶段仅能对简化的汽车模型进行风洞模拟,单次模拟需要耗费两到三天的时间,如此长的耗时,会影响验证方案的多样性,进而影响最后的模拟结果。之所以出现这样的问题,就是受限于计算能力。

通过和天翼云合作,基于天翼云智能计算平台“云骁”,吉利汽车构建起HPC专属云资源池,大幅提升了算力速度、存储空间、网络响应,其计算速度能达到每秒千万亿次,能计算普通PC机和服务器不能完成的大型、复杂课题。数据最能说明问题:吉利汽车平均做一次模拟测试的时间从10小时缩短到6小时,HPC排队队列的减少,有效增加了方案验证的数量,快速输出结果,也保障了决策的快速输出。

众所周知,现在汽车业正在进入竞争激烈的淘汰赛,这时候,时间就是生命,效率就是竞争力,云骁平台以高性能的智能计算底座,支撑起汽车企业在研发上的快速迭代,为汽车企业插上智能化的翅膀。

某油田也见证了算力基础设施变迁所带来的体验变革。以前的石油勘探像看风水,打一口井的成本将近2亿元人民币,下面有没有油需要打完井才知道,现在通过超算,相当于给地球做CT,可以实现精准找油。

通过和天翼云合作,基于云骁平台,该油田构建起高性能算力为主的超算云资源池,实现了勘探新技术的常规化应用,每年可完成1.2万平方公里三维地震资料处理,缩短地震资料出站时间60%以上,数值模拟千万级网络模型单次处理时长可减少80%以上。

这样的例子还有很多:在智能计算平台的支撑下,可以让气象短期临时预报精确到小时,可以让工业生产效率提升百倍,可以让高速路的车辆最高运行速度从20km/h提升到72km/h……据中国信通院测算,在算力产业中每投入1元,平均可以带动3-4元的经济产出,由此可见算力之于企业和产业的价值。

这就是智能化转型的价值所在。智能时代,算力必然成为核心生产力,云骁这样的智能计算平台也必然成为智能时代的“新基建”。


后记:新时代的“大国重器”


天翼云作为国云的框架已经成型。” 柯瑞文最近这样说。

这从云骁平台中体现得淋漓尽致。一方面,它充分展现出天翼云持续创新的进取精神。云骁平台在算力底座、算效提升、算力异构、算力布局等方面实现了技术突破,实现了高阶算力供给、资源高效利用、多种能力服务一站式提供,堪称是天翼云技术创新的集大成者。

最近,在中国信通院联合人民网·人民数据公布的2022算力云服务领航者计划评选中,天翼云登榜六大赛道,成为唯一在全部赛道获奖的厂商,也能看到其在技术实力和行业实践能力上的表现。

另一方面,它也深谙千行百业的智能化转型痛点,引领着算力时代的进化趋势。面对不同的计算架构、不同的算力需求,云骁平台可以实现一体化的供给、一体化的服务,让不同的算力在使用上,可以像用水、用电一样弹性获取,从而更好地支撑起行业的智能化。

中国信通院发布的《中国算力指数发展白皮书(2022)》显示,我国在全球算力规模中的份额为33%,其中通用算力、智能算力和超级算力份额分别为26%、28%和18%。总体来说,我国在通用算力上处于世界领先地位,但在智能算力和超级算力上仍有比较大的差距。

算力云化是中国千行百业走向智能化的重要基础和先决条件。站在这个角度来看云骁平台的推出,就知其重要意义。毫不夸张的说,云骁作为智算、超算、通用算力一体化的云化平台,堪称是新的智能化时代的“大国重器”。

有了这样的“大国重器”,各行各业的智能化将按下加速键。


文章为作者独立观点,不代表联商专栏立场。

联商专栏原创文章由作者授权发表,转载须经作者同意,并同时注明来源:联商专栏+闫跃龙。