2021年12月14日
评论数(0)
作者 | 小葳
出品 | 子弹财经
智能算力已经成为我国算力快速增长的主要驱动力。
根据中国信息通信研究院2021年发布的《中国算力发展指数白皮书(2021)》,过去五年间,我国的算力结构发生了翻天覆地的变化:基础算力占比由2016年的95%下降至2020年的57%,而智能算力增长迅速,占比已超过40%。
智能计算时代已来,作为智能算力基础设施的人工智能计算中心(简称智算中心)也迎来一波建设热潮。智算中心是面向人工智能场景,提供所需算力服务、数据服务和算法服务的公共算力基础设施。然而,价格混乱、标准不统一、重算力轻应用、重建设轻运营等也成为行业普遍痛点。智能算力如何可持续发展,行业亟待共识与标准出炉。
目前,全国至少近20个城市已经投入到智算中心的建设或规划中。然而在智算中心建设潮中,存在重算力轻应用、能耗高、价格贵等普遍问题。
首先,相比算力规模,应用场景的适用性往往容易被忽视。
根据国家工业信息安全发展研究中心发布的《新一代人工智能算力基础设施发展研究报告》,大多数智算中心采取了算力性能发展优先,再拉动应用发展的策略,导致算力系统的初期应用效率偏低,无法完全支撑全面的智能化应用场景需求。
单纯比拼算力数值意义不大,因为智算中心的目的在于应用。作为新型公共资源,耗资巨大的智算中心不应该成为一个使用率不高、只能支撑少部分应用的中心。人工智能的应用场景复杂且多元,对算力的要求也是多元化的,既有低精度也有高精度。智算中心如何尽可能多地满足更多应用场景、更多元的算力精度,决定了其适用性和使用率。
(图 / 摄图网,基于VRF协议)
其次,在国家双碳战略下,高能耗已成为智算中心面临的巨大挑战。
数据统计,2018年中国数据中心总用电量为1608亿千瓦时,占中国全社会用电量的2.35%。过去那种效率至上忽视节能环保的发展模式一去不复返了,今后能耗不达标的数据中心将无法上线。根据工信部最新发布的《新型数据中心发展三年行动计划(2021-2023)》,到2021年底,新建大型及以上数据中心PUE(评价能源效率的指标,即总能耗与IT设备能耗的比值)要降低到1.35以下。
同样,平均100P算力起步的智算中心也是能耗大户,如何尽可能地降低能耗成为智算中心必须要跨过的一个门槛。以自然语言处理领域著名的GPT-3大模型为例,如果将训练一次该模型消耗的电量换算成碳排放量,相当于一辆燃油汽车行驶70万公里。
2021年多地出现的“拉闸限电”已经为节能减排敲响了警钟。各地要想建设公共的智算中心,首先要解决的问题就是能耗指标。如果智算中心能耗过高,无疑将加重区域经济的能源负担,与当地核心产业争夺有限的能源资源。所以,绿色低碳是智算中心的必经之路。
第三,各地蜂拥建设下,建设标准体系不统一,导致智算中心价格乱且贵。此前有媒体报道,定位相同、功能相近的智算中心,建设成本相差达到6.2倍之多。根据调查数据,同一厂商不同城市的智算中心,每100P 16位算力的成本也相差数倍。智算中心价格混乱且不透明,不但为地方政府增加额外财政负担,同时拉高了后期算力使用的门槛。
纵观智算中心发展失序背后,是一系列标准的缺失,包括通用的设计与建设原则、价格、能耗标准等等。而标准的形成却不是一蹴而就的,需要全行业参与者在高速发展中摸索实践。
业内专家表示,目前智算中心的发展还处在早期阶段,形成统一的行业标准还有待时日,但是打破无序发展状态却迫在眉睫,不能空等。市场需要行业领先者探路破冰、正确引导,逐渐在多方协作中走向有序。
今年7月,中国科学院人工智能产学研创新联盟发布了新一代人工智能计算平台,从基础架构、建设路径、价格模型等维度,为智能计算中心建设提供了参考依据和建设标准,成为行业标杆。
有了大的平台框架后,如何将其产品化,落地到具体的智算中心建设中去?作为新一代人工智能计算平台的主要参与方,中科曙光的“5A级”智算基础设施体系率先给行业打了个样。
“5A级”智算基础设施包括五大维度:“开放、融合、绿色、普惠、服务”,形成了一套完整的智算中心设计建设的通用标准,引发了行业的广泛关注。在顶层制度建设和标准体系方面,“5A级”智算基础设施为全行业提供参考依据,并且在开放性、多元算力融合和建运一体服务等方面实现行业突破。
在“5A级”智算基础设施体系中,首当其冲的就是开放性。AI产业链条长且复杂,覆盖了芯片、软件栈、AI框架、AI平台、AI模型等众多上下游环节。
目前,市场上建设智算中心有两条路径,一条是垂直一体模式,单一厂商独自完成全栈一体的自主生态,从芯片到框架、模型自己全包。第二条是多元协作模式,携手产业链合作伙伴打造开放包容的技术生态。
中科曙光一直选择的是后者。作为公共算力服务平台,兼容成熟主流的硬件、软件技术生态,是智算中心基础且必需的能力。中科曙光的“5A级”智算中心通过芯片、算法、框架、模型的全面开放、兼容,构建多元集成的基础架构,实现算力底座最大程度的易用性,降低迁移成本。
“对建设者来讲,多元协作模式难度要大得多,因为要做大量的适配工作。但是这样能够为开发者和使用者带来一个开放易用的环境,带动整个产业链健康发展。” 中科曙光高级副总裁任京暘表示。
未来,混合精度、多元算力成为公共智算基础设施发展的必然趋势。在AI计算与其它计算技术走向融合的大趋势下,融合成为智算中心的又一大重要原则。“5A级”智算中心通过分布式异构并行体系结构,搭载多类型芯片,可覆盖全算力精度,实现多样性算力供应,满足不同应用场景和多类型用户的需求。
此外,重建设轻服务一直是智算中心的痛点。目前智算中心多数采用建设、运营分离模式,导致了建成后缺乏系统性的运营服务。“5A级”智算基础设施率先提出“建运一体”的理念,承诺服务智算基础设施的全周期。这也让中科曙光成为国内少有的提供从规划设计、中心建设、到平台运营的完整配套服务的服务商。
如果说开放性、融合性决定了智算中心应用的宽度,那么绿色、普惠则决定了智算中心生命周期的长度。
首先,在碳中和时代,低碳已经成为对智能算力的基本需求。
在“5A级”理念中,智算中心既是数字经济的底座,又是绿色经济的重要践行者和推动者。曙光的“5A级”智算基础设施在绿色低碳方面提供了完整的解决方案,可以持续降低、优化整个智算中心的能耗。
当前,液冷技术成为算力基础设施低碳节能首选。作为国内液冷技术的创新者和引领者,曙光“5A级”智算基础设施采用芯片节能、设备节能、平台节能以及清洁能源等多层次技术创新,依托全球领先的浸没式相变液冷技术,可以将智算中心PUE值降至1.04,能耗降低达30%。
同时,曙光还在进一步开发余热再利用技术,如余热发电、余热供暖等。“随着各种余热技术逐步成熟起来,智算中心的PUE值进一步下降的空间还是蛮大的。”任京暘表示。
(图 / 中科曙光高级副总裁任京暘)
其次,智算中心是带有准公共物品性质的新型基础设施,只有通过普惠不断降低AI算力成本,才能让其公共性得以实现。
AI算力是智能时代的水电煤。如何让AI算力成为更多企业创新的普惠基础设施,赋能更多初创企业、中小企业,是智算中心的建设初衷。过去曾出现的天价智算中心,前期过高的建设成本拉高了后期企业使用的门槛,与普惠算力背道而驰。
任京暘认为,今天AI算力价格依然是一个制约产业发展的重要因素。AI算力价格只有进一步的平民化,才能支撑产业更好的繁荣。目前,“5A级”智算基础设施通过多种策略,持续优化算力成本,实现综合建设成本低于市场既有价格30%。
据介绍,“5A级”智算基础设施的普惠成效是综合多种策略实现:除了底层技术创新,开放融合的技术架构与互联互通的算力网络也发挥了关键作用。比如,“5A级”智算基础设施通过异构芯片组合,可以释放技术红利;通过逐步构建算力网络,实现兼容主流生态,可以降低适配成本。
同时,贯穿全生命周期的服务也进一步提升了智算中心的普惠性。此前,一些智算中心建成后,需要政府额外巨额拨款用作服务费,这对地方财政的压力巨大,这种靠政府补贴的模式也不可持续。“建运一体”的模式一方面为算力使用者持续提供了专业的服务,另一方面通过探索后服务的商业模式进一步为智算中心摊平了前期成本。
随着人工智能加速产业落地,在算力结构上,智能算力加速占据主导地位已经是大势所趋。“5A级”智算基础设施将成为衡量智算中心建设成果的重要标准,同时也将加速智能算力健康有序发展。
*文中题图来自:摄图网,基于VRF协议。