编者按:随着数字化程度的深入,异构造成的能耗高、兼容性差、管理成本提升就是企业必须要解决的发展瓶颈。近日,CCID赛迪《数字经济》2024年第8期刊发封面文章,深度解析神州数码的产业洞见和绿色方案,为多云异构背景下数据中心建设运营、企业数字化转型提供绿色发展的参考路径。以下为文章全文。
近年来,随着数字化转型步伐加快、 人工智能产业发展迅猛,数字化底层算力需求迎来爆发式增长。但与之相对应的,大模型 Workload 等带来的大量新增的算力需求,叠加 GPU 能耗超过 CPU 两倍以上的高能耗,正在给数字经济的“绿色化”发展带来极大挑战。MIT 研究表明,未来人类需要为人工智能相关应用新增10% 的能源需求,也就是说,届时“练大模型比炼钢还费电。”
近期,国家发展改革委办公厅、国家数据局综合司印发《数字经济2024年工作要点》,再次强调推进绿色数据中心建设,降低数据中心能耗。围绕算力生产、供给、运营、应用全过程,积极推进算力设备、算力载体、算能协同和算用协同等多个环节绿色化发展,已成为绿色算力发展的必由之路。
但作为发展绿色算力的布局重点,智算中心在建设和运营过程中往往面临异构兼容性差、利用率低、能耗高等痛点难点。面对智算时代的现实痛点和需求,神州数码旗下神州鲲泰通过软硬件协同创新,打造多云异构时代下的绿色智算解决方案,为算力基础设施建设提供了性能强、能效高、节能环保的新路径。
痛点解构, 新架构助力异构智算质效提升
当前,我们已迎来一个新的异构智算的时代。由于全球产能进入瓶颈、供应受限、企业客户预算有限、供应链安全及信创合规要求必须达标等现实问题,企业往往需要面对智算底层基础设施多品牌、多型号的算力环境等现状,异构的智算基础设施已成为必然选择。再结合本身混合云部署的现状,企业往往还将面临极大的算力构建选型、部署、运维复杂度和难度的挑战。我们形象地比喻这是一个中国独有的“智算攒机时代”。
同时,面对大量的模型训练和推理任务,算力利用率仍存在亟待突破的瓶颈。资料显示,OpenAI 训 练 GPT-4 的MFU(Model Flops Utility)在32%到36%之间。而目前行业 MFU 利用率的平均水平仅为 30% 至 40%,智算资源利用率尚有很大的提升空间。如何在混合云部署的背景下完成复杂的算力构建选型、部署和运维,并最大程度地提高智算资源利用率、降低成本,已是中国企业不得不面对的巨大挑战。
针对以上难题,神州数码旗下神州鲲泰推出异构智算调度运营平台 HISO、异构智算加速平台 HICA,有效解决智算集群间以及集群内面临的复杂异构兼容问题,实现智算资源利用率的显著提升。
图 1 神州鲲泰全液冷整机柜
其中,异构智算调度运营平台 HISO基于云原生技术,整合 GPU 硬分片和虚拟分片技术,能实现 GPU 资源虚拟化或池化,完成跨集群之间的算力调度。根据用户业务需求,该平台可以在整个异构智算资源池中匹配优选算力组合,提升 GPU 服务器集群的资源使用率。异构智算调度运营平台 HISO 拥有将国内外GPU 资源混合组网、混搭调度、算力精细隔离等关键能力,可以“像管理一台 GPU主机一样,管理和调度多个集群的 GPU 资源”。通过 GPU 容器直通、IaaS 卸载,该平台减少了模型加载时间,相比传统方式,模型加载速度提升3倍。同时还能实时收集智算中心全栈、全链路指标,发现和定位软硬件故障,实现算力可观测性。
异构智算加速平台 HICA 则着重解决集群内部的算力调度优化问题,通过屏蔽集群内底层算力生态差异,突破关键计算效率瓶颈,有效提升算力利用率与可用性。异构智算加速平台 HICA 通过自研的服务层、中间适配层以及调度编排算法,采用数据并行、模型并行等方式,把并行计算任务进行有效分解,匹配相应的软件栈和算力资源来承接。当 GPU资源变化时,该平台可以实时动态调度计算子任务并调整模型拓扑和架构,以充分聚合各种算力资源。
基于其拥有的“一云多芯”特性,异构智算加速平台 HICA 可实现在不同品牌、不同型号芯片组成的智算集群中的混合训练推理,预计可降低 20% 的闲置算力。此外,根据不同模型、不同算子之间集合通信流特点,该平台还可自适应选择最合适的通信参数,达到更高的通信效率。在不同模型运行过程中,充分考虑存算比要求的不同,平台可以从宏观到微观多个尺度选择最合适的存算比资源加载模型,使 MFU 提升 10% 至 20%,MBU 提升 5%。企业能在其支持下有效提升多云异构算力资源的利用效率,降低能耗,实现绿色智算的目标。
硅光 + 液冷,技术创新破解能耗难题
在实际场景中,我们发现,节点和节点间互联已成为智算中心的主要能耗来源。以一个万卡智算中心为例,采用200G 接口互联,需要约 80000 个光模块,其互联所需的能耗则占到总体的 5%。对于一个企业来说,每新增一个用于智算的机架,其运行一年约等于增加 15 万度电,约等于 100 个家庭的年用电量,约等于 1.5 吨二氧化碳排放量,带来巨大减排压力。
面对高能耗挑战,神州鲲泰通过硅光加液冷整机柜方案,在为智算中心提供强大算力的同时,显著加强了对能耗成本的控制。
针对节点间互联的能耗问题,神州鲲泰采用硅光技术,通过单光源多调制器,降低调制器电压,同时采用分布式反馈激光器等一系列技术,有效降低 25% 的互联能耗。与此同时,针对节点的能耗问题,神州鲲泰推出液冷服务器,通过一体化冷板、智能流量调节来提升系统的散热效率,采用负压管线系统,漏液近端探测技术,并联动服务管控系统提升冷却系统的可靠性,有效降低 30% 的节点能耗。
需要注意的是,硅光和液冷都是精密的互联系统和管路系统,接口多,接头复杂,现场实施部署难度极大,并且实施周期长。为了帮助客户规避实施部署中的诸多难题,神州鲲泰推出“KunTaiPod2000 全液冷整机柜”方案产品,通过一体化交付方式,有效降低部署和运维的复杂度的同时,实现 100% 全液冷及高性价比液冷方案。在产品支持下,数据中心 PUE 可达 1.15,并凭借 60KW+ 的最大单柜功率,实现 1.5 倍于行业平均水平的能效比,助力企业显著缓解能耗指标紧张、电力成本偏高的压力,提升整体绿色发展水平。
释放绿色智算动能, 跑出数字经济“加速度”
人工智能是新一轮科技革命和产业变革的核心驱动力,也是发展新质生产力的重要引擎。随着技术的突破与应用场景的拓展,“人工智能 +”正给各行业各领域注入新的发展动力,同时带动算力服务需求快速增长。据工业和信息化部统计,截至 2023 年年底,我国算力总规模达 230 EFLOPS(每秒 230 百亿亿次浮点运算),其中智算规模达到70EFLOPS(每秒 70 百亿亿次浮点运算),年增速超 70%,被视为人工智能时代重要的供能中枢。
当前,中国凭借位居全球第二位的算力水平,支撑起了超过 5000 亿元的产业规模。要推动人工智能产业高质量可持续发展,坚持低碳理念、打造绿色算力是必然的发展方向。2023 年 12 月,国家发展改革委、国家数据局、中央网信办、工业和信息化部、国家能源局联合印发《关于深入实施“东数西算”工程,加快构建全国一体化算力网的实施意见》提出要强化绿色低碳技术推广应用,提升数据中心绿电使用比例,增强绿色算力供给水平。在政策与市场的双轮驱动下,绿色算力有望释放更大的发展潜力。
面对新的发展机遇,神州鲲泰从智算中心系统整体性能提升出发,提出了走新智算架构之路的策略。异构智算调度运营平台 HISO 与异构智算加速平台HICA,回答了如何解决智算集群间以及集群内面临的复杂异构兼容及利用率的问题。而硅光技术加液冷服务器的一体化解决方案,则有效解决了节点和节点间互联的能耗问题。神州鲲泰建立了高通量、高并行、高效率、低能耗的多样化智算架构,通过软硬件的融合创新,能帮助客户快部署、低投入地突破算力瓶颈,为多云异构时代下绿色算力的快速增长铺平了道路。
在新的智算架构支撑下,性能更优、成本更低、能效更高的智算中心已然在望。未来随着智算中心的绿色化升级步伐加快,绿色算力将像水电一样泛在普惠,在各行各业释放巨大价值,为数字经济发展提供源源不断的动力。