随着生成式人工智能的迅速发展,催生出大量新场景、新业态、新模式,引发智能算力需求爆发式增长,AI算力已经成为推进发展新质生产力的重要引擎,对以云网融合为核心特征的数字信息基础设施提出更高的要求。根据中国电信发布的《AI算力服务器(2023-2024年)集中采购项目》显示,本次集采规模超80亿元,包括AI服务器4175台以及IB交换机1182台,其中国产算力占整体采购数量的47.35%。其中神州鲲泰系列服务器入选标包3和标包4(风冷、液冷智算服务器),中标金额超1.1亿元。
算网融合
构筑坚实的算力基础
近年来,中国电信持续推动数字信息基础设施演进升级,规划并建设全国“2+3+7+X”公共智算云池,在京津冀、长三角建设国内领先的万卡全液冷智算集群,在广东、江苏等5省打造千卡资源池,满足AI训推需求,截至目前,中国电信智算总规模达到21EFLOPS。
打造算网融合的公共智算云池,需要将运营商核心网络池化升级,神州鲲泰智算服务器搭载“鲲鹏+昇腾”处理器,通过标准的IT虚拟化技术,把网络设备统一到工业化标准的高性能、大容量的服务器、交换机和存储平台上,建立统一体系,实现软硬件标准的统一并充分解耦,模块化的软硬件搭配能形成更灵活的配置。神州鲲泰打造的众核架构以及虚拟化技术生态,帮助运营商客户将多个物理服务器资源整合到单一物理服务器上,有效实现了资源的共享和高效利用。神州鲲泰通过匹配运营商客户统一的算力封装标准,形成自动化的算力感知与状态传播,有效适应不同业务规模和需求的变化,充分响应数字时代AI业务灵活多变的实际需求。
在神州鲲泰智算服务器的支持下,电信加速推动数据中心向AIDC升级,强化智算中心对算力资源的弹性部署,针对智能算力异构和分散化等问题,构建分布式智算集群,突破单体智算中心的算力、空间、供电等资源限制,为跨地域、跨层级、跨主体的算力协同调度奠定基础。
灵活调度
打造一体化智算服务平台和运营体系
在打造算力基础设施的前提下,中国电信正全面升级自身的智能云能力体系,加快构建一体化智算服务体系和能力,提供强大的算网调度能力、高效的异构计算能力、一站式的训推服务能力和丰富的落地应用,推动算网调度、技术架构、训练推理和资源管理等“四个一体化”的发展。
为有效应对运营商多云异构的智算需求,神州鲲泰打造异构智算调度运营平台HISO、异构智算加速平台HICA,帮助高效管控在多云异构环境下的算力资源调度。其中异构智算调度运营平台HISO能实现GPU资源虚拟化或池化,完成跨集群之间的算力调度;异构智算加速平台HICA解决集群内部的算力调度优化问题,帮助客户在多云异构环境下显著提升算力使用效率。在项目的前期适配中,神州鲲泰智算系列服务器能快速完成对客户算力调度平台的适配工作,通过算数协同、多级调度等技术,有效推动异构算力的标准化接入纳管,促进一体化算力调度体系加速形成。从而在面向行业大模型训推场景时,能通过一站式智算服务实现大模型训推,将训练效率提升50%,推理效率提升28%,并通过全链路监控保障训练质量。
绿色智算
节能环保
随着各种高性能芯片的发展,导致数据中心热流密度明显升高,而电子器件失效的主要原因就是温度过高,高能耗导致高故障,散热需求推动液冷解决方案的发展。值得注意的是,此次采购中液冷服务器作为单独标包进行集采且份额不小,体现出液冷技术在智算中心建设中的重要性正在提升,液冷技术及解决方案有望迎来新发展。
神州鲲泰此次提供的产品中包含液冷解决方案服务器,通过一体化冷板,智能流量调节来提升系统的散热效率,采用负压管线系统,漏液近端探测技术,并联动服务管控系统提升冷却系统的可靠性,有效降低30%的节点能耗。而为了帮助客户规避接口多、接头复杂、现场实施部署难度大、实施周期长等难题。通过采用一体化交付方式,神州鲲泰液冷解决方案产品在有效降低部署和运维的复杂度的同时,还能实现100%全液冷及高性价比液冷方案,助力数据中心PUE迈向1.15,并且凭借60KW+的最大单柜功率,实现1.5倍于行业平均水平的能效比,在为客户提供强大算力的同时有效控制能耗成本。
数字信息基础设施为人工智能提供了充足的计算、存储和网络资源,承载了丰富算法模型和海量高质量数据,支持人工智能应用与场景快速对接,加速数据要素汇聚流通。神州鲲泰智算服务器正在帮助运营商客户打造更大带宽、更高速率、更低时延、更加可靠和更大弹性的算力网络,借助鲲鹏处理器以及昇腾AI处理器的能力,加速AI算力与产业应用融合,持续推动数据要素价值释放。