国产智算云整体网络架构按照分层设计,包括核心网络层、接入网络层和管理网络层
通过业务核心交换机,构建 AI 训练集群内各组服务器之间、AI 推理集群内各组服务器之间业务数据的高速互联通信,为保证训练过程中的大量数据高速传输,不影响整体训练速度,训练服务器之间采用 200Gb/s 的 IB 端口网络进行数据通信;大模型推理服务针对超大模型应用,部分节点之间也涉及到互联集群,大量数据交互,共同完成大模型推理,因此,大模型推理采用 200Gb/s IB 网络和 25Gb/s 的以太网络进行混合组网。
接入网络层将 AI 训练集群和 AI 推理接入并进行高速数据传输, 属于网络的接入交换层,通过高性能的接入交换机部署,来满足数据交换的高带宽要求。
管理网络层包括带外管理和带内管理,其中带外管理交换机通过接入服务器专用管理端口集中联网形成一个独立于数据网络之外的专用管理网络,实现独立运维;带内管理交换机通过接入服务器业务管理网口,实现业务控制信息与数据信息的统一传送。
国产智算云建设按照等保要求的“一个中心三重防御”的保障理念,重点突出以安全管理中心建设,整合推进技术体系及管理体系的完善,以切实经验助力安全运营,构建优化以安全通信网络、安全区域边界、安全计算环境的多重防御架构,提供持续覆盖企事业单位整体安全防护的安全能力