正在大模子参数爆炸、演练推理并重的趋向下,「超节点」成为下一代 AI 底子举措的要紧对象。
区别于古板准绳 AI 供职器的算力交付体式, 超节点具备更强的算力集成与数据传输才干, 其内部普通采用高机能合同, 将 AI 加快卡间互连高带宽域 (HBD,High-Bandwidth Domain) 擢升, 冲破 8 卡和 16 卡领域的控制, 正在极致延时前提下竣工算力无损的扩展。
百度具有着十众年的供职器策画和安插体味。正在 OCP 计划项目中, 百度将本身正在 AI 本事周围的上风与 OCP 项目成员共享, 和其他成员一齐饱舞修筑怒放的 AI 硬件生态体例。同时, 与 Facebook、微软睁开配合, 结合同意 OAM (OCP Accelerator Module) 准绳。正在 2011 年, 百度就策画推出了第一代北极整机柜 (也被称为「天蝎」整机柜)。
正在 AI 和大模子时期, 百度特意为 GPU 计划场景策画的供职器 —— 超等 AI 计划机 X-MAN, 撑持了百度集群各项 AI 营业落地。2022 年百度基于 X-MAN 4.0 装备了邦内首个全 IB 搜集的千卡级 GPU 集群, 支柱了 2023 岁首百度文心一言的颁发,2025 年 X-MAN 5.0 助力昆仑芯 P800 3 万卡集群的落地。
正在本年的 Create 2025 百度 AI 开辟者大会中, 百度智能云颁发昆仑芯超节点。比拟古板的 8 卡供职器算力交付体例, 昆仑芯超节点将 64 张昆仑芯 XPU 放到统一个机柜, 卡间互联带宽擢升 8 倍, 单整机柜演练机能擢升了 10 倍, 单卡推理机能擢升了 13 倍。从机能上讲, 一个机柜就能顶过去上百台呆板。
为了支柱好昆仑芯超节点这种新算力状态的落地, 百度天池 AI 高密液冷整机柜从机柜、计划节点、搜集互联、供电散热、装备拘束等方面举办了立异策画, 使得昆仑芯超节点成为了一套具备高算力密度、高牢靠、纯洁运维、容易安插等特质的 32/64 卡最小算力交付单位, 并可支柱万卡级别集群搜集互联。
正在百度天池 AI 高密液冷整机柜的支柱下, 昆仑芯超节点撑持 1U 4 卡的超高密度算力交付体式, 单节点一部分即可轻松维持。计划节点的重点芯片的温度可能低浸 20℃以上, 为 XPU 供给平静的运转情况。可能适当百般机房的供电情况, 并撑持正在风冷机房安插交付。
昆仑芯超节点基于百度天池系列 AI 高密液冷整机柜, 撑持整柜一体化的交付形式。同时采用水、电、网 3 盲插策画, 正在无需精准瞄准的前提下竣工组件急迅牢靠对接的本事。遍及一线运维职员, 初度接触产物即可轻松上架运维。比拟古板风冷准绳供职器的交付体例, 可能大幅度缩短营业上线韶华。
昆仑芯超节点机柜正在空间操纵上阐明了极致, 竣工了超高密度的算力秤谌。以类型 64 卡场景为例, 普通需求 8 台 8U 的风冷 AI 供职器, 占用 64U 空间, 而昆仑芯超节点通过整机柜计划仅需 28U , 即 16 个 1U Compute Tray + 8 个 1U Switch Tray + 2 个 2U Power shelf, 机柜空间操纵成果擢升一倍以上, 极大优化了数据核心的安插密度和能效比。
高算力、大带宽、强互连是昆仑芯超节点的重点策画主意。正在有限空间与功耗束缚下竣工极致的算力密度擢升, 是咱们正在策画时屡屡打磨的要点对象。
依托百度众年正在整机柜架构策画上的本事蕴蓄堆积与工程体味, 咱们采用 1U 单节点 4 卡液冷计划, 相较古板 AI 供职器的 8U 8 卡策画, 算力密度擢升了 4 倍。
AI 算力被誉为「重资产」, 不光外示正在其本钱上, 更外示正在物理重量。古板 8 卡 GPU 供职器整机重量高达 120 kg, 上架需 4 人合作。而昆仑芯超节点得益于 1U 轻量化策画, 单节点由一部分即可轻松维持, 极大优化了数据核心的运维成果。
计划节点基于 21 寸准绳 1U 计划节点架构, 前窗 I/O 高度集成, 可圆活撑持百度太行 DPU、4 张网卡、4 块 NVMe、2 个 M.2、HBA 卡或 RAID 卡等众种筑设, 满意庞杂众样的算力场景需求。
计划节点采用模块化策画,CPU 板、PCIe Switch 板与 GPU 板彼此解耦, 撑持邦产化 CPU 平台, 具备极高的圆活性与可扩展性。
每个节点装备双 PCIe Switch 芯片, 通过双上行链道与 CPU 高速互联, 修筑 1:1 无壅塞互团结构, 竣工了高效更动与低延迟通讯, 彻底清除数据瓶颈。
正在 AI 底子举措中, 搜集互连不光仅是相接, 而是机能的延续和扩展。跟着大模子演练、推理职分对众卡协同和跨节点通讯的依赖连续巩固, 互连带宽和拓扑机闭的优劣, 直接决策了体例合座算力的天花板。
昆仑芯超节点正在策画上冲破了古板单机 8 卡互联的架构控制, 立异性地引入众 Switch 通讯机闭。以 32 卡为例, 可能通过 4 台 Switch Tray 模块竣工算力全互联, 修筑出一个 Scale-Up 域领域为 32 卡的团结算力池。
该架构确保随便两张 XPU 之间通讯仅需 1 跳途径, 明显低浸通讯延迟, 擢升带宽操纵成果。比拟古板的树状或分层式拓扑机闭, 昆仑芯超节点的全互联计划正在 AllReduce、Alltoall 等通讯场景中, 显现出更优的通讯成果与体例扩展性。正在 Scale-Out 搜集策画上, 昆仑芯超节点同样探讨到大领域集群安插需求。每个计划节点预留 4 张 PCIe 网卡扩展位, 竣工 XPU 与 NIC 的 1:1 绑定策画, 单节点最高撑持 4 张 400G 网卡。连接百度智能云自研的基于导轨优化的 HPN (High Performance Network) 架构, 昆仑芯超节点可支柱从数百卡到上万卡的 XPU 集群修筑, 为 AI 大模子演练供给坚实的搜集底座和横向扩展才干。
电源是整机柜的心脏。区别与古板 AI 供职器电源模块 PSU 的安顿举措, 昆仑芯超节点将电源模块 PSU 与计划节点解耦, 一切电源蚁合安插于 Power shelf 中, 为整机举办蚁合供电, 以便竣工昆仑芯超节点的高密安插。
昆仑芯超节点采用液冷和风冷相连接的羼杂散热架构, 治理高功耗、高密度散热挑拨。CPU 及 XPU 采用液冷散热, 网卡、内存、SSD 等采用风冷散热。
正在液冷体例中, 咱们选用了微通道冷板液冷本事及并联水道策画, 通过精准调控冷却液流量与流速, 最大化 XPU 和 CPU 的散热成果。实行结果注明, 该液冷策画可使 XPU 温度消浸 20℃以上, 相较古板风冷体例, 裁汰由于高温导致的 XPU 障碍, 明显擢升体例的热平静性与能效比。
正在风冷体例中, 咱们做了进一步优化策画。从主流的 GPU 供职器结构来看,RDMA 网卡 (如 Mellanox CX7) 寻常安插正在热通道, 而 400G 网卡利用的光模块又是一个对温度敏锐的器件, 温渡过高会惹起 CRC 报错, 形成网口颤栗乃至搜集失联等题目。正在 Meta 颁发 Llama 3.1 演练本事申报中披露, 因为网卡和搜集惹起的职分断绝占比高达 12%。鉴于此, 昆仑芯超节点将计划节点的 RDMA 网卡、VPC 网卡等均安插正在冷通道, 裁汰网卡和光模块因为散热题目导致的障碍频率, 使得集群合座特别平静牢靠。
普通景况下, 液冷供职器无法安插正在风冷机房。昆仑芯超节点的液冷机柜集成了百度智能云自决研发的冷却分拨单位 (CDU)—— 天玑 1.0, 只需求正在每台机柜旁边安插一套天玑 1.0, 即可将昆仑芯超节点安插于古板风冷数据核心。
RMC 具备智能电源拘束、液冷体例防守、资产拘束和预测性运维等重点才干, 为整机柜体例供给平静牢靠的运转保护。
BMC 撑持重点组件障碍监控和告警, 蕴涵 CPU、内存、XPU、网卡 / DPU、磁盘、电扇、主板等, 撑持节点漏液检测, 撑持一键日记精准障碍定位, 可能提前呈现潜正在危害, 低浸宕机韶华, 擢升维持成果。
昆仑芯超节点的推出, 意味着百度智能云正在 AI 底子举措周围的立异再次迈出了坚实的一步。这一全新的整机柜策画不光正在算力密度、能效比和安插圆活性上竣工了质的奔腾, 还为 AI 大模子演练、推理等庞杂职分供给了重大的撑持。
广告声明:文内含有的对外跳转链接(蕴涵不限于超链接、二维码、口令等体式),用于通报更众消息,节减甄选韶华,结果仅供参考,IT之家一切作品均包罗本声明。