在人工智能計(jì)算(智算)成為核心生產(chǎn)力的時(shí)代,智算網(wǎng)絡(luò)作為承載大規(guī)模并行計(jì)算任務(wù)的基礎(chǔ)設(shè)施,其性能與效率直接決定了模型訓(xùn)練與推理的成敗。網(wǎng)絡(luò)擴(kuò)展是提升智算集群算力規(guī)模的關(guān)鍵路徑,主要分為橫向擴(kuò)展(Scale-Out)和縱向擴(kuò)展(Scale-Up)兩種模式。理解其背后的網(wǎng)絡(luò)技術(shù)原理,對(duì)于網(wǎng)絡(luò)技術(shù)開發(fā)與架構(gòu)設(shè)計(jì)至關(guān)重要。
一、Scale-Out(橫向擴(kuò)展)網(wǎng)絡(luò)的技術(shù)原理
Scale-Out的核心思想是通過增加計(jì)算節(jié)點(diǎn)的數(shù)量來提升整體算力,通常用于構(gòu)建由數(shù)百乃至數(shù)萬顆GPU/加速卡組成的大規(guī)模集群。其網(wǎng)絡(luò)技術(shù)聚焦于解決多節(jié)點(diǎn)間高速、低延遲、無阻塞的通信問題。
1. 核心技術(shù):高帶寬、低延遲互連
* InfiniBand (IB) 與 RoCE (RDMA over Converged Ethernet):這是當(dāng)前智算網(wǎng)絡(luò)的主流。它們都支持遠(yuǎn)程直接內(nèi)存訪問(RDMA)技術(shù),允許計(jì)算節(jié)點(diǎn)繞過操作系統(tǒng)內(nèi)核和CPU,直接訪問遠(yuǎn)端節(jié)點(diǎn)的內(nèi)存,從而極大降低通信延遲(可低至微秒級(jí))和CPU開銷。IB網(wǎng)絡(luò)原生支持RDMA,并提供極高的吞吐量(如NDR 400Gbps)。RoCE則在以太網(wǎng)上承載RDMA,更易于與現(xiàn)有數(shù)據(jù)中心網(wǎng)絡(luò)融合。
- 無損以太網(wǎng)與擁塞控制:在Scale-Out的RoCE網(wǎng)絡(luò)中,大規(guī)模的“All-to-All”通信模式極易引發(fā)網(wǎng)絡(luò)擁塞,導(dǎo)致性能斷崖式下降。因此,無損以太網(wǎng)技術(shù)是關(guān)鍵,它通過優(yōu)先級(jí)流量控制(PFC)、顯式擁塞通知(ECN)和基于時(shí)延的擁塞控制(DCQCN)等機(jī)制,實(shí)現(xiàn)零丟包,確保RDMA的高性能穩(wěn)定運(yùn)行。
2. 網(wǎng)絡(luò)拓?fù)洌鹤畲蠡瘜?duì)分帶寬
* Clos(Fat-Tree)拓?fù)浼捌渥兎N:這是最常用的Scale-Out網(wǎng)絡(luò)拓?fù)洹Kㄟ^多級(jí)交換機(jī)(Leaf-Spine或Leaf-Spine-SuperSpine)構(gòu)建一個(gè)非阻塞網(wǎng)絡(luò),使得任意兩個(gè)節(jié)點(diǎn)間都存在多條等價(jià)的并行路徑。其核心優(yōu)勢在于能夠提供巨大的聚合帶寬和對(duì)分帶寬,滿足大規(guī)模參數(shù)同步(如All-Reduce)的通信需求。
- 超算網(wǎng)絡(luò)拓?fù)洌篋ragonfly, Torus:對(duì)于超大規(guī)模集群,像Dragonfly這樣的高階拓?fù)渫ㄟ^更少的網(wǎng)絡(luò)跳數(shù)(Hop)來降低全局通信的延遲,但需要更復(fù)雜的路由算法來避免熱點(diǎn)擁塞。
3. 通信庫與協(xié)議
* NCCL (NVIDIA Collective Communications Library):在GPU集群中,NCCL是實(shí)現(xiàn)多卡、多節(jié)點(diǎn)間高效集合通信(Collective Communication)如All-Reduce、All-Gather的核心庫。它針對(duì)特定的網(wǎng)絡(luò)硬件(如IB)和拓?fù)溥M(jìn)行了深度優(yōu)化,能夠自動(dòng)檢測拓?fù)洳⑦x擇最優(yōu)的通信算法和路徑。
網(wǎng)絡(luò)技術(shù)開發(fā)焦點(diǎn):開發(fā)更智能的擁塞控制算法、設(shè)計(jì)支持更大規(guī)模的非阻塞拓?fù)洹?yōu)化通信庫以更好地適配新型拓?fù)浜陀布约皩?shí)現(xiàn)網(wǎng)絡(luò)的自動(dòng)化運(yùn)維與性能調(diào)優(yōu)。
二、Scale-Up(縱向擴(kuò)展)網(wǎng)絡(luò)的技術(shù)原理
Scale-Up的核心思想是在單個(gè)計(jì)算節(jié)點(diǎn)或機(jī)箱內(nèi)部,通過更緊密的互連技術(shù)將多個(gè)處理器(如GPU、CPU)集成在一起,形成一個(gè)共享內(nèi)存或極高帶寬互聯(lián)的“超級(jí)芯片”或計(jì)算單元,從而提升單設(shè)備的計(jì)算密度和內(nèi)部通信效率。
1. 核心技術(shù):片內(nèi)/板級(jí)超高速互連
* NVLink (NVIDIA) 與 Infinity Fabric (AMD):這是Scale-Up網(wǎng)絡(luò)的代表。例如,NVLink提供了GPU之間遠(yuǎn)超PCIe帶寬(如NVLink 4.0可達(dá)900GB/s)的點(diǎn)對(duì)點(diǎn)直接互聯(lián)。它允許多個(gè)GPU共享統(tǒng)一的內(nèi)存地址空間,形成“巨量GPU”,使得數(shù)據(jù)在GPU間遷移如同在本地內(nèi)存中訪問,極大加速了模型并行和需要頻繁交換中間結(jié)果的場景。
- CXL (Compute Express Link):作為一種新興的緩存一致性互連協(xié)議,CXL允許CPU、GPU、內(nèi)存池、加速器之間以更高效的方式共享內(nèi)存資源,為異構(gòu)Scale-Up計(jì)算提供了新的硬件基礎(chǔ)。
2. 封裝與集成技術(shù)
* 2.5D/3D 先進(jìn)封裝:如CoWoS (Chip-on-Wafer-on-Substrate)、HBM (高帶寬內(nèi)存) 技術(shù)等。它們通過硅中介層(Interposer)或直接堆疊,將多個(gè)計(jì)算芯粒(Chiplet)和內(nèi)存芯粒以微米級(jí)的距離互連,實(shí)現(xiàn)了TB/s級(jí)的片上帶寬和極低的通信功耗,是Scale-Up達(dá)到極致性能的物理基礎(chǔ)。
3. 系統(tǒng)架構(gòu)
* 異構(gòu)計(jì)算架構(gòu):Scale-Up不僅僅是同類單元的堆疊,更是CPU、GPU、專用AI芯片(ASIC/TPU)等不同計(jì)算單元通過高速互連的緊密耦合。網(wǎng)絡(luò)技術(shù)需要為這種異構(gòu)通信提供高帶寬、低延遲的統(tǒng)一接口和一致性內(nèi)存模型支持。
網(wǎng)絡(luò)技術(shù)開發(fā)焦點(diǎn):設(shè)計(jì)下一代片間互連協(xié)議(如更高帶寬的NVLink、開放標(biāo)準(zhǔn)的UCIe)、開發(fā)支持CXL的交換與內(nèi)存池化技術(shù)、研究先進(jìn)封裝下的信號(hào)完整性與熱管理,以及構(gòu)建與之匹配的系統(tǒng)軟件棧(驅(qū)動(dòng)、運(yùn)行時(shí)、編譯器)。
三、Scale-Out與Scale-Up的協(xié)同與網(wǎng)絡(luò)技術(shù)開發(fā)展望
在實(shí)際的智算中心,Scale-Out和Scale-Up并非互斥,而是協(xié)同工作的。典型的架構(gòu)是:節(jié)點(diǎn)內(nèi)采用極致的Scale-Up技術(shù)(如多卡NVLink互聯(lián)),節(jié)點(diǎn)間通過高效的Scale-Out網(wǎng)絡(luò)(如IB/RoCE Clos網(wǎng)絡(luò))連接。這形成了“強(qiáng)內(nèi)部耦合,高外部帶寬”的層次化網(wǎng)絡(luò)體系。
未來的網(wǎng)絡(luò)技術(shù)開發(fā)將聚焦于以下幾個(gè)融合方向:
1. 跨層級(jí)協(xié)同:開發(fā)能夠感知從芯片內(nèi)、板卡內(nèi)到機(jī)架間所有網(wǎng)絡(luò)層次的統(tǒng)一調(diào)度與管理技術(shù),實(shí)現(xiàn)全局通信優(yōu)化。
2. 智算原生網(wǎng)絡(luò):網(wǎng)絡(luò)不再是被動(dòng)的數(shù)據(jù)傳輸管道,而是能主動(dòng)感知AI作業(yè)的通信模式(如通信計(jì)算圖),并動(dòng)態(tài)配置路徑和資源,實(shí)現(xiàn)“網(wǎng)絡(luò)即計(jì)算”的一部分。
3. 異構(gòu)融合與開放標(biāo)準(zhǔn):推動(dòng)如CXL、UCIe等開放標(biāo)準(zhǔn)的發(fā)展,打破硬件壁壘,實(shí)現(xiàn)不同廠商芯片間高效、靈活的Scale-Up與Scale-Out組合。
4. 光互連與共封裝:隨著帶寬需求向Tb/s邁進(jìn),硅光技術(shù)、光交換和共封裝光學(xué)(CPO)將成為突破電互連瓶頸、降低功耗的關(guān)鍵,為下一代的Scale-Out和Scale-Up網(wǎng)絡(luò)提供基礎(chǔ)。
智算網(wǎng)絡(luò)的Scale-Out與Scale-Up技術(shù),正從傳統(tǒng)的連接手段,演變?yōu)闆Q定算力集群性能和效率的核心競爭力。其技術(shù)開發(fā)需要硬件、協(xié)議、拓?fù)洹④浖⒎庋b等多領(lǐng)域的深度融合與持續(xù)創(chuàng)新。