WAIC上的RDMA智能網(wǎng)卡,已成為國(guó)產(chǎn)AI算力突破的重要一環(huán)!
關(guān)鍵詞: AI基礎(chǔ)設(shè)施 RDMA智能網(wǎng)卡 云脈芯聯(lián) RoCE技術(shù) 算力突破
生成式AI、Agentic AI的大熱,帶動(dòng)的不單是GPU、AI芯片的發(fā)展,當(dāng)我們談到AI數(shù)據(jù)中心就必談到“萬(wàn)卡”集群時(shí),“互連”和“數(shù)據(jù)通信”的重要性也快速凸顯。單張顯卡或者AI加速卡已難以支持當(dāng)下巨量參數(shù)規(guī)模的AI大模型訓(xùn)練和推理,跨芯片、跨板卡、跨節(jié)點(diǎn)組建AI基礎(chǔ)設(shè)施成為算力增長(zhǎng)的主要方向,RDMA智能網(wǎng)卡作為網(wǎng)絡(luò)互聯(lián)的核心組件,成為算力突破的重要一環(huán)。
過(guò)去一年的媒體活動(dòng)上,不少企業(yè)都談到大模型訓(xùn)練時(shí),GPU真正工作的時(shí)間有時(shí)只占1/3,大部分的時(shí)間都耗費(fèi)在了數(shù)據(jù)傳輸?shù)牡却稀K郧安痪?a style="box-sizing: border-box; margin: 0px; padding: 0px; background-color: transparent; color: rgb(51, 122, 183); text-decoration-line: none; outline: none; -webkit-tap-highlight-color: rgba(255, 0, 0, 0);">摩爾線程在WAIC(世界人工智能大會(huì))媒體活動(dòng)上提出,AI工廠效率 = 加速計(jì)算通用性 × 單芯片有效算力 × 單節(jié)點(diǎn)效率 × 集群效率 × 集群穩(wěn)定性。
這里的“集群效率”顯然是指更低的GPU閑置率,尤其是數(shù)據(jù)傳輸?shù)男?。故而云脈芯聯(lián)創(chuàng)始人兼CEO劉永鋒在WAIC上提出,整體算力 = 算力密度(GPU)× 算力規(guī)模(交換芯片) × 數(shù)據(jù)傳輸效率(網(wǎng)卡芯片)——這是個(gè)相對(duì)而言更具體的描述方式。
劉永鋒表示,“上下游眾志成城、取長(zhǎng)補(bǔ)短”,“通過(guò)融合創(chuàng)新”“把國(guó)產(chǎn)化做起來(lái)”,實(shí)現(xiàn)“算力突破”。這也是國(guó)內(nèi)所有涉足AI基礎(chǔ)設(shè)施搭建的企業(yè)的共識(shí)。
我們?cè)赪AIC之上就看到了云脈芯聯(lián)的“AI時(shí)代智能算力互聯(lián)網(wǎng)絡(luò)解決方案”,包括智能網(wǎng)卡(SmartNIC)和DPU產(chǎn)品。云脈芯聯(lián)很大程度上是可以代表國(guó)產(chǎn)NIC、DPU芯片及解決方案的最高水平的——其YSA-100芯片產(chǎn)品及系列智能網(wǎng)卡/DPU產(chǎn)品就已經(jīng)在頭部互聯(lián)網(wǎng)、基礎(chǔ)設(shè)施服務(wù)商、運(yùn)營(yíng)商等各行業(yè)實(shí)現(xiàn)量產(chǎn)出貨,客戶包括浪潮、新華三、上海儀電、浙江銀盾云、中國(guó)移動(dòng)等,據(jù)說(shuō)客戶覆蓋還在穩(wěn)步增長(zhǎng)。
本文就以圖集的形式來(lái)看看云脈芯聯(lián)的現(xiàn)有產(chǎn)品,及其所反映的國(guó)產(chǎn)智能網(wǎng)卡與DPU發(fā)展現(xiàn)狀。
▲ 云脈芯聯(lián)YSA-100網(wǎng)絡(luò)芯片,“支持高性能網(wǎng)絡(luò)和DPU場(chǎng)景的裸金屬、虛擬化卸載(offload)加速,適用于算力基礎(chǔ)設(shè)施智算中心網(wǎng)絡(luò)、存儲(chǔ)和云計(jì)算等各類應(yīng)用場(chǎng)景”。YSA-100是一顆ASIC架構(gòu)的網(wǎng)絡(luò)芯片,云脈芯聯(lián)在去年的新聞稿中說(shuō),這顆芯片已經(jīng)于2024年量產(chǎn),是“國(guó)內(nèi)首顆支持400Gbps吞吐能力的RDMA(直接內(nèi)存訪問(wèn))高性能網(wǎng)絡(luò)芯片”;且這顆芯片已經(jīng)在多個(gè)智算中心落地應(yīng)用。
▲ metaConnect-400S,metaConnect系列在云脈芯聯(lián)的產(chǎn)品定位為“AI NIC”。 metaConnect-400S的具體定位是“高性能AI網(wǎng)卡”,尤其表現(xiàn)在單口400GbE吞吐速率,“提供具有包噴灑多路徑能力的高性能RDMA網(wǎng)絡(luò)能力”,且“與各CPU和GPU產(chǎn)品均有優(yōu)秀的兼容能力”。
面向智算中心時(shí),“metaConnect-400S提供1x400GbE網(wǎng)絡(luò)接入能力,支持多路徑負(fù)載均衡和亂序重排能力,基于Credit授權(quán)的擁塞控制和可編程擁塞控制算法能力,有效提升AI計(jì)算通信效率,對(duì)比業(yè)內(nèi)主流產(chǎn)品通信性能提升約5%?!边@款產(chǎn)品在我們看來(lái)也是真正能夠體現(xiàn)以太網(wǎng)用于AI大規(guī)模集群networking的潛力和價(jià)值的。
▲ metaConnect-400,相較前者的主要差異是,這是個(gè)支持2x200GbE的AI NIC,“增值能力實(shí)現(xiàn)單QP(queue pair)雙平面網(wǎng)絡(luò)400Gbps吞吐性能”——使用一個(gè)QP同時(shí)在兩個(gè)物理網(wǎng)絡(luò)平面上達(dá)成400Gbps總吞吐量。
▲ metaScale-200S智能網(wǎng)卡——相較前面的metaConnect系列,云脈芯聯(lián)定義metaScale系列產(chǎn)品為“高性能智能網(wǎng)卡”。200S是實(shí)現(xiàn)了單口200GbE的、面向云計(jì)算數(shù)據(jù)中心高性能存儲(chǔ)網(wǎng)絡(luò)和智算中心AI計(jì)算網(wǎng)絡(luò)打造的智能網(wǎng)卡產(chǎn)品,同樣提供高性能RoCEv2網(wǎng)絡(luò)能力。
▲ 同為metaScale-200S智能網(wǎng)卡,OCP 3.0接口版。
▲ metaScale-200,2x100GbE吞吐能力,PCIe標(biāo)準(zhǔn)形態(tài);
▲ 同為metaScale-200,OCP 3.0標(biāo)準(zhǔn)接口版;
▲ metaScale-50,25GbE智能網(wǎng)卡,“面向現(xiàn)代數(shù)據(jù)中心,具備高性能存儲(chǔ)網(wǎng)絡(luò)互聯(lián)能力”,“提供優(yōu)異的網(wǎng)絡(luò)互聯(lián)收發(fā)性能,成熟的平臺(tái)兼容性,豐富的軟件生態(tài),以及靈活的解決方案能力”。
▲ 基于YSA-100芯片的metaVisor-200,云脈芯聯(lián)稱其為AI DPU。介紹中提到,這款metaVisor-200是面向人工智能智算中心AI計(jì)算網(wǎng)絡(luò)打造的2x100GbE高性能AI DPU產(chǎn)品。
“支持云盤(pán)啟動(dòng)、VPC網(wǎng)絡(luò)卸載加速、RoCEv2 Overlay和RDMA統(tǒng)一納管運(yùn)維監(jiān)控的能力,為未來(lái)智算中心提供快速發(fā)放、租戶網(wǎng)絡(luò)隔離和彈性部署等靈活解決方案”。
▲ 云脈芯聯(lián)展位擺了一臺(tái)來(lái)自新華三的服務(wù)器,算力卡則是來(lái)自國(guó)產(chǎn)GPU;中間的四張網(wǎng)卡就來(lái)自云脈芯聯(lián)——這是云脈芯聯(lián)的智能網(wǎng)卡/DPU在AI算力領(lǐng)域落地的形式之一。
劉永鋒在演講中提到國(guó)產(chǎn)算力突破的兩個(gè)方向,其一是“提前布局、因地制宜”——比如前文提到云脈芯聯(lián)在RoCE上的布局。 “在更大規(guī)模、更高帶寬場(chǎng)景下,以太網(wǎng)是更有潛力的。過(guò)去RoCE在AI應(yīng)用上可能存在一些不成熟的地方——但如果能提前布局投入對(duì)RoCE的優(yōu)化,今天會(huì)看到以太網(wǎng)真正的價(jià)值。現(xiàn)在很多大廠已經(jīng)在投入RoCE。”“它是能夠?qū)崿F(xiàn)AI算力突破很好的技術(shù)。”
RoCE (RDMA over Converged Ethernet) 也就是通過(guò)以太網(wǎng)做RDMA,在不需要操作系統(tǒng)、CPU介入的情況下,就直接訪問(wèn)內(nèi)存,得以實(shí)現(xiàn)超低延遲、高吞吐,以及降低CPU的開(kāi)銷。它對(duì)諸如HPC、AI訓(xùn)推、大規(guī)模存儲(chǔ)系統(tǒng)這類數(shù)據(jù)密集型應(yīng)用價(jià)值甚大。
劉永鋒提到,“在芯片研發(fā)方面提前布局RoCE,經(jīng)過(guò)持續(xù)的技術(shù)創(chuàng)新,在AI網(wǎng)絡(luò)需要更大規(guī)模和更高帶寬的情況下,云脈芯聯(lián)200Gbps和400Gbps高性能智能網(wǎng)卡已逐步建立起差異化的競(jìng)爭(zhēng)優(yōu)勢(shì),具有很強(qiáng)的爆發(fā)力,成為國(guó)產(chǎn)網(wǎng)絡(luò)在AI基礎(chǔ)設(shè)施領(lǐng)域?qū)崿F(xiàn)突破的基礎(chǔ)。”
其二是上下游配合,“眾志成城、取長(zhǎng)補(bǔ)短”。比如上述產(chǎn)品的宣傳文案大多都提及 “具備卓越的多平臺(tái)兼容性,與各CPU與GPU有優(yōu)秀的兼容能力”,包括對(duì)一眾國(guó)產(chǎn)CPU、GPU和操作系統(tǒng)的支持?!皣?guó)產(chǎn)交換芯片和國(guó)產(chǎn)網(wǎng)卡芯片能夠深度協(xié)同,就可以形成靈活的最優(yōu)解決方案,其中網(wǎng)絡(luò)互聯(lián)芯片成為最核心的一環(huán)?!?/p>
WAIC上,云脈芯聯(lián)展位工作人員告訴我們,“云脈芯聯(lián)已與展館中的GPU廠商,和大多數(shù)CPU及相關(guān)的應(yīng)用廠商成為合作伙伴。”“與國(guó)內(nèi)部分頭部互聯(lián)網(wǎng)廠商、云基礎(chǔ)設(shè)施服務(wù)商和通信運(yùn)營(yíng)商均有合作——不僅是因?yàn)楣?yīng)鏈安全,國(guó)內(nèi)芯片廠商也能夠根據(jù)客戶需求去為他們提供更好的解決方案;當(dāng)然產(chǎn)品的性能本身需要達(dá)到要求。”
劉永鋒則舉例提及在DeepSeek發(fā)布之后,云脈芯聯(lián)與其他合作伙伴多方配合,去適配DeepEP(一個(gè)特別面向MoE和EP – expert parallelism的通信庫(kù)),實(shí)現(xiàn)“端到端拉通”。“上下游一起努力把國(guó)產(chǎn)化做起來(lái)。”在半導(dǎo)體制造工藝、技術(shù)能力受限的情況下,通過(guò)與AI基礎(chǔ)設(shè)施其他參與者的適配、協(xié)作,才能達(dá)成真正意義上的“算力突破”。
