WAIC上的RDMA智能網卡,已成為國產AI算力突破的重要一環!
關鍵詞: AI基礎設施 RDMA智能網卡 云脈芯聯 RoCE技術 算力突破
生成式AI、Agentic AI的大熱,帶動的不單是GPU、AI芯片的發展,當我們談到AI數據中心就必談到“萬卡”集群時,“互連”和“數據通信”的重要性也快速凸顯。單張顯卡或者AI加速卡已難以支持當下巨量參數規模的AI大模型訓練和推理,跨芯片、跨板卡、跨節點組建AI基礎設施成為算力增長的主要方向,RDMA智能網卡作為網絡互聯的核心組件,成為算力突破的重要一環。
過去一年的媒體活動上,不少企業都談到大模型訓練時,GPU真正工作的時間有時只占1/3,大部分的時間都耗費在了數據傳輸的等待上。所以前不久摩爾線程在WAIC(世界人工智能大會)媒體活動上提出,AI工廠效率 = 加速計算通用性 × 單芯片有效算力 × 單節點效率 × 集群效率 × 集群穩定性。
這里的“集群效率”顯然是指更低的GPU閑置率,尤其是數據傳輸的效率。故而云脈芯聯創始人兼CEO劉永鋒在WAIC上提出,整體算力 = 算力密度(GPU)× 算力規模(交換芯片) × 數據傳輸效率(網卡芯片)——這是個相對而言更具體的描述方式。
劉永鋒表示,“上下游眾志成城、取長補短”,“通過融合創新”“把國產化做起來”,實現“算力突破”。這也是國內所有涉足AI基礎設施搭建的企業的共識。
我們在WAIC之上就看到了云脈芯聯的“AI時代智能算力互聯網絡解決方案”,包括智能網卡(SmartNIC)和DPU產品。云脈芯聯很大程度上是可以代表國產NIC、DPU芯片及解決方案的最高水平的——其YSA-100芯片產品及系列智能網卡/DPU產品就已經在頭部互聯網、基礎設施服務商、運營商等各行業實現量產出貨,客戶包括浪潮、新華三、上海儀電、浙江銀盾云、中國移動等,據說客戶覆蓋還在穩步增長。
本文就以圖集的形式來看看云脈芯聯的現有產品,及其所反映的國產智能網卡與DPU發展現狀。
▲ 云脈芯聯YSA-100網絡芯片,“支持高性能網絡和DPU場景的裸金屬、虛擬化卸載(offload)加速,適用于算力基礎設施智算中心網絡、存儲和云計算等各類應用場景”。YSA-100是一顆ASIC架構的網絡芯片,云脈芯聯在去年的新聞稿中說,這顆芯片已經于2024年量產,是“國內首顆支持400Gbps吞吐能力的RDMA(直接內存訪問)高性能網絡芯片”;且這顆芯片已經在多個智算中心落地應用。
▲ metaConnect-400S,metaConnect系列在云脈芯聯的產品定位為“AI NIC”。 metaConnect-400S的具體定位是“高性能AI網卡”,尤其表現在單口400GbE吞吐速率,“提供具有包噴灑多路徑能力的高性能RDMA網絡能力”,且“與各CPU和GPU產品均有優秀的兼容能力”。
面向智算中心時,“metaConnect-400S提供1x400GbE網絡接入能力,支持多路徑負載均衡和亂序重排能力,基于Credit授權的擁塞控制和可編程擁塞控制算法能力,有效提升AI計算通信效率,對比業內主流產品通信性能提升約5%。”這款產品在我們看來也是真正能夠體現以太網用于AI大規模集群networking的潛力和價值的。
▲ metaConnect-400,相較前者的主要差異是,這是個支持2x200GbE的AI NIC,“增值能力實現單QP(queue pair)雙平面網絡400Gbps吞吐性能”——使用一個QP同時在兩個物理網絡平面上達成400Gbps總吞吐量。
▲ metaScale-200S智能網卡——相較前面的metaConnect系列,云脈芯聯定義metaScale系列產品為“高性能智能網卡”。200S是實現了單口200GbE的、面向云計算數據中心高性能存儲網絡和智算中心AI計算網絡打造的智能網卡產品,同樣提供高性能RoCEv2網絡能力。
▲ 同為metaScale-200S智能網卡,OCP 3.0接口版。
▲ metaScale-200,2x100GbE吞吐能力,PCIe標準形態;
▲ 同為metaScale-200,OCP 3.0標準接口版;
▲ metaScale-50,25GbE智能網卡,“面向現代數據中心,具備高性能存儲網絡互聯能力”,“提供優異的網絡互聯收發性能,成熟的平臺兼容性,豐富的軟件生態,以及靈活的解決方案能力”。
▲ 基于YSA-100芯片的metaVisor-200,云脈芯聯稱其為AI DPU。介紹中提到,這款metaVisor-200是面向人工智能智算中心AI計算網絡打造的2x100GbE高性能AI DPU產品。
“支持云盤啟動、VPC網絡卸載加速、RoCEv2 Overlay和RDMA統一納管運維監控的能力,為未來智算中心提供快速發放、租戶網絡隔離和彈性部署等靈活解決方案”。
▲ 云脈芯聯展位擺了一臺來自新華三的服務器,算力卡則是來自國產GPU;中間的四張網卡就來自云脈芯聯——這是云脈芯聯的智能網卡/DPU在AI算力領域落地的形式之一。
劉永鋒在演講中提到國產算力突破的兩個方向,其一是“提前布局、因地制宜”——比如前文提到云脈芯聯在RoCE上的布局。 “在更大規模、更高帶寬場景下,以太網是更有潛力的。過去RoCE在AI應用上可能存在一些不成熟的地方——但如果能提前布局投入對RoCE的優化,今天會看到以太網真正的價值。現在很多大廠已經在投入RoCE。”“它是能夠實現AI算力突破很好的技術。”
RoCE (RDMA over Converged Ethernet) 也就是通過以太網做RDMA,在不需要操作系統、CPU介入的情況下,就直接訪問內存,得以實現超低延遲、高吞吐,以及降低CPU的開銷。它對諸如HPC、AI訓推、大規模存儲系統這類數據密集型應用價值甚大。
劉永鋒提到,“在芯片研發方面提前布局RoCE,經過持續的技術創新,在AI網絡需要更大規模和更高帶寬的情況下,云脈芯聯200Gbps和400Gbps高性能智能網卡已逐步建立起差異化的競爭優勢,具有很強的爆發力,成為國產網絡在AI基礎設施領域實現突破的基礎。”
其二是上下游配合,“眾志成城、取長補短”。比如上述產品的宣傳文案大多都提及 “具備卓越的多平臺兼容性,與各CPU與GPU有優秀的兼容能力”,包括對一眾國產CPU、GPU和操作系統的支持。“國產交換芯片和國產網卡芯片能夠深度協同,就可以形成靈活的最優解決方案,其中網絡互聯芯片成為最核心的一環。”
WAIC上,云脈芯聯展位工作人員告訴我們,“云脈芯聯已與展館中的GPU廠商,和大多數CPU及相關的應用廠商成為合作伙伴。”“與國內部分頭部互聯網廠商、云基礎設施服務商和通信運營商均有合作——不僅是因為供應鏈安全,國內芯片廠商也能夠根據客戶需求去為他們提供更好的解決方案;當然產品的性能本身需要達到要求。”
劉永鋒則舉例提及在DeepSeek發布之后,云脈芯聯與其他合作伙伴多方配合,去適配DeepEP(一個特別面向MoE和EP – expert parallelism的通信庫),實現“端到端拉通”。“上下游一起努力把國產化做起來。”在半導體制造工藝、技術能力受限的情況下,通過與AI基礎設施其他參與者的適配、協作,才能達成真正意義上的“算力突破”。
