網卡“升職”記!DPU是如何成為算力芯片的中流砥柱的?
在算力需求高漲的今天,CPU和GPU作為算力底座,漲勢兇猛。英偉達憑借GPU在AI時代一騎絕塵,市值節(jié)節(jié)高升直沖2萬億美元。然而,隨著人工智能、大數(shù)據分析、云計算等技術的發(fā)展,CPU和GPU在處理現(xiàn)代數(shù)據中心的復雜負載方面逐漸顯露出局限性。
DPU,以其專門針對數(shù)據流和網絡流量進行優(yōu)化的能力,在解決數(shù)據中心的效率和靈活性問題方面展現(xiàn)出巨大的潛力和價值。特別是在如今如日中天的AI大模型時代,DPU已成為算力集群中重要的參與者。
在萬億級的算力產業(yè)市場中,DPU雖然是后來者,但其增長速度迅猛。據中科馭數(shù)高級副總裁張宇介紹:“自2020年下半年起,DPU的發(fā)展勢頭逐漸加速,并在近幾年逐步進入了更為理性和穩(wěn)健的發(fā)展階段,成長步伐更加迅速而扎實。”
大模型時代,DPU不可或缺
隨著信息技術的持續(xù)發(fā)展,數(shù)據中心網絡帶寬從100G邁入400G,甚至將提升至800G或1.6T。受限于通用CPU的結構的馮諾依曼瓶頸、摩爾定律逐漸失效等因素的影響,以CPU為網絡核心的數(shù)據處理能力難以支持大規(guī)模新型數(shù)據中心的網絡和數(shù)據的算力需求。
“AI的出現(xiàn)對于GPU或者DPU都是一個千載難逢的機會。”張宇指出,AI需要的不僅是GPU,大模型訓練所需要算力的三大核心來源將是CPU+GPU+DPU“三U一體”的算力芯片組合。CPU提供通用算力,GPU提供智能算力,DPU負責基礎IO算力,三者各司其職。一個通用智算架構需要擁有強大算力的基礎設施支撐,而通用智算中心解決方案則要依靠DPU來疏導海量數(shù)據交互。
張宇介紹到,以AIGC應用來看,DPU在智算中心中的關鍵作用與價值主要有四大方面:1)AI 大模型/超大模型訓練往往同時使用數(shù)千或數(shù)萬個 GPU 卡訓練,整個服務器集群規(guī)模達到10萬+,DPU可以支持超大規(guī)模組網算力互連;2)機內 GPU 通信方面,千億參數(shù)規(guī)模的 AI 模型產生的 AllReduce通信數(shù)據量會達到100GB+,機間通信方面,流水線并行、數(shù)據并行及張量并行等網絡帶寬需求也會達到100GB +,而DPU能夠支持100G+超高帶寬;3)以1750 億參數(shù)規(guī)模的GPT- 3 模型訓練為例,當動態(tài)時延從 10us 提升至1000us 時,GPU 有效計算時間占比將降低接近 10%,當網絡丟包率為千分之一時, GPU有效計算時間占比將下降 13%,在這個過程中,DPU能夠通過使用RDMA來降低網絡延遲和抖動,顯著提高GPU的有效計算時間,進而提升模型訓練的效率;4)自然語言處理模型GPT-1到GPT-3,參數(shù)規(guī)模從1.17 億發(fā)展到1750 億個,需要的預訓練數(shù)據量也從最初的5GB 發(fā)展到45TB,模型參數(shù)和訓練數(shù)據規(guī)模越來越龐大,DPU的NVMe- oF技術可提供更高效的存儲讀取和處理能力。
如果將數(shù)據中心中的每一臺服務器比喻為一座“城市”,在每個城市人口不斷膨脹,城市間交互需求爆炸式增長的背景下,對比傳統(tǒng)網卡,DPU幫助數(shù)據中心完成了從“鄉(xiāng)間公路”到“高速鐵路”的轉變。DPU提供的高吞吐、低時延、基礎設施卸載能力,幫助數(shù)據中心完美的規(guī)避了“信息孤島”問題。DPU已被證明是支撐下一代數(shù)據中心IaaS及PaaS的重要基礎設施。
DPU的產業(yè)價值已成共識。2023年10月,工信部、中央網信辦、國務院國資委等六部門2023年10月聯(lián)合印發(fā)《算力基礎設施高質量發(fā)展行動計劃》中指出,截至2023年6月底,我國算力總規(guī)模達到近200EFLOPS,智能算力規(guī)模占比達25.4%。預計2025年,我國算力總規(guī)模達到300EFLOPS,智能算力規(guī)模占比達35%。計劃還將數(shù)據處理器 (DPU) 設為重要任務之一。
因此,國內市場DPU規(guī)模巨大,根據2023年《中國數(shù)據中心產業(yè)發(fā)展白皮書》,預計至 2025 年“十四五”規(guī)劃期末,擬實現(xiàn)數(shù)據中心機架規(guī)模增長至 1400 萬架,規(guī)模總量翻兩倍,總增量投資約 7000 億元。
如果按照服務器規(guī)模預計,未來幾年云與數(shù)據中心領域每年國內服務器出貨量將維持在500萬臺左右,其中DPU滲透率在10%左右,單臺服務器可以配置一塊到多塊DPU板卡,預計每年DPU需求量將在100萬片左右。
DPU:從網卡升級成算卡
DPU最早的前身是基礎功能網卡,也就是計算機當中最常見的普通網卡。基礎功能網卡提供2x10G或2x25G帶寬吞吐,具有較少的硬件卸載能力,主要是Checksum,LRO/LSO等,支持SR-IOV,以及有限的多隊列能力。
之后,隨著網絡數(shù)據量的增長和業(yè)務復雜性的提升,CPU無法獨自承擔所有的數(shù)據處理任務,為了更多地減輕CPU在數(shù)據處理這方面的負擔,就出現(xiàn)了第一代智能網卡。第一代智能網卡具有豐富的硬件卸載能力,并以數(shù)據平面的卸載為主。因此,這一代智能網卡開始協(xié)助CPU處理網絡負載,通過硬件卸載技術來提升計算效率。
再后來,隨著網絡安全、人工智能、工業(yè)互聯(lián)網等多個領域不斷普及,數(shù)據量超大幅增長使得處理壓力越來越大。此時,智能網卡通過智能進化,融入了通用算力芯片,可進行安全與存儲卸載功能;并通過對網絡、儲存、算力等資源的有效調度,以提升計算效率來滿足算力資源優(yōu)化的需求。總之,這代智能網卡就是當今的DPU,也就是數(shù)據處理單元,它具有比第一代智能網卡更豐富的硬件卸載能力,還可以用來卸載控制平面的任務和一些更加復雜的數(shù)據平面任務。
總之,隨著需求側的變化,DPU的發(fā)展前景毋庸置疑。作為新型數(shù)據中心最重要的芯片之一,DPU必將在未來計算系統(tǒng)中成為一個重要組成部分,以助力數(shù)據中心更高效地應對多元化的算力需求,對于支撐下一代數(shù)據中心起到至關重要的作用。
國產正在實現(xiàn)全產業(yè)鏈替代
民生證券呂偉3月2日研報中表示,全球DPU產業(yè)市場規(guī)模呈現(xiàn)逐年增長的趨勢,并隨著Intel、NVIDIA等廠商的DPU大規(guī)模量產,預計DPU市場將迎來快速增長。根據賽迪顧問數(shù)據,2020年全球DPU產業(yè)市場規(guī)模達30.5億美元,預計到2025年全球DPU產業(yè)市場規(guī)模將超過245.3億美元,期間CAGR高達51.73%。
得益于數(shù)據中心升級和邊緣計算、新能源汽車、IoT、工業(yè)物聯(lián)網等產業(yè)的發(fā)展所帶來的需求增長,中國DPU產業(yè)市場規(guī)模呈現(xiàn)逐年增長的趨勢,預計中國DPU市場將迎來快速增長。根據賽迪顧問數(shù)據,2020年中國DPU產業(yè)市場規(guī)模達3.9億元,預計到2025年中國DPU產業(yè)市場規(guī)模將超過565.9億元,期間CAGR高達170.6%。
從行業(yè)格局上看,DPU行業(yè)市場集中度較高。根據頭豹研究院數(shù)據,2020年國內DPU市場中,國際三大巨頭英偉達,博通,Intel的份額分別達到55%、36%、9%。
國內廠商中,華為,阿里,百度,騰訊也在近幾年針對自身服務器進行自研與外購DPU,針對的主要功能在于數(shù)據,存儲與安全方面。初創(chuàng)企業(yè)中科馭數(shù)、星云智聯(lián)、大禹智芯、芯啟源等都在加速各自在DPU賽道的布局。上市公司中,左江科技DPU已完成封裝測試工作,功能均符合設計標準,目前正在與潛在客戶進行溝通。神州數(shù)碼擬建設信創(chuàng)實驗室,研發(fā)新型DPU算力設備。
中銀證券楊思睿研報中表示,DPU行業(yè)雖處早期,但產業(yè)鏈成熟。同時DPU的制程挑戰(zhàn)略低,適合新入局者。建議關注明確有DPU布局的上市公司左江科技、通信芯片相關的紫光股份以及國產異構計算芯片公司景嘉微、紫光國微等。
從產業(yè)鏈看,DPU上游涉及如EDA設計軟件、IP核、封裝測試、代工等環(huán)節(jié),下游則主要對應數(shù)據中心/云計算、智能駕駛、數(shù)據通信、網絡安全等領域需求。從產業(yè)趨勢來看,DPU下游需求有望持續(xù)放量,國內廠商與海外龍頭有望在未來同臺競技。
其中EDA軟件方面,目前海外三巨頭Cadence、Synopsys和Mentor Graphics合計占據國內市場份額近77.7%,國產廠商在細分領域逐步突破,涉及上市公司包括華大九天、概倫電子、廣立微等。IP核方面,目前ARM、Synopsys合計占據全球IP核約60%的市場份額,同時第三名Cadence的市場份額為6%。國內公司包括芯力旺電子、原微電子、芯微電子等。
封裝測試方面國內封裝業(yè)已率先實現(xiàn)國產替代,并逐步向技術壁壘更高、產品附加值更大的先進封裝發(fā)展。涉及上市公司包括中芯國際、臺積電、長電科技、通富微電等。
興業(yè)證券吳鳴遠表示,DPU在可預見未來,將主要應用于數(shù)據中心/云計算、智能駕駛、數(shù)據通信等領域,同時網絡安全、信創(chuàng)、國防軍工等細分市場滲透率亦有望提升。涉及上市公司包括騰訊、阿里巴巴、比亞迪、蔚來、小鵬汽車、理想汽車、中國移動、中國電信、中國聯(lián)通等。
值得注意的是,分析人士表示,技術路線的多樣化、應用場景的多樣化決定了軟件棧的多樣化。復雜的應用環(huán)境讓DPU公司不得不投入大量精力在解決軟件適配問題,導致DPU落地時的應用開發(fā)和部署的成本都非常高,阻礙了DPU的普及。
