摩爾線程CEO張建中:萬卡集群不是光靠堆積GPU就能實現
7月3日,摩爾線程宣布其AI旗艦產品夸娥(KUAE)智算集群解決方案實現重大升級,從當前的千卡級別大幅擴展至萬卡規模。摩爾線程夸娥(KUAE)萬卡智算集群目標是打造能夠承載萬卡規模、具備萬P級浮點運算能力的國產通用加速計算平臺。此外,當天摩爾線程聯合中國移動青海公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司分別就三個萬卡集群項目進行了戰略簽約,多方聚力共同構建好用的國產GPU集群。
會議期間,《中國電子報》記者就AI大模型發展趨勢以及破解我國算力瓶頸等問題對摩爾線程創始人兼CEO張建中進行了專訪。
大模型演進呼喚高性能算力
關于業界熱議的大模型未來走向,張建中認為,有三方面演進趨勢值得關注。
一是Scaling Law(標度律)將持續奏效。Scaling Law自2020年提出以來,已揭示了大模型發展背后的“暴力美學”,即通過算力、算法、數據的深度融合與經驗積累,實現模型性能的飛躍,這也成為業界公認的將持續影響未來大模型的發展趨勢。Scaling Law將持續奏效,需要單點規模夠大并且通用的算力才能快速跟上技術演進。
二是Transformer架構不能實現大一統,會和其他架構持續演進并共存,形成多元化的技術生態。生成式人工智能的進化并非僅依賴于規模的簡單膨脹,技術架構的革新同樣至關重要。Transformer架構雖然是當前主流,但新興架構如Mamba、RWKV和RetNet等不斷刷新計算效率,加快創新速度。隨著技術迭代與演進,Transformer架構并不能實現大一統,從稠密到稀疏模型,再到多模態模型的融合,技術的進步都展現了對更高性能計算資源的渴望。
三是AI、3D和HPC跨技術與跨領域融合不斷加速,推動著空間智能、物理AI和AI4Science、世界模型等領域的邊界拓展,使得大模型的訓練和應用環境更加復雜多元,市場對于能夠支持AI+3D、AI+物理仿真、AI+科學計算等多元計算融合發展的通用加速計算平臺的需求日益迫切。
萬卡已是模型訓練主戰場的標配
“多元趨勢下,AI模型訓練的主戰場,萬卡已是標配。”張建中強調,隨著計算量不斷攀升,大模型訓練亟需超級工廠,即一個“大且通用”的加速計算平臺,以縮短訓練時間,實現模型能力的快速迭代。當前,國際科技大廠都在通過積極部署千卡乃至超萬卡規模的計算集群,以確保大模型產品的競爭力。隨著模型參數量從千億邁向萬億,模型能力更加泛化,大模型對底層算力的訴求進一步升級,萬卡甚至超萬卡集群成為這一輪大模型競賽的入場券。
然而,構建萬卡集群并非一萬張GPU卡的簡單堆疊,而是一項高度復雜的超級系統工程。它涉及超大規模的組網互聯、高效率的集群計算、長期穩定性和高可用性等諸多技術難題。這是難而正確的事情,摩爾線程希望能夠建設一個規模超萬卡、場景夠通用的加速計算平臺,并優先解決大模型訓練的難題。
中國如何突破算力瓶頸?
“當前,我們正處在生成式人工智能的黃金時代,技術交織催動智能涌現,GPU成為加速新技術浪潮來臨的創新引擎。”張建中表示,“中國的人工智能落地場景相比國外來說更加廣泛,因為中國在人工智能應用領域里面開發者數量很多,落地速度也更快。”
他認為,目前國內大模型行業發展面臨的主要問題,不是中國公司的研發人員技術水平比國外差,歸根結底還是缺少充足的算力。而這個問題不是光靠堆積GPU的數量就能解決的。“集中力量辦大事,打造好用的萬卡級別的算力集群,才能讓用戶真正地使用好大模型。”張建中說道。
張建中強調,在技術層面,中國企業完全有信心有能力去追趕全球頂級GPU企業,做出更先進、性價比更高的芯片。但光有技術還不夠,更重要的是生態環境的完善,這需要政府及產業上下游全行業共同努力。
