今年AI芯片供應(yīng)偏緊,但行業(yè)巨頭不會坐以待斃
ChatGPT、Sora等大模型帶動下,AI人工智能正成為全球半導(dǎo)體行業(yè)復(fù)蘇的關(guān)鍵動力,AI芯片產(chǎn)能成為業(yè)界關(guān)注焦點。
近期,臺積電創(chuàng)辦人張忠謀出席日本熊本廠JASM開幕儀式,其表示,半導(dǎo)體產(chǎn)業(yè)未來一定會有更多需求,最近AI人士告訴他需要的不只是幾萬、幾十萬和幾千萬片產(chǎn)能,而是3間、5間甚至10間晶圓廠。
對此,張忠謀表示不完全相信上述數(shù)據(jù),但他認為AI帶給半導(dǎo)體產(chǎn)業(yè)的需求,在某種程度上取一個中間值,即從成千上萬片產(chǎn)能到10間晶圓廠中間找尋到答案。
AI火熱發(fā)展態(tài)勢之下,AI芯片需求持續(xù)高漲,部分芯片出現(xiàn)供不應(yīng)求現(xiàn)象。
稍早之前,富士康母公司鴻海精密工業(yè)股份有限公司董事長劉揚偉便表示,鴻海今年AI服務(wù)器業(yè)務(wù)相當好,但目前整體AI服務(wù)器產(chǎn)業(yè)仍面臨AI芯片大缺貨的狀況,即便下半年AI芯片供應(yīng)舒緩一些,還是趕不上需求,必須等到上游新廠產(chǎn)能開出,才有辦法解決產(chǎn)業(yè)鏈缺料問題。
AI芯片供不應(yīng)求狀況將貫穿全年
英偉達發(fā)布2024財年財報,首席執(zhí)行官黃仁勛指出,AI芯片供不應(yīng)求將貫穿全年,這一現(xiàn)象不僅是供應(yīng)鏈挑戰(zhàn),更折射出人工智能發(fā)展的巨大需求。在科技領(lǐng)域,我們看到了一場前所未有的技術(shù)革命,而AI芯片的不足成為這一革命中的瓶頸。
從去年開始,負責英偉達AI芯片的制造及封裝的臺積電(TSMC)在先進封裝方面的產(chǎn)能變得緊張,為此不斷擴大2.5D封裝產(chǎn)能,以滿足持續(xù)增長的產(chǎn)能需求。此前有報道稱,臺積電整全力以赴應(yīng)對CoWoS封裝產(chǎn)能的高需求,計劃今年將產(chǎn)能翻倍。
據(jù)UDN報道,由于先進封裝產(chǎn)能長期短缺,導(dǎo)致英偉達AI芯片供應(yīng)緊張,之前已經(jīng)尋求其他途徑試圖增加先進封裝產(chǎn)能,現(xiàn)在已經(jīng)將目光投向英特爾,作為其高級封裝服務(wù)的提供商,以減緩緊張的供應(yīng)形勢。除了在美國,英特爾在馬來西亞檳城也有封裝設(shè)施,而且制定了一個開放的模式,允許客戶單獨利用其封裝解決方案。
預(yù)計英特爾最早會在今年第二季度開始向英偉達提供先進封裝,月產(chǎn)能為5000片晶圓。臺積電依然會是英偉達主要的封裝合作伙伴,占據(jù)著最多的份額,不過隨著英特爾的加入,使得英偉達所需要的封裝總產(chǎn)能大幅度提升了近10%。臺積電也沒有減慢封裝產(chǎn)能的擴張步伐,今年第一季度大概能增至月產(chǎn)能接近5萬片晶圓,比去年12月增長25%。
AI芯片供應(yīng)短缺主要源自先進封裝產(chǎn)能不足,另外HBM3供應(yīng)緊張也是原因之一,另外部分云端服務(wù)商過度下單也增加了供應(yīng)鏈的壓力。當然,一些服務(wù)器供應(yīng)商則從這些訂單中受惠,并加速擴大產(chǎn)能,以便云端服務(wù)商能快速部署設(shè)備。
科技巨頭紛紛自研芯片
華爾街投資銀行 Bernstein Research 的分析師 Stacy Rasgon 表示,使用 ChatGPT 進行的每次查詢的成本約為 0.04 美元。如果 ChatGPT 查詢規(guī)模擴大到 Google 搜索量的十分之一,初始部署將需要價值約 481 億美元的 GPU 進行計算,每年需要價值約 160 億美元的芯片來維持運營,以及類似的相關(guān)芯片執(zhí)行任務(wù)的數(shù)量。
因此,無論是為了降低成本、減少對NVIDIA的過度依賴,甚至是進一步增強議價能力,全球科技巨頭都啟動了開發(fā)自己的AI加速器的計劃。
據(jù)科技媒體 The Information援引行業(yè)消息人士報道,微軟、OpenAI、特斯拉、谷歌、亞馬遜和 Meta 等六大全球科技巨頭都在投資開發(fā)自己的 AI 加速器芯片。這些公司預(yù)計將與 NVIDIA 的旗艦 H100 AI 加速器芯片展開競爭。
微軟
2023年11月,微軟在年度 IT 專業(yè)人士和開發(fā)者大會 Ignite 上推出兩款自研芯片 —— 云端 AI 芯片微軟 Azure Maia 100、服務(wù)器 CPU 微軟 Azure Cobalt 100。
Maia 100 是微軟為微軟云中大語言模型訓(xùn)練和推理而設(shè)計的第一款A(yù)I芯片,采用臺積電 5nm 工藝,擁有 1050 億顆晶體管,針對 AI 和生成式 AI 進行了優(yōu)化,支持微軟首次實現(xiàn)的低于 8 位數(shù)據(jù)類型(MX 數(shù)據(jù)類型)。微軟已經(jīng)在用搜索引擎 Bing 和 Office AI 產(chǎn)品測試該芯片。
Cobalt 100 是微軟為微軟云定制開發(fā)的第一款 CPU,也是微軟打造的第一款完整的液冷服務(wù)器 CPU,采用 Arm Neoverse CSS 設(shè)計、128 核。
微軟還定制設(shè)計了一個 AI 端到端機架,并搭配了一個“助手”液冷器,原理類似于汽車散熱器。
兩款芯片明年年初開始在微軟數(shù)據(jù)中心推出,最初為微軟的 Copilot 或 Azure OpenAI Service 等服務(wù)提供動力。微軟已經(jīng)在設(shè)計第二代版本的 Azure Maia AI 芯片和 Cobalt CPU 系列。
這些芯片代表了微軟交付基礎(chǔ)設(shè)施系統(tǒng)的最后一塊拼圖 —— 從芯片、軟件和服務(wù)器到機架和冷卻系統(tǒng)的一切,微軟這些系統(tǒng)都是由上到下設(shè)計的,可以根據(jù)內(nèi)部和客戶的工作負載進行優(yōu)化。
OpenAI
據(jù)悉,OpenAI也正在探索自研AI芯片,同時開始評估潛在收購目標。在其招聘網(wǎng)站上,最近也出現(xiàn)了AI硬件共同開發(fā)、評估相關(guān)崗位。OpenAI擬籌建的合資企業(yè)與總部位于阿布扎比的 G42 和軟銀集團等潛在投資者進行了討論,旨在解決當前和預(yù)期的人工智能相關(guān)芯片供應(yīng)短缺問題。
毫無疑問,該項目的財務(wù)和運營規(guī)模顯然是巨大的。Altman僅與G42的討論就集中在籌集80億至100億美元之間。該項目的全部范圍和合作伙伴名單仍處于早期階段,這表明建立此類設(shè)施網(wǎng)絡(luò)需要大量投資和時間。
盡管還不清楚Altman是否計劃購買一家成熟的代工廠來生產(chǎn)AI芯片,或建立一個全新的晶圓廠網(wǎng)絡(luò)來滿足OpenAI及其潛在合作伙伴的需求,但此前有人分析Altman可能會考慮把參與投資的芯片公司納入麾下,包括CerebrasRain NeuromorphicsAtomic SemiCerebras、Rain Neuromorphics、tomic Semi。
特斯拉
電動汽車制造商特斯拉也積極參與AI加速器芯片的開發(fā)。特斯拉主要圍繞自動駕駛需求,迄今為止推出了兩款A(yù)I芯片:全自動駕駛(FSD)芯片和Dojo D1芯片。
FSD芯片用于特斯拉汽車的自動駕駛系統(tǒng),而Dojo D1芯片則用于特斯拉的超級計算機。它充當通用 CPU,構(gòu)建 AI 訓(xùn)練芯片來為 Dojo 系統(tǒng)提供動力。
谷歌
Google 也早在 2013 年就秘密研發(fā)專注 AI 機器學(xué)習(xí)算法芯片,并用于云計算數(shù)據(jù)中心,取代英偉達 GPU。
這款TPU自研芯片2016年公開,為深度學(xué)習(xí)模型執(zhí)行大規(guī)模矩陣運算,如自然語言處理、計算機視覺和推薦系統(tǒng)模型。Google 其實在 2020 年的資料中心便建構(gòu) AI 芯片 TPU v4,直到 2023 年 4 月才首次公開細節(jié)。
2023年12月6日,谷歌官宣了全新的多模態(tài)大模型Gemini,包含了三個版本,根據(jù)谷歌的基準測試結(jié)果,其中的Gemini Ultra版本在許多測試中都表現(xiàn)出了“最先進的性能”,甚至在大部分測試中完全擊敗了OpenAI的GPT-4。
而在Gemini出盡了風頭的同時,谷歌還丟出了另一個重磅炸彈——全新的自研芯片TPU v5p,它也是迄今為止功能最強大的TPU。
根據(jù)官方提供的數(shù)據(jù),每個TPU v5p pod在三維環(huán)形拓撲結(jié)構(gòu)中,通過最高帶寬的芯片間互聯(lián)(ICI),以4800 Gbps/chip的速度將8960個芯片組合在一起,與TPU v4相比,TPU v5p的FLOPS和高帶寬內(nèi)存(HBM)分別提高了2倍和3倍。
除此之外,TPU v5p訓(xùn)練大型 LLM 模型的速度比上一代TPU v4快2.8倍,利用第二代SparseCores,TPU v5p訓(xùn)練嵌入密集模型的速度比TPU v4快1.9倍。TPU v5p在每個pod的總可用FLOPs方面的可擴展性也比TPU v4高出4倍,且每秒浮點運算次數(shù)(FLOPS)增加了一倍,單個pod中的芯片數(shù)量也增加了一倍,大大提高了訓(xùn)練速度的相對性能。
亞馬遜
亞馬遜旗下的云計算服務(wù)提供商亞馬遜網(wǎng)絡(luò)服務(wù)(AWS),自2013年推出Nitro1芯片以來,它一直是開發(fā)自有芯片的先驅(qū)。AWS此后開發(fā)了自研芯片的三個產(chǎn)品線,包括網(wǎng)絡(luò)芯片、服務(wù)器芯片、AI機器學(xué)習(xí)芯片。
其中,AWS自研AI芯片陣容包括推理芯片Inferentia和訓(xùn)練芯片Trainium。
此外,AWS于2023年初推出了專為人工智能設(shè)計的Inferentia 2(Inf2)。它將計算性能提高了三倍,同時將加速器總內(nèi)存增加了四分之一。
它通過芯片之間直接超高速連接支持分布式推理,可處理多達1750億個參數(shù),使其成為當今AI芯片市場上最強大的內(nèi)部制造商。
Meta
Meta 在 2022 年之前繼續(xù)使用專為加速 AI 算法而定制的 CPU 和定制芯片組來執(zhí)行其 AI 任務(wù)。然而,由于 CPU 在執(zhí)行 AI 任務(wù)方面與 GPU 相比效率較低,Meta 放棄了 2022 年大規(guī)模推出定制設(shè)計芯片的計劃,而是選擇購買價值數(shù)十億美元的 NVIDIA GPU。
盡管如此,在其他主要廠商開發(fā)內(nèi)部人工智能加速器芯片的浪潮中,Meta 也涉足內(nèi)部芯片開發(fā)。
2023年5月19日,Meta進一步公布了其人工智能訓(xùn)練和推理芯片項目。該芯片功耗僅為25瓦,是NVIDIA同類產(chǎn)品功耗的1/20。它采用RISC-V開源架構(gòu)。據(jù)市場報道,該芯片也將采用臺積電的7納米制造工藝生產(chǎn)。
美國去年10月擴大禁止向中國出售先進人工智能芯片,英偉達雖然迅速為中國市場量身訂造新芯片,以符合美國出口規(guī)定。但近日有消息指出,阿里巴巴、騰訊等中國云計算大客戶,并不熱衷購買功能降低的減規(guī)版H20芯片,轉(zhuǎn)成國內(nèi)采購。策略轉(zhuǎn)變顯示透過部分先進半導(dǎo)體訂單轉(zhuǎn)給中國公司,將更依賴中國本土廠商芯片。
TrendForce表示,中國云端業(yè)者約八成高階AI芯片購自英偉達,五年內(nèi)可能降至50%——60%。若美國繼續(xù)加強芯片管制,可能對英偉達中國地區(qū)銷售造成額外壓力。
