中國儲能網(wǎng)訊:
一、前言
近年來,人工智能(AI)領(lǐng)域取得了突破性進(jìn)展,特別是以大語言模型(LLMs)和多模態(tài)大模型(MLLMs)等為代表的AI大模型再度興起,深刻重塑了全球計(jì)算格局。這些模型以龐大的參數(shù)量(從數(shù)十億到數(shù)萬億)和海量的訓(xùn)練數(shù)據(jù)集為特征,在自然語言處理、內(nèi)容生成、機(jī)器人技術(shù)等多個領(lǐng)域展現(xiàn)出卓越的能力。中國信息通信研究院在2025年世界人工智能大會上發(fā)布的數(shù)據(jù)顯示,截至2025年7月,全球AI企業(yè)數(shù)量已超過3.5萬家,已發(fā)布大模型達(dá)3755個,其中我國AI企業(yè)的數(shù)量已超過5100家、已發(fā)布大模型1509個,大模型數(shù)量位居全球首位。近年來,我國AI大模型產(chǎn)業(yè)規(guī)模持續(xù)壯大,形成了覆蓋基礎(chǔ)大模型、行業(yè)大模型、場景大模型及大模型應(yīng)用的完整體系。
然而,大模型的超大規(guī)模和復(fù)雜性對計(jì)算資源或算力提出了極高的要求。算力也稱計(jì)算能力,通常是指設(shè)備通過處理數(shù)據(jù)實(shí)現(xiàn)結(jié)果輸出的能力,是一種融合信息計(jì)算力、網(wǎng)絡(luò)運(yùn)載力和數(shù)據(jù)存儲力的新型生產(chǎn)力;其中,以一種高效的方式支持AI工作負(fù)載和應(yīng)用的物理硬件與軟件基礎(chǔ)設(shè)施堆棧稱為智能算力,且根據(jù)大模型等生成式AI不同研發(fā)階段還可以細(xì)分為訓(xùn)練算力和推理算力。經(jīng)濟(jì)合作與發(fā)展組織(OECD)指出,算力可以根據(jù)訪問位置分為以數(shù)據(jù)中心為代表的集中式算力、以云計(jì)算技術(shù)為基礎(chǔ)的遠(yuǎn)端算力及邊緣算力。為了有效滿足AI負(fù)載和應(yīng)用產(chǎn)生的算力需求,智算中心的計(jì)算集群規(guī)模正在不斷擴(kuò)大,這種規(guī)模的擴(kuò)大不是芯片在物理空間上的簡單堆疊,而是要求這些芯片緊密協(xié)作并高效完成大模型訓(xùn)練和推理等任務(wù)。例如,X公司搭建的Colossus系統(tǒng)包含20萬個AI芯片,但是,超級計(jì)算集群硬件成本和電力需求等均會隨著規(guī)模擴(kuò)展而快速增加,計(jì)算集群擴(kuò)展規(guī)模始終有限。因此,為滿足大模型的快速發(fā)展,算力將朝向高密度算力的方向發(fā)展,并對傳統(tǒng)算力中心產(chǎn)生深刻影響。
本文旨在從技術(shù)視角系統(tǒng)地探究AI大模型演進(jìn)與高密度計(jì)算需求之間的復(fù)雜關(guān)系,深入探討大模型技術(shù)演進(jìn)的特點(diǎn),以及其對高密度算力基礎(chǔ)設(shè)施的設(shè)計(jì)、開發(fā)及部署等多方面的影響。通過對當(dāng)前高密度算力的概念、內(nèi)涵及關(guān)鍵組成部分進(jìn)行分析,識別未來高密度算力發(fā)展面臨的關(guān)鍵挑戰(zhàn)和問題,從而提出我國高密度算力發(fā)展的策略。
二、大模型計(jì)算優(yōu)化技術(shù)及算力需求演變
(一)大模型生命周期及其對算力需求的差異
大模型等生成式AI系統(tǒng)的生命周期主要包括:規(guī)劃與設(shè)計(jì)、數(shù)據(jù)收集和處理、模型構(gòu)建和使用、模型確認(rèn)和驗(yàn)證、部署、系統(tǒng)運(yùn)維與監(jiān)控。具體來看,生成式AI系統(tǒng)的開發(fā)流程包括:數(shù)據(jù)準(zhǔn)備、預(yù)訓(xùn)練、對齊、評估和部署五個階段。數(shù)據(jù)準(zhǔn)備階段包括準(zhǔn)備預(yù)訓(xùn)練數(shù)據(jù)和對齊數(shù)據(jù),后者通常需要進(jìn)行高質(zhì)量人工標(biāo)注;預(yù)訓(xùn)練階段主要是選擇和配置模型并進(jìn)行自監(jiān)督訓(xùn)練,從而得到一個基礎(chǔ)模型;對齊階段也稱為后訓(xùn)練,主要包括使用對齊數(shù)據(jù)集進(jìn)行微調(diào)、利用人類反饋等進(jìn)行強(qiáng)化學(xué)習(xí)、測試時擴(kuò)展等方式,以適應(yīng)下游任務(wù)并符合人類意圖;評估階段通常對模型質(zhì)量、安全性等方面進(jìn)行多方面評估;部署階段也稱為推理階段,是將模型以對話等形式進(jìn)行交互,滿足任務(wù)需求。生成式AI系統(tǒng)開發(fā)階段如圖1所示。

圖1 生成式AI系統(tǒng)開發(fā)階段
生成式AI系統(tǒng)的計(jì)算需求會隨著其生命周期的發(fā)展階段呈現(xiàn)顯著變化。在數(shù)據(jù)準(zhǔn)備階段,數(shù)據(jù)量通常達(dá)到Pb級,需要龐大的存儲空間,采集后的數(shù)據(jù)需要進(jìn)行去重、過濾、糾錯、分詞等一系列操作,涉及大規(guī)模的數(shù)據(jù)轉(zhuǎn)換等,對計(jì)算系統(tǒng)中的輸入/輸出(I/O)和存儲架構(gòu)提出了嚴(yán)格要求。預(yù)訓(xùn)練是大模型生命周期中對計(jì)算資源要求最嚴(yán)苛的階段,涉及大量密集的矩陣乘法運(yùn)算且需要在數(shù)千個分布式計(jì)算節(jié)點(diǎn)之間進(jìn)行同步通信以更新梯度,對計(jì)算、內(nèi)存帶寬和網(wǎng)絡(luò)等要求極高,需要實(shí)施多種高度并行策略,最大化計(jì)算資源的利用率。后訓(xùn)練階段的算力需求根據(jù)技術(shù)方案不同而呈現(xiàn)較大差異。例如,用對齊數(shù)據(jù)集對模型進(jìn)行全參數(shù)微調(diào)需要更新模型的所有權(quán)重,需要強(qiáng)大的算力支撐,而一些參數(shù)高效微調(diào)方法則可以顯著降低算力成本。推理階段包括預(yù)填充和解碼兩個子階段,在預(yù)填充階段,大模型需要處理輸入文本并轉(zhuǎn)換為鍵值緩存,涉及大量可并行化的矩陣運(yùn)算,對計(jì)算要求高但對內(nèi)存帶寬要求較低;解碼階段需要根據(jù)鍵值緩存信息通過自回歸方式進(jìn)行推理并輸出標(biāo)記,對計(jì)算要求低但對內(nèi)存帶寬要求較高,以高效調(diào)取鍵值緩存。
(二)大模型擴(kuò)展定律演進(jìn):從參數(shù)到數(shù)據(jù)再到推理時計(jì)算的算力需求升級
大模型擴(kuò)展定律,也稱神經(jīng)網(wǎng)絡(luò)擴(kuò)展定律,是用來描述神經(jīng)網(wǎng)絡(luò)性能隨著模型規(guī)模、數(shù)據(jù)集大小、計(jì)算量或訓(xùn)練時間等關(guān)鍵因素的增加而變化的統(tǒng)計(jì)定律。目前,大模型擴(kuò)展定律已成為指導(dǎo)全球AI競爭中國家和企業(yè)算力戰(zhàn)略布局的關(guān)鍵工具,有助于有效分配算力資源,加速前沿AI模型的開發(fā)周期,甚至影響AI領(lǐng)域的市場領(lǐng)導(dǎo)地位和國家安全。
訓(xùn)練階段的大模型擴(kuò)展定律經(jīng)歷了從以參數(shù)為中心到以數(shù)據(jù)為中心的轉(zhuǎn)變。大模型訓(xùn)練時擴(kuò)展定律最早由美國開放人工智能研究中心(OpenAI)的Kaplan等人于2020年提出。研究發(fā)現(xiàn),語言模型的性能隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練算力大小呈現(xiàn)冪律分布特征,并建議模型參數(shù)與數(shù)據(jù)(以標(biāo)記計(jì))的比例大致為1∶1.7。2022年,Hoffmann等發(fā)布Chinchilla擴(kuò)展定律并建議該比例為1∶20,后由Epoch AI研究院進(jìn)行復(fù)現(xiàn),結(jié)果與此類似。此后,不同的研究者提出了不同的擴(kuò)展定律比例。例如,Sadana等進(jìn)一步考慮推理需求,認(rèn)為在預(yù)期推理需求較大的情況下以更小模型進(jìn)行更長時間的訓(xùn)練會更具成本效益,建議模型參數(shù)與數(shù)據(jù)的比例為1∶190。杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(DeepSeek)研究揭示了最佳模型與數(shù)據(jù)擴(kuò)展分配策略,尤其是數(shù)據(jù)質(zhì)量對該策略的影響,建議該比例為1∶30。清華大學(xué)和LLaMA 3模型進(jìn)一步強(qiáng)化了數(shù)據(jù)的重要性,認(rèn)為數(shù)據(jù)規(guī)模平均應(yīng)為模型規(guī)模的192倍甚至1875倍。
在推理或部署階段,隨著“慢思考”范式的出現(xiàn),大模型測試時擴(kuò)展逐漸引發(fā)廣泛關(guān)注。測試時擴(kuò)展是指為大模型推理過程提供更多計(jì)算資源,即允許大模型進(jìn)行更長時間的思考來輸出更好的答案。有研究指出,優(yōu)化大模型的測試時計(jì)算可能比簡單地增加模型參數(shù)更有效。測試時擴(kuò)展通常涵蓋多種技術(shù),包括并行策略、逐步演化、搜索推理、內(nèi)在優(yōu)化等。例如,通過輸出多條可能的答案并采用投票機(jī)制選出其中一條答案,或者通過給出推理過程并使用過程獎勵模型對這些過程進(jìn)行打分,從而引導(dǎo)模型給出更好的輸出。這些策略意味著大模型推理需要更多的算力資源支持,也意味著可以通過擴(kuò)展測試時計(jì)算,使模型在達(dá)到同等性能時所需的規(guī)模更小,從而更便于部署在邊緣設(shè)備上進(jìn)行應(yīng)用。
目前,大模型擴(kuò)展定律的相關(guān)研究仍在持續(xù)開展,其關(guān)注點(diǎn)從模型參數(shù)到數(shù)據(jù)再到測試時計(jì)算的演進(jìn),導(dǎo)致大模型對算力需求也在不斷發(fā)展變化。在以參數(shù)為中心的擴(kuò)展定律指導(dǎo)下,業(yè)界認(rèn)為模型參數(shù)的增加是模型性能提升的主要驅(qū)動因素,其次是數(shù)據(jù)規(guī)模。以數(shù)據(jù)尤其是高質(zhì)量數(shù)據(jù)為中心的擴(kuò)展,導(dǎo)致業(yè)界需重新評估和調(diào)整大模型的訓(xùn)練策略,使其對大規(guī)模、高質(zhì)量數(shù)據(jù)集的需求顯著增加,也對算力環(huán)境中數(shù)據(jù)處理、存儲、網(wǎng)絡(luò)等提出了更高的要求。測試時擴(kuò)展的提出進(jìn)一步對推理算力和邊緣算力提出了更高的要求。未來,數(shù)據(jù)規(guī)模與質(zhì)量、架構(gòu)設(shè)計(jì)和算力三者之間的相互作用將繼續(xù)推動大模型的相關(guān)研究。對于算力而言,這意味著在原始浮點(diǎn)運(yùn)算能力的基礎(chǔ)上,還需要優(yōu)先考慮數(shù)據(jù)高效攝取、高帶寬存儲以及計(jì)算資源靈活分配,以支持多樣化的模型架構(gòu)及其不斷演進(jìn)的數(shù)據(jù)需求。
(三)模型壓縮技術(shù):降低大模型部署門檻并推升推理算力需求
大模型的巨大規(guī)模和高計(jì)算需求對實(shí)際部署形成了嚴(yán)峻挑戰(zhàn),特別是在計(jì)算資源受限的環(huán)境中。因此,大模型壓縮技術(shù)已成為一個關(guān)鍵的研究領(lǐng)域,旨在解決計(jì)算資源限制,并顯著提升模型推理速度。當(dāng)前的主要模型壓縮技術(shù)包括模型量化、模型剪枝、知識蒸餾、混合專家(MoE)架構(gòu)優(yōu)化等類別。
1. 量化技術(shù)通過降低精度來減少大模型內(nèi)存和計(jì)算需求
量化是一種通過將模型的權(quán)重和激活值從高精度格式(如FP32)轉(zhuǎn)換為低精度格式(如FP16、INT8、INT4等)來減少模型內(nèi)存和計(jì)算需求的技術(shù)。以一個70億參數(shù)的模型為例,其內(nèi)存需求在不同精度下差異顯著,即FP32格式需要56 GB內(nèi)存,F(xiàn)P16格式下可減少至28 GB,而INT8和INT4等低精度格式則可進(jìn)一步壓縮模型。主流的量化技術(shù)包括激活感知權(quán)重量化(如AWQ)、后訓(xùn)練量化(如SmoothQuant)以及高效后訓(xùn)練量化算法(如GPTQ)等。量化技術(shù)顯著降低了因大模型“內(nèi)存墻”限制和高算力需求等帶來的部署門檻,使其能夠在除了大規(guī)模算力中心之外資源更加有限且多樣化的環(huán)境中(如邊緣設(shè)備和嵌入式系統(tǒng))進(jìn)行部署,并通過加速推理過程使大模型能夠在延遲要求高等實(shí)時場景中進(jìn)行廣泛應(yīng)用。此外,量化技術(shù)還將影響未來AI硬件的設(shè)計(jì),推動越來越多的AI硬件集成用于低精度算術(shù)的專用單元。
2. 剪枝技術(shù)通過刪除冗余參數(shù)來實(shí)現(xiàn)模型稀疏化以提升計(jì)算效率
剪枝技術(shù)主要通過移除模型中冗余或?qū)π阅苡绊戄^小的參數(shù)來實(shí)現(xiàn)稀疏性,通常包括非結(jié)構(gòu)化剪枝、半結(jié)構(gòu)化剪枝和結(jié)構(gòu)化剪枝。非結(jié)構(gòu)化剪枝也稱為權(quán)重剪枝,不遵循任何預(yù)定義的結(jié)構(gòu)來移除模型中的單個權(quán)重,通常需要特殊的硬件支持才能實(shí)現(xiàn)實(shí)際加速。半結(jié)構(gòu)化剪枝則是刪除符合某些結(jié)構(gòu)約束的權(quán)重組,如每4個連續(xù)權(quán)重中刪除2個。結(jié)構(gòu)化剪枝是直接移除模型中的結(jié)構(gòu)組件,如神經(jīng)元、注意力頭等。已有研究還提出混合粒度剪枝技術(shù)。結(jié)構(gòu)化剪枝會產(chǎn)生更少的矩陣乘法和更低的內(nèi)存需求,可以由標(biāo)準(zhǔn)的深度學(xué)習(xí)庫和硬件加速器執(zhí)行,對通用設(shè)備硬件更加友好。
3. 知識蒸餾通過解耦高成本訓(xùn)練和高效推理過程,降低模型推理的算力需求
知識蒸餾技術(shù)涉及將一個復(fù)雜的大型“教師模型”壓縮至一個更小、更高效且更易部署的“學(xué)生模型”。知識蒸餾的主要策略包括離線蒸餾、在線蒸餾和自蒸餾。離線蒸餾策略最為常見,是利用預(yù)訓(xùn)練好的“教師模型”指導(dǎo)“學(xué)生模型”;在線蒸餾是將“教師模型”和“學(xué)生模型”在端到端訓(xùn)練過程中進(jìn)行同步更新;自蒸餾是將“教師模型”和“學(xué)生模型”作為同一個模型,包括在不同層次深度神經(jīng)網(wǎng)絡(luò)或不同階段進(jìn)行自蒸餾。蘋果公司和牛津大學(xué)團(tuán)隊(duì)提出了知識蒸餾擴(kuò)展定律,并揭示了不同算力預(yù)算和蒸餾情況下的算力資源分配策略。知識蒸餾是通過解耦高成本訓(xùn)練和高效推理,降低推理成本、延遲和能耗,有效緩解在實(shí)際應(yīng)用中部署大模型所面臨的計(jì)算需求和資源限制相關(guān)的挑戰(zhàn),目前已在業(yè)界和學(xué)術(shù)界得到廣泛應(yīng)用。
4. MoE架構(gòu)通過專家網(wǎng)絡(luò)和門控網(wǎng)絡(luò)動態(tài)分配算力,顯著提升訓(xùn)練和推理速度
MoE架構(gòu)是一種能夠根據(jù)輸入特點(diǎn)動態(tài)選擇和組合多個“專家”(通常為各種神經(jīng)網(wǎng)絡(luò)模型)來處理特定任務(wù)或輸入的機(jī)器學(xué)習(xí)模型架構(gòu)。專家之間的動態(tài)協(xié)調(diào)需要通過門控網(wǎng)絡(luò)(或稱路由機(jī)制)來控制。MoE架構(gòu)主要包括專家網(wǎng)絡(luò)和門控網(wǎng)絡(luò),專家網(wǎng)絡(luò)一般為Transformer架構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),門控網(wǎng)絡(luò)則決定與特定輸入數(shù)據(jù)最相關(guān)的專家。前饋神經(jīng)網(wǎng)絡(luò)是在層歸一化之后執(zhí)行的稠密網(wǎng)絡(luò),通常是全連接層,其中所有的參數(shù)都會被激活。在使用MoE架構(gòu)替代之后,前饋神經(jīng)網(wǎng)絡(luò)層就會被分割為多個專家網(wǎng)絡(luò),且在特定情形下僅激活一部分專家網(wǎng)絡(luò)。通過這種稀疏化,MoE架構(gòu)能夠使算力分配動態(tài)化、顯著提升訓(xùn)練和推理速度以及降低算力成本。此外,MoE架構(gòu)允許在算力預(yù)算一定的情況下訓(xùn)練更高參數(shù)量的大模型,從而提升模型性能。目前,多個主流大模型已經(jīng)采用MoE架構(gòu),如Mixtral(8x7B,每層由8個專家組成,每標(biāo)記激活2個專家)、DeepSeek-V3(總參數(shù)量為6710億,每標(biāo)記約激活8個專家、370億參數(shù))等。
從推理角度來看,MoE模型的有效部署和高效執(zhí)行在模型層、系統(tǒng)層和硬件層等多方面面臨獨(dú)特挑戰(zhàn)。在模型層,MoE架構(gòu)設(shè)計(jì)需要有效平衡模型規(guī)模和計(jì)算效率;在系統(tǒng)層,專家動態(tài)激活和負(fù)載均衡需要復(fù)雜的調(diào)度算法與高效的內(nèi)存管理來處理這些專家參數(shù)的加載、卸載;在硬件層,傳統(tǒng)為稠密模型進(jìn)行優(yōu)化的硬件架構(gòu)難以匹配MoE模型特性,需要專門的加速技術(shù)進(jìn)行處理,為動態(tài)專家切換等提供靈活的算力。因此,MoE模型的興起,意味著需要在AI軟硬件方面進(jìn)行協(xié)同優(yōu)化,包括新型硬件架構(gòu)和加速策略、內(nèi)存管理系統(tǒng)、適應(yīng)負(fù)載均衡的智能中間件等,以實(shí)現(xiàn)更靈活的算力供給。
(四)多模態(tài)大模型:復(fù)雜架構(gòu)與數(shù)據(jù)需求驅(qū)動的算力多元化
與通用大模型或LLMs主要采用文本進(jìn)行訓(xùn)練和部署不同,MLLMs使用文本、圖像、音頻和視頻等多模態(tài)信息進(jìn)行訓(xùn)練,旨在完成多模態(tài)、多樣化的應(yīng)用任務(wù)。這意味著,MLLMs通常涉及更大規(guī)模和多樣化的數(shù)據(jù)集以及更復(fù)雜的模型架構(gòu)。例如,相比于GPT-3,GPT-4擁有高達(dá)1.8萬億和13萬億的參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù);OpenAI提出的CLIP模型為圖像和文本設(shè)計(jì)了兩個編碼器。這種多模態(tài)理解能力使大模型的應(yīng)用范圍得到不斷拓展,尤其是在具身智能、人形機(jī)器人等技術(shù)的快速發(fā)展下,多模態(tài)大模型已經(jīng)成為一個重要方向。
MLLMs訓(xùn)練和推理的復(fù)雜性從根本上推動了對底層算力基礎(chǔ)設(shè)施的需求,并進(jìn)一步推動算力基礎(chǔ)設(shè)施向多元異構(gòu)算力發(fā)展。一方面,MLLMs訓(xùn)練需要更大容量的存儲、更高性能的計(jì)算加速卡以及更優(yōu)化的并行工具和策略等,來處理規(guī)模不斷增加的參數(shù)量和數(shù)據(jù)集;另一方面,MLLMs推理場景更加多樣化,且對低延遲有更高要求,這對邊緣算力、云服務(wù)等提出了更嚴(yán)苛的要求,進(jìn)一步凸顯了內(nèi)存帶寬、高速互連以及高效管理和處理多樣化數(shù)據(jù)流的重要性。
綜上來看,目前以大模型為代表的生成式AI發(fā)展呈現(xiàn)模型規(guī)模持續(xù)擴(kuò)展、模型壓縮及多模態(tài)等帶來的架構(gòu)復(fù)雜性和數(shù)據(jù)多樣性,以及高度追求大模型研發(fā)與應(yīng)用的低成本和高能效等特點(diǎn),使傳統(tǒng)算力基礎(chǔ)設(shè)施難以有效滿足當(dāng)前需求。因此,未來算力基礎(chǔ)設(shè)施需要朝向高密度算力發(fā)展。高密度算力需要通過對計(jì)算性能、內(nèi)存、網(wǎng)絡(luò)、功耗、散熱等所有要素進(jìn)行協(xié)同優(yōu)化,實(shí)現(xiàn)單位空間、單位能耗和單位成本下的有效算力最大化,滿足大模型研發(fā)中海量數(shù)據(jù)處理、超大規(guī)模參數(shù)計(jì)算和更新對智能算力的全方位需求,為大模型提供穩(wěn)定、高效、低成本和可持續(xù)的算力支持。
三、高密度算力的內(nèi)涵、特征及關(guān)鍵組成
(一)高密度算力的內(nèi)涵與特征
當(dāng)前,“算力密度”有多種定義,但其核心都指向計(jì)算資源的密集程度,用于衡量計(jì)算設(shè)備或數(shù)據(jù)中心的性能和效率。已有研究從多個維度對算力密度進(jìn)行了闡釋。
在空間維度,《AI大模型與異構(gòu)算力融合技術(shù)白皮書》將算力密度定義為單位面積或單位體積內(nèi)的計(jì)算能力,高算力密度意味著在有限空間內(nèi)提供更強(qiáng)大的計(jì)算能力。在“算力100問”中,算力密度是指在一定的物理空間或計(jì)算資源范圍內(nèi),所能夠提供的計(jì)算能力的大小。在能耗維度,有研究認(rèn)為,算力密度是單位面積或單位功耗下的算力,反映芯片設(shè)計(jì)的能效和集成度,分別使用每平方米算力密度和單機(jī)柜功率密度來衡量。在硬件維度,高密度服務(wù)器旨在最小的物理空間內(nèi)最大化計(jì)算能力和存儲能力。美國芯片出口管制主要使用性能密度作為限制指標(biāo),通常為總處理性能除以芯片面積,目的是保證Transformer架構(gòu)的大模型難以高效運(yùn)行。有研究將算力密度定義為算力與顯存容量的比值,并指出通用圖形處理器(GPGPU)的單位顯存算力相對有限,而應(yīng)用集成電路(ASIC)以高算力密度在特定任務(wù)中優(yōu)勢凸顯。
現(xiàn)有對服務(wù)器密度和數(shù)據(jù)中心密度的定義通常會同時考慮空間和能耗兩個維度。有研究指出,高密度服務(wù)器是指在最小的物理空間內(nèi)最大化計(jì)算能力和存儲容量的服務(wù)器硬件,一般具備高密度處理器、內(nèi)存和存儲配置,以及高效的電源和冷卻技術(shù);數(shù)據(jù)中心密度是指單位面積內(nèi)數(shù)據(jù)中心服務(wù)器機(jī)架及相應(yīng)設(shè)施的功耗總和,與單機(jī)柜功率密度密切相關(guān)。還有研究將新型數(shù)據(jù)中心總結(jié)為具有高技術(shù)、高算力、高能效和高安全4個特征的數(shù)據(jù)中心,即算力規(guī)模和密度逐步提高、綠色低碳技術(shù)應(yīng)用逐步擴(kuò)大等。
綜合來看,高算力密度意味著在有限的空間內(nèi)可以提供更強(qiáng)的計(jì)算能力,從而提升整體性能和資源利用效率。這種每單位面積計(jì)算能力的指數(shù)級增長對互連、散熱、配電等其他基礎(chǔ)設(shè)施組件產(chǎn)生了連鎖效應(yīng)。因此,發(fā)展高密度算力不僅僅是簡單地堆疊更多的服務(wù)器,而是要求對算力中心整體架構(gòu)設(shè)計(jì)進(jìn)行變革,涵蓋從芯片設(shè)計(jì)與封裝到電力輸送、散熱和網(wǎng)絡(luò)等各個環(huán)節(jié),都需要為AI工作負(fù)載進(jìn)行專門優(yōu)化。
(二)高密度算力的發(fā)展現(xiàn)狀
在大模型等AI技術(shù)的快速發(fā)展及其對高密度算力的迫切需求之下,增加處理器核數(shù)、內(nèi)存容量、存儲空間及互連速度等方式提升單機(jī)柜功率密度已經(jīng)成為實(shí)現(xiàn)高密度算力的一種常用策略。2022年,中國信息通信研究院發(fā)布《數(shù)據(jù)中心白皮書(2022年)》,指出傳統(tǒng)依靠增加空間、擴(kuò)大機(jī)架及服務(wù)器規(guī)模來提供更多算力的做法在AI時代已經(jīng)變得不可取,未來數(shù)據(jù)中心的變革趨勢之一是高密度服務(wù)器研發(fā)部署加快,單位面積算力提升。麥肯錫咨詢公司指出,近年來單位機(jī)柜功率密度不斷增加,類似ChatGPT規(guī)模的大模型訓(xùn)練每機(jī)架功耗超過80 kW,英偉達(dá)公司的最新芯片GB200及其服務(wù)器的機(jī)柜功率密度可以達(dá)到120 kW。
當(dāng)前,各大廠商正在紛紛圍繞提升計(jì)算效率和降低能耗等進(jìn)行高密度服務(wù)器產(chǎn)品的設(shè)計(jì)與布局。例如,浪潮電子信息產(chǎn)業(yè)股份有限公司為高密度數(shù)據(jù)中心設(shè)計(jì)的多節(jié)點(diǎn)模塊化服務(wù)器i48M6,實(shí)現(xiàn)了在標(biāo)準(zhǔn)機(jī)架4U高度中部署8個計(jì)算節(jié)點(diǎn)和72塊3.5″大容量硬盤,最高支持48個I/O擴(kuò)展,并采用智能調(diào)控技術(shù)和先進(jìn)分冷系統(tǒng),保障系統(tǒng)的穩(wěn)定運(yùn)行。百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司于2025年宣布昆侖芯超節(jié)點(diǎn)支持1U4卡超高密度算力,單一機(jī)柜能放入64張卡。值得一提的是,在2025年世界人工智能大會上推出的國產(chǎn)軟硬件一體高密度算力機(jī)柜Shanghai Cube突破算力極限,其算力密度達(dá)單一標(biāo)準(zhǔn)機(jī)柜128張圖形處理器(GPU)模組,包括芯片、存儲、網(wǎng)絡(luò)、管理節(jié)點(diǎn)等硬件,以及操作系統(tǒng)、計(jì)算平臺、調(diào)度軟件、AI平臺等軟件,實(shí)現(xiàn)了全國產(chǎn)自主可控。
在互連技術(shù)方面,英偉達(dá)公司率先提出縱向擴(kuò)展解決方案——超節(jié)點(diǎn),通過內(nèi)部高速總線互連,建起低延遲、高帶寬的統(tǒng)一算力實(shí)體,有效支撐并行計(jì)算任務(wù)。2025年,華為技術(shù)有限公司推出昇騰384超節(jié)點(diǎn)(Atlas 900 A3 SuperPoD),實(shí)現(xiàn)了384個AI芯片之間的大帶寬低時延互聯(lián)。同時,阿里云計(jì)算有限公司也在2025年的云棲大會上首次展示了支持144個節(jié)點(diǎn)的高密度AI服務(wù)器及高性能網(wǎng)絡(luò)架構(gòu)HPN8.0。
(三)高密度算力的關(guān)鍵組成
建設(shè)高密度算力中心的關(guān)鍵是部署高密度服務(wù)器,包括在特定空間內(nèi)集成更多的處理器和I/O擴(kuò)展能力,提升存儲密度、互連速度、按需內(nèi)存擴(kuò)容、提升冷負(fù)荷密度等。高密度算力的核心組成包括基于先進(jìn)封裝的芯片制造技術(shù)、高速互聯(lián)技術(shù)和高效散熱技術(shù)等。
在先進(jìn)封裝技術(shù)方面,在摩爾定律放緩的背景下,以CoWoS為代表的2.5D封裝技術(shù)成為延續(xù)芯片性能增長的關(guān)鍵技術(shù)之一。從單個芯片來看,AI芯片一般是專門針對AI工作負(fù)載進(jìn)行特殊加速設(shè)計(jì)的芯片,可以分為GPU、現(xiàn)場可編程邏輯門陣列(FPGA)和ASIC等架構(gòu)。以英偉達(dá)公司的GPU為例,從Pascal P100到Blackwell B100,其算力性能從19 TFLOPS上升到近20 000 TFLOPS,同時每單位功耗從170 000 J每標(biāo)記下降到0.4 J每標(biāo)記。從芯片封裝來看,2.5D封裝是指在芯片之間增加中介層來實(shí)現(xiàn)高密度互連的封裝方式,具有多芯片集成及高密度的特點(diǎn),其中CoWoS封裝是將多顆芯粒通過晶圓上芯片(CoW)的封裝制程連接至硅中介層,再通過基板(oS)與底層基板連接,構(gòu)成整體CoWoS結(jié)構(gòu)。
在高速互連技術(shù)方面,由于大模型需同時跨越多個芯片和服務(wù)器集群進(jìn)行分布式計(jì)算,互連帶寬已成為關(guān)鍵瓶頸之一。從服務(wù)器集群來看,高速互連技術(shù)是將AI加速器集群連接起來,支持節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間的高速通信,實(shí)現(xiàn)模型高效運(yùn)行。傳統(tǒng)互連技術(shù)難以滿足AI工作負(fù)載對高帶寬和低延遲的需求,當(dāng)前主要的高速互連技術(shù)包括NVLink、InfiniBand、PCle、RoCE等。前兩種都是英偉達(dá)公司的技術(shù),極大提升了卡間互連的效率。
在高效散熱技術(shù)方面,高密度算力帶來了巨大的發(fā)熱量,使散熱問題成為硬件選擇和基礎(chǔ)設(shè)施布局的關(guān)鍵因素之一。從算力中心來看,高密度算力的需求與發(fā)展為算力中心散熱問題帶來了極大的挑戰(zhàn),甚至決定了硬件選擇、空間優(yōu)化、電力輸送等方面的整體布局。AI工作負(fù)載需要的高密度算力所產(chǎn)生的熱量顯著高于傳統(tǒng)的算力服務(wù)器,如果沒有有效的散熱技術(shù)就會導(dǎo)致硬件過熱從而產(chǎn)生故障。常見的散熱技術(shù)包括風(fēng)冷、水冷和液冷以及混合冷卻等多種方式,液冷根據(jù)冷卻方式又進(jìn)一步細(xì)分為冷板式、浸沒式和噴淋式冷卻,后兩者都屬于浸沒式。在“雙碳”目標(biāo)下,傳統(tǒng)風(fēng)冷方式已經(jīng)難以滿足算力能耗要求的電源使用效率(PUE)值,液冷逐漸成為算力中心散熱技術(shù)的優(yōu)選。
四、我國高密度算力安全發(fā)展面臨的關(guān)鍵挑戰(zhàn)
(一)供應(yīng)鏈安全風(fēng)險仍然首當(dāng)其沖
AI芯片供應(yīng)鏈高度復(fù)雜且碎片化,集中在少數(shù)國家或地區(qū),導(dǎo)致AI芯片供應(yīng)鏈高度脆弱,極易受到地緣政治、突發(fā)事件等因素的影響,其安全性、韌性已成為國家安全和經(jīng)濟(jì)發(fā)展的當(dāng)務(wù)之急。尤其是在當(dāng)前的國際形勢下,AI芯片領(lǐng)域供應(yīng)鏈風(fēng)險日益增長。2025年7月,美國發(fā)布《贏得人工智能競賽:美國人工智能行動計(jì)劃》,明確提出要審查我國的前沿AI模型,并在國際治理機(jī)構(gòu)中對抗我國的影響力等。此前,美國提議安裝“芯片定位”技術(shù)、聯(lián)合盟友不斷加強(qiáng)對我國芯片及相關(guān)設(shè)備和工具的出口管制等方式,持續(xù)加強(qiáng)對我國芯片領(lǐng)域的打壓,遏制我國前沿AI模型的發(fā)展。
當(dāng)前,我國在高端制程芯片等領(lǐng)域存在多方面的挑戰(zhàn),包括以極紫外光刻機(jī)(EUV)及電子設(shè)計(jì)自動化(EDA)軟件等為代表的軟硬件設(shè)備、工藝技術(shù)、關(guān)鍵基礎(chǔ)材料以及生產(chǎn)成本與穩(wěn)定性等。7 nm及以下制程高端芯片的主要挑戰(zhàn)在于在縮短制程、提高晶體管密度的同時還需要保持高效能和低功耗等。我國在芯片制造工藝上的研發(fā)起步較晚,技術(shù)儲備不足,大量高端芯片需要依靠進(jìn)口,導(dǎo)致供應(yīng)鏈安全存在極大的風(fēng)險。
(二)物理硬件層瓶頸問題逼近極限
除了GPU等芯片外,內(nèi)存和互聯(lián)技術(shù)代表的存力和運(yùn)力等廣義算力基礎(chǔ)設(shè)施的物理硬件層已成為制約當(dāng)前AI發(fā)展的關(guān)鍵瓶頸,尤其是隨著摩爾定律、登納德縮放定律(Dennard scaling)和阿姆達(dá)爾定律(Amdahl’s law)等三大基本定律的逐漸放緩甚至消失,傳統(tǒng)存算分離的馮·諾伊曼架構(gòu)已經(jīng)難以有效滿足大模型等AI應(yīng)用日益增長的性能和能效需求。在內(nèi)存方面,由于當(dāng)前硬件制造工藝等正在逼近物理極限,“內(nèi)存墻”問題凸顯,成為制約大模型發(fā)展的根本性瓶頸之一?!皟?nèi)存墻”是指處理器速度與內(nèi)存性能速度發(fā)展不平衡導(dǎo)致的一種存算失衡現(xiàn)象,最早于1994年由William.A.Wulf和Sally A. MaKee提出。對于規(guī)模仍在不斷擴(kuò)展的大模型而言,“內(nèi)存墻”會導(dǎo)致訪存時延增加,嚴(yán)重降低計(jì)算效率。造成計(jì)算效率低下的另一根本原因是互聯(lián)技術(shù),包括芯片內(nèi)部處理器與存儲器以及芯片之間的網(wǎng)絡(luò)帶寬極大限制了數(shù)據(jù)的高效快速移動。通常,大模型訓(xùn)練需要多算力節(jié)點(diǎn)或算力集群進(jìn)行分布式計(jì)算,而傳統(tǒng)的網(wǎng)絡(luò)系統(tǒng)無法滿足AI工作負(fù)載對高帶寬和低延遲的需求。如果互聯(lián)速度慢或延遲高,計(jì)算資源就會空置等待,從而降低了大模型訓(xùn)練的效率,極大增加了訓(xùn)練時間和成本。
從存儲芯片來看,我國存儲芯片近年來取得了長足發(fā)展。國際知名機(jī)構(gòu)Techinsight發(fā)布了多個報(bào)告,通過逆向拆解我國長江存儲科技有限責(zé)任公司和長鑫存儲技術(shù)有限公司的產(chǎn)品,分析了我國存儲芯片的發(fā)展現(xiàn)狀。如分析長江存儲科技有限責(zé)任公司232層QLC 3D NAND芯片,認(rèn)為該芯片具有市售產(chǎn)品中最高的位密度19.8 Gb/mm2,被認(rèn)為是世界上最先進(jìn)的3D NAND存儲芯片,對AI發(fā)展至關(guān)重要。長鑫存儲技術(shù)有限公司也在動態(tài)隨機(jī)存取存儲器(DRAM)、高帶寬內(nèi)存(HBM)等領(lǐng)域取得了快速進(jìn)步,突破了DDR5和HBM2技術(shù),但在HBM等技術(shù)與以美光科技有限公司的HBM3e為代表的國際先進(jìn)技術(shù)仍存在較大的代差。在互聯(lián)技術(shù)方面,單一集群的互聯(lián)技術(shù)主要依賴于英偉達(dá)公司的NVLink、InfiniBand等技術(shù),我國存在較大差距,但是近年來我國高度重視算力互聯(lián)互通相關(guān)技術(shù),正逐漸取得突破。如2025年上海人工智能實(shí)驗(yàn)室與中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司聯(lián)合實(shí)現(xiàn)千里算力互聯(lián)訓(xùn)練千億參數(shù)大模型。未來,如果能以算力網(wǎng)絡(luò)互聯(lián)彌補(bǔ)單顆芯片算力不足的短板,將有望降低我國智能算力存在的供應(yīng)鏈風(fēng)險。
(三)軟件棧優(yōu)化面臨不完整及對外高依賴等多重挑戰(zhàn)
高密度算力基礎(chǔ)設(shè)施的瓶頸不僅局限于硬件,還延伸到基礎(chǔ)設(shè)施軟件棧的各個層面。這些基礎(chǔ)設(shè)施軟件棧也稱為AI軟件系統(tǒng),是連接硬件和AI工作負(fù)載的關(guān)鍵部分,包括操作系統(tǒng)及編排管理軟件、AI編譯器、分析器以及AI框架和軟件庫等,共同組成了AI軟件生態(tài)。這些軟件工具能夠確保大模型充分利用底層硬件,減少訓(xùn)練模型所需的時間和資源,提升性能和能效,是整個AI技術(shù)體系的核心,也是應(yīng)對智能經(jīng)濟(jì)時代的技術(shù)利器。
目前,國際上正在積極開展AI框架軟件開發(fā),Cuda、MLIR、PyTorch等主流AI框架軟件均由國外企業(yè)主導(dǎo),我國正在這種國際壟斷之下積極推動開源開放和自主可控。當(dāng)前,我國智能算力軟件生態(tài)仍面臨著多重挑戰(zhàn),包括驅(qū)動軟件的異構(gòu)架構(gòu)兼容與性能的折中、編程模型和語言高度依賴海外、加速庫與工具鏈的完整性和效率不足等。尤其是,當(dāng)前我國國產(chǎn)軟件的生態(tài)建設(shè)缺失,大量開源生態(tài)社區(qū)開發(fā)和使用人員較少,開源生態(tài)不成熟,導(dǎo)致我國國產(chǎn)AI軟件棧優(yōu)化速度慢,缺乏完整性并對外高度依賴。
(四)算力功耗面臨“功耗墻”及能源安全雙重挑戰(zhàn)
智能算力的盡頭可以認(rèn)為是能源,算力與能源之前存在高度相關(guān)關(guān)系。尤其是,高密度算力的顯著特點(diǎn)是單位面積內(nèi)功率密度極高,這意味著在更小的空間內(nèi)產(chǎn)生更多的熱量,帶來了高功耗及高散熱需求。這種對空間密度的極致追求與功耗及能源需求之間的矛盾已成為限制算力密度持續(xù)提升的關(guān)鍵。這種巨大的能耗需求導(dǎo)致AI芯片的功耗過高,限制了AI技術(shù)的可持續(xù)發(fā)展和應(yīng)用,也被稱為“功耗墻”。解決“功耗墻”問題需要從能源政策、電力等基礎(chǔ)設(shè)施規(guī)劃、芯片工藝及AI算法設(shè)計(jì)等各方面進(jìn)行提升和優(yōu)化。國際能源署在2025年發(fā)布的《能源與人工智能》報(bào)告中指出,一個典型智能算力中心的耗電量相當(dāng)于10萬戶家庭的用電量,到2030年其耗電量將增加一倍達(dá)到945 TW·h,甚至高于全日本的總電力消耗,未來AI及算力中心的發(fā)展將加劇全球能源安全風(fēng)險。
從能源基礎(chǔ)設(shè)施方面來看,雖然我國目前的電力仍由煤電主導(dǎo),但近年來正在大力發(fā)展太陽能、風(fēng)能等綠色能源技術(shù),并在光伏、電池等領(lǐng)域獲得了重大進(jìn)展,已躍升為全球領(lǐng)先的國家。截至2024年年底,我國可再生能源發(fā)電裝機(jī)達(dá)到1.889×109 kW,2024年發(fā)電量達(dá)3.46×1012 kW·h,占全部發(fā)電量的35%,這些綠電資源主要分布在我國廣袤的西部地區(qū)。當(dāng)前,我國電力市場由國家電網(wǎng)有限公司和南方電網(wǎng)有限責(zé)任公司進(jìn)行統(tǒng)籌,未來我國將建設(shè)全國統(tǒng)一電力市場,有利于對電力進(jìn)行統(tǒng)一調(diào)度與使用。與此同時,我國出臺“東數(shù)西算”等多項(xiàng)政策高度重視算電協(xié)同發(fā)展,但在綠電使用等方面仍面臨一些技術(shù)、產(chǎn)業(yè)、政策等方面的問題,如算力用電集聚程度高、密度大對電網(wǎng)帶來較大壓力,綠電供應(yīng)不足以及綠電就近由智算中心消納存在障礙等。
(五)網(wǎng)絡(luò)安全風(fēng)險形勢更加嚴(yán)峻
智能算力網(wǎng)絡(luò)安全風(fēng)險貫穿基礎(chǔ)硬件、軟件及模型部署與管理工具等層面。2025年8月,美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)發(fā)布了《用于保護(hù)人工智能系統(tǒng)控制覆蓋》(SP 800-53 Control Overlays for Securing AI Systems)概念文件,指出AI系統(tǒng)的安全性與運(yùn)行AI系統(tǒng)的基礎(chǔ)設(shè)施安全性密切相關(guān),為應(yīng)對不同AI系統(tǒng)應(yīng)用場景下的網(wǎng)絡(luò)安全挑戰(zhàn)提供操作性指南。
基礎(chǔ)硬件層面面臨的風(fēng)險主要來源于硬件設(shè)計(jì)缺陷、密碼算法實(shí)現(xiàn)漏洞以及物理側(cè)信道攻擊等。以GPU為例,由于GPU擁有獨(dú)特的內(nèi)存系統(tǒng),相比CPU會遭受更復(fù)雜的緩沖區(qū)溢出漏洞,包括未實(shí)現(xiàn)地址空間布局隨機(jī)化、未在釋放內(nèi)存后將其清零以及未初始化新分配的內(nèi)存等。例如,2025年1月,英偉達(dá)公司確認(rèn)了7個影響其GPU的漏洞,導(dǎo)致內(nèi)存損壞、代碼執(zhí)行、拒絕服務(wù)攻擊、信息泄露或數(shù)據(jù)篡改等風(fēng)險。在基礎(chǔ)軟件層面,操作系統(tǒng)和AI框架是調(diào)度硬件資源的重要軟件,其安全性與可靠性是AI系統(tǒng)穩(wěn)定運(yùn)行的基礎(chǔ)。2024年,開源AI框架Ray被爆存在一個有爭議的影子漏洞,攻擊者可利用該漏洞接管相關(guān)組織的算力并泄漏敏感數(shù)據(jù),導(dǎo)致全球數(shù)千臺Ray服務(wù)器受到攻擊。2022年,知名深度學(xué)習(xí)框架PyTorch被發(fā)現(xiàn)有一個與框架“torchtriton”庫同名、可運(yùn)行惡意二進(jìn)制文件的惡意依賴包,被上傳到Python包索引(PyPI)代碼庫。此外,模型部署與管理工具是連接算力基礎(chǔ)設(shè)施與大模型之間的重要橋梁,其安全問題也不容忽視。2025年3月,知名開源大模型工具Ollama暴露存在文件泄漏和模型安全等多個嚴(yán)重漏洞,存在未授權(quán)訪問與模型竊取等安全風(fēng)險,對部署AI大模型的組織或個人構(gòu)成嚴(yán)重風(fēng)險。
當(dāng)前,我國AI算力基礎(chǔ)設(shè)施網(wǎng)絡(luò)安全風(fēng)險主要來自于基礎(chǔ)硬件的高度不可控帶來的后門植入漏洞等,如近期英偉達(dá)公司的H20芯片被爆存在后門并被我國相關(guān)部門約談;基礎(chǔ)軟件高度依賴國外開源軟件框架,開源易導(dǎo)致軟件質(zhì)量低且對漏洞信息不公開等問題,加劇我國AI相關(guān)基礎(chǔ)軟件的網(wǎng)絡(luò)安全風(fēng)險。
五、我國高密度算力安全發(fā)展策略
(一)強(qiáng)化產(chǎn)業(yè)鏈自主可控,保障算力供給安全
針對芯片供應(yīng)鏈脆弱性等風(fēng)險,應(yīng)同時加大AI芯片硬件和軟件關(guān)鍵核心技術(shù)研發(fā)力度。在硬件制造層面,需集中攻破先進(jìn)制程工藝、互聯(lián)、存儲及存算一體等新興架構(gòu)的關(guān)鍵核心技術(shù)。在先進(jìn)制程工藝上,應(yīng)集中資源突破7 nm以下工藝,重點(diǎn)攻關(guān)高密度互聯(lián)、EUV等關(guān)鍵技術(shù);在存儲技術(shù)上支持加速三維堆疊技術(shù)研發(fā),實(shí)現(xiàn)從HBM2e到HBM3的迭代跨越;在新興架構(gòu)上應(yīng)支持大規(guī)模高密度存算一體介質(zhì)、異構(gòu)架構(gòu)集成方法與工藝等技術(shù)研發(fā)。在軟件工具層面,應(yīng)大力支持EDA軟件工具鏈的開發(fā)和優(yōu)化,建立EDA工具開源社區(qū),推動EDA IP供應(yīng)商與高校共建設(shè)計(jì)流程驗(yàn)證平臺,形成覆蓋芯片全生命周期的自主工具鏈。
(二)堅(jiān)持自研與標(biāo)準(zhǔn)并舉,強(qiáng)化安全保障能力
智能算力的基石仍是算力基礎(chǔ)設(shè)施,其安全保障舉足輕重,應(yīng)堅(jiān)持強(qiáng)化自研及開源技術(shù)研發(fā)和嚴(yán)格境外硬件準(zhǔn)入標(biāo)準(zhǔn)雙措并舉。一是強(qiáng)化自主研發(fā),持續(xù)加大對自研硬件的投入力度,并強(qiáng)制關(guān)鍵部件國產(chǎn)化率指標(biāo),構(gòu)建多層級備份體系應(yīng)對地緣政治風(fēng)險。在金融、能源、國防等關(guān)鍵核心部門,積極推廣基于開源RISC-V以及自研LoongArch等自主可控指令架構(gòu)的芯片應(yīng)用,堅(jiān)決擺脫對國外核心技術(shù)的依賴,從根源上有效防止后門植入。二是嚴(yán)格準(zhǔn)入標(biāo)準(zhǔn),完善產(chǎn)業(yè)安全審查機(jī)制,建立智算中心分級準(zhǔn)入制度,并延伸至供應(yīng)鏈安全評估。針對現(xiàn)階段仍無法被替代的英特爾公司、高通公司、英偉達(dá)公司等境外廠商芯片,應(yīng)構(gòu)建一套全面且嚴(yán)謹(jǐn)?shù)挠布踩u測體系,將芯片設(shè)計(jì)、生產(chǎn)制造直至設(shè)備組裝的各關(guān)鍵環(huán)節(jié)均納入其中,進(jìn)行嚴(yán)苛檢測,確保進(jìn)入市場應(yīng)用的硬件均符合高等級安全要求。
(三)構(gòu)建開放統(tǒng)一的軟硬件生態(tài),釋放全棧創(chuàng)新活力
為破解智能算力生態(tài)碎片化難題,應(yīng)通過標(biāo)準(zhǔn)引領(lǐng)及開源策略構(gòu)建體系性軟硬件協(xié)同生態(tài)。在硬件層面,可以RISC-V為基礎(chǔ)建立向量指令擴(kuò)展國家標(biāo)準(zhǔn)作為兼容基礎(chǔ)指令集,打破國產(chǎn)芯片廠商“各自為戰(zhàn)”的分散局面。在軟件層面,由頭部企業(yè)牽頭組建開源聯(lián)盟,加大對跨架構(gòu)AI編譯器的開發(fā)和推廣,大幅提升算子庫覆蓋率,解決框架適配問題;成立開源聯(lián)盟并建立開源貢獻(xiàn)激勵機(jī)制,形成相關(guān)補(bǔ)助機(jī)制,對參與開源項(xiàng)目的企業(yè)和個人提供資金支持和技術(shù)指導(dǎo),推動軟硬件協(xié)同發(fā)展。
(四)完善綠色算力創(chuàng)新體系,賦能產(chǎn)業(yè)低碳化轉(zhuǎn)型
為應(yīng)對能耗挑戰(zhàn),需從架構(gòu)革新及智慧能源供給等多個角度形成多維解決方案。一是從芯片設(shè)計(jì)等方面進(jìn)行架構(gòu)革新。發(fā)展存算一體、類腦計(jì)算等非馮·諾依曼架構(gòu),如阿里巴巴達(dá)摩院(杭州)科技有限公司研發(fā)的計(jì)算芯片通過近存計(jì)算降低數(shù)據(jù)搬運(yùn)能耗達(dá)60%。二是從散熱、調(diào)度等技術(shù)和政策多方面實(shí)現(xiàn)智慧能源供給。在散熱技術(shù)方面,加大浸沒式液冷介質(zhì)的研發(fā)力度,建立氟化液制備工藝中試平臺,構(gòu)建智慧冷卻系統(tǒng);在能源調(diào)度方面,借鑒“源網(wǎng)荷儲”協(xié)同機(jī)制,在西部算力樞紐部署“風(fēng)光儲”一體化電站,通過智能調(diào)度大幅提升智能算力中心的清潔能源消納率;此外,推行算力碳足跡追蹤制度,研究算力 ? 供暖解決方案,形成綠色算力認(rèn)證體系,并實(shí)現(xiàn)能量有效再利用;在能源政策方面,為智能算力中心研究提高電費(fèi)相關(guān)補(bǔ)助方案,尤其是針對綠電的補(bǔ)助方案,減少能耗負(fù)擔(dān),推動液冷、光伏等綠色技術(shù)在算力基礎(chǔ)設(shè)施中的應(yīng)用。
(五)優(yōu)化“學(xué)研”一體化創(chuàng)新體系,打通成果轉(zhuǎn)化“最后一千米”
為破解人才與協(xié)同困境,需加強(qiáng)推動平臺共享及革新培養(yǎng)模式等多種舉措。在平臺共享方面,組建國家級AI算力創(chuàng)新平臺,設(shè)立開放算力池與大模型訓(xùn)練沙盒環(huán)境,降低高校團(tuán)隊(duì)在大模型研發(fā)中的算力成本,提升算力利用的便利程度。在培養(yǎng)模式方面,推動高校與企業(yè)之間的聯(lián)合培養(yǎng)及聯(lián)合研發(fā)機(jī)制。一方面,推動高校優(yōu)化芯片設(shè)計(jì)、框架開發(fā)、模型訓(xùn)練等課程,提升人才培養(yǎng)的實(shí)踐能力;另一方面,推動頭部企業(yè)開放工具鏈接口,促進(jìn)高校成果在產(chǎn)業(yè)級平臺的研發(fā)和驗(yàn)證,并完善知識產(chǎn)權(quán)共享機(jī)制,為校企聯(lián)合攻關(guān)項(xiàng)目提供稅收減免等優(yōu)惠政策。
六、結(jié)語
本文深入探討了大模型技術(shù)發(fā)展與高密度算力需求之間的相互關(guān)系,揭示了當(dāng)前AI時代計(jì)算范式的深刻變革。首先,LLMs擴(kuò)展定律的演進(jìn)從根本上重塑了模型開發(fā)策略。未來大模型的性能提升將不僅依賴于原始計(jì)算能力,更日益受限于海量高質(zhì)量訓(xùn)練數(shù)據(jù)的可獲得性,從而推動數(shù)據(jù)工程和數(shù)據(jù)基礎(chǔ)設(shè)施成為高密度算力環(huán)境中的關(guān)鍵組成部分。同時,MoE等高效模型架構(gòu)的興起,通過稀疏激活實(shí)現(xiàn)了計(jì)算效率和專業(yè)化的提升,改變了傳統(tǒng)的擴(kuò)展定律,預(yù)示著未來硬件和軟件棧將向更靈活、自適應(yīng)的方向發(fā)展。其次,量化、剪枝、蒸餾等大模型輕量化技術(shù)為其在資源受限環(huán)境中的部署提供了關(guān)鍵解決方案,使AI能力能夠更廣泛地觸達(dá)各類應(yīng)用場景。同時,MLLMs的發(fā)展帶來了對異構(gòu)計(jì)算的復(fù)雜需求。不同模態(tài)融合機(jī)制和訓(xùn)練范式的多樣性,反映了計(jì)算效率、知識保留與跨模態(tài)交互深度之間的精妙權(quán)衡,推動了未來計(jì)算架構(gòu)向高度靈活、異構(gòu)且動態(tài)可重構(gòu)的方向發(fā)展。最后,本研究深入分析了高密度算力面臨的關(guān)鍵挑戰(zhàn)。“功耗墻”和“散熱瓶頸”構(gòu)成了計(jì)算密度的根本性物理限制,“內(nèi)存墻”和互連帶寬限制則制約了LLMs的效率和可擴(kuò)展性;軟件棧優(yōu)化,尤其是操作系統(tǒng)層面的挑戰(zhàn),凸顯了軟硬件協(xié)同設(shè)計(jì)的重要性。特別是,AI芯片供應(yīng)鏈的脆弱性已上升為國家安全和經(jīng)濟(jì)發(fā)展的戰(zhàn)略性問題。
展望未來,高密度算力的發(fā)展將與大模型技術(shù)的演進(jìn)更加緊密地融合,并呈現(xiàn)出以下多個關(guān)鍵趨勢和方向,包括軟硬件協(xié)同設(shè)計(jì)的深度融合、光學(xué)互聯(lián)與近存計(jì)算的加速突破和普及、可持續(xù)性與能源效率的優(yōu)先考量、供應(yīng)鏈韌性與地緣戰(zhàn)略布局以及安全與隱私的內(nèi)生設(shè)計(jì)等。當(dāng)前,大模型技術(shù)與高密度算力的融合正處于一個關(guān)鍵的轉(zhuǎn)折點(diǎn)。未來的發(fā)展將是多維度、跨學(xué)科的系統(tǒng)性工程,需要硬件、軟件、算法、材料科學(xué)和能源策略的全面創(chuàng)新和緊密協(xié)作,以共同應(yīng)對前所未有的技術(shù)挑戰(zhàn),并推動AI邁向更廣闊、更可持續(xù)的未來。
注:本文內(nèi)容呈現(xiàn)略有調(diào)整,若需可查看原文。



