中國儲能網(wǎng)訊:在訓練大型生成式AI 模型時,數(shù)據(jù)中心正在面對一種前所未有的電力負載行為。這類負載通常被歸類為高性能計算(HPC),但其挑戰(zhàn)并不只是 GPU、本身的功率密度,或液冷技術的引入——這些在傳統(tǒng) HPC 場景中早已存在。
真正讓 AI 計算“特殊”的,是其運行時電力行為(runtime power behavior):在訓練基于 Transformer 架構的模型時,大規(guī)模計算集群會產(chǎn)生高度同步、頻繁且幅度極大的階躍負載(step load)變化,對數(shù)據(jù)中心配電系統(tǒng)與電能質(zhì)量提出新的挑戰(zhàn)。
為什么 AI 訓練負載與傳統(tǒng) IT/HPC 不同
在大多數(shù)數(shù)據(jù)中心中,成千上萬臺通用服務器的功率變化是不一致的。即便單臺服務器功率突變,整體負載仍然相對平滑。而在 AI 訓練集群中,情況完全不同:
數(shù)十甚至數(shù)百臺GPU 服務器在幾乎同一時間進入高負載或低負載狀態(tài)
功率變化與模型訓練步驟強相關,通常每1–2 秒發(fā)生一次
負載波動并非隨機,而是高度可預測、卻難以被傳統(tǒng)配電系統(tǒng)“消化”
即便與其他 HPC 集群相比,AI 訓練的功率波動也更為劇烈。這源于三方面的疊加效應:
Transformer模型的計算節(jié)奏
以峰值性能為目標的現(xiàn)GPU 架構
硅片在熱與功率預算允許下的“機會性超頻”行為
同步功率波動帶來的現(xiàn)實影響
根據(jù) Uptime Intelligence 的分析,在最極端情況下,AI訓練過程中系統(tǒng)級功率的低點與高點差值可能超過100%,也就是說,功率幾乎在毫秒級內(nèi)完成“翻倍”。這種情況每隔幾秒就會反復出現(xiàn),通常發(fā)生在 GPU 從短暫低負載狀態(tài)迅速進入高強度計算階段時。
這種情況通常發(fā)生在GPU 加載一批權重并開始訓練時,伴隨明顯的電流尖峰(di/dt極高)。GPU 會在此前計算“間歇期”積累的熱裕量基礎上,短時間突破其標稱 TDP。
單臺服務器的這種行為并不罕見,但在AI 訓練集群中,它們是同步發(fā)生的。即便只是由幾十個機柜組成的中等規(guī)模集群,也可能導致:
數(shù)百kW,甚至數(shù)MW 級別的交流電負載突變
電壓暫降、暫升
諧波放大、次同步振蕩
對母線、斷路器、UPS、變壓器造成額外應力
在負載結構單一、缺乏“緩沖負載”的專用 AI 數(shù)據(jù)中心中,這種風險尤為明顯。
根據(jù)多家電氣設備廠商(ABB、Eaton、施耐德、西門子、維諦等)及行業(yè)研究機構的綜合判斷,只要保持在額定負載范圍內(nèi),現(xiàn)代配電設備應該能夠處理人工智能造成的電力波動。
AI 正在重塑IT 容量的定義
傳統(tǒng)容量規(guī)劃通?;谝韵录僭O:
以 IT 設備銘牌功率為上限
再考慮 25%–50% 的折減系數(shù)
原因是負載不一致、軟件很少跑滿
但 AI 訓練系統(tǒng)正在打破這一邏輯。在大型 AI 集群中,瞬時功率變化可能類似“準浪涌電流”,其峰值甚至可能超過系統(tǒng)的持續(xù)額定功率。這些并非偶發(fā)事件,而是在訓練過程中反復出現(xiàn)。
雖然電氣設備本身允許短時過載,但問題在于:
這些過載可能每年發(fā)生數(shù)百萬次
設備并非為“長期、重復性過載”而設計
長期結果可能是:
電磁與機械疲勞
熱量逐步累積(升溫快、降溫慢)
元器件壽命縮短甚至失效
新一代 AI 系統(tǒng)放大了這一挑戰(zhàn)
早期(2022–2024)主流 AI 系統(tǒng)中:
單臺8-GPU 服務器功率波動約 4 kW
單機柜(4臺)波動約 16 kW
在 40kW 級機柜中,超標概率相對有限
但新一代系統(tǒng)正在改變這一平衡:
單GPU 功率已超過 1 kW
GPU 占據(jù)系統(tǒng)功率預算的比例顯著提升
直接液冷(DLC)減少了風扇等“穩(wěn)定負載”
更高的熱效率反而釋放了更大的功率沖擊空間
以基于 NVIDIA GB200 NVL72 架構的機架級系統(tǒng)為例,機架功率可能在極短時間內(nèi)從 60–70 kW 躍升至 150 kW 以上,而其額定功率約為 132 kW。根據(jù)Uptime 的評估,在極端情況下,瞬時過載幅度可達約 20%,這對斷路器選型、母線容量、插接單元和導體布局都提出了更高要求。
圖 1 展示了基于 GPU 的計算集群在運行 Transformer 模型訓練工作負載時的典型功耗曲線,可見其功率需求具有明顯的峰值波動特征。(算法數(shù)據(jù),非真實世界數(shù)據(jù))

可行的緩解思路與工程實踐
目前,數(shù)據(jù)中心尚難以完全“消除”這類功率波動,但通過系統(tǒng)層面的協(xié)同可以顯著降低風險。
第一,負載多樣化,而非“純 AI 化”
將 AI 訓練負載與其他 IT 負載混合部署,可顯著平滑整體功率曲線。即便無法共享配電,也應盡量共享柴油發(fā)電機組,因為發(fā)電機對快速、大幅波動最為敏感。
第二,UPS 選型與冗余策略要更保守
更大容量的 UPS 通常具備更高的內(nèi)部電容,有助于吸收瞬時波動。同時,采用更高冗余等級(如N+2)可避免 UPS 長期處于邊緣過載狀態(tài),尤其是在涉及電池頻繁充放電的場景。
第三,善用服務器功率與性能管理工具
AI 服務器并非“不可控黑盒”。通過功率封頂、關閉加速頻率、限制性能狀態(tài)、設定溫度上限等方式,可以有效削峰。
同時,可通過關閉深度節(jié)能模式(如 CPU/GPU 的休眠狀態(tài))來抬高功率“地板”,減少上下波動幅度。最新一代 GPU 還支持“功率平滑(Power Smoothing)”機制,可限制功率變化速率。
電氣廠商正在研究超級電容、新型儲能、電池或飛輪等方案,用于吸收高頻、大功率沖擊。但長期來看,從IT 硬件與軟件層面抑制波動,往往比單純增加電氣緩沖更經(jīng)濟、更可持續(xù)。



