中國(guó)儲(chǔ)能網(wǎng)訊:在訓(xùn)練大型生成式AI 模型時(shí),數(shù)據(jù)中心正在面對(duì)一種前所未有的電力負(fù)載行為。這類(lèi)負(fù)載通常被歸類(lèi)為高性能計(jì)算(HPC),但其挑戰(zhàn)并不只是 GPU、本身的功率密度,或液冷技術(shù)的引入——這些在傳統(tǒng) HPC 場(chǎng)景中早已存在。
真正讓 AI 計(jì)算“特殊”的,是其運(yùn)行時(shí)電力行為(runtime power behavior):在訓(xùn)練基于 Transformer 架構(gòu)的模型時(shí),大規(guī)模計(jì)算集群會(huì)產(chǎn)生高度同步、頻繁且幅度極大的階躍負(fù)載(step load)變化,對(duì)數(shù)據(jù)中心配電系統(tǒng)與電能質(zhì)量提出新的挑戰(zhàn)。
為什么 AI 訓(xùn)練負(fù)載與傳統(tǒng) IT/HPC 不同
在大多數(shù)數(shù)據(jù)中心中,成千上萬(wàn)臺(tái)通用服務(wù)器的功率變化是不一致的。即便單臺(tái)服務(wù)器功率突變,整體負(fù)載仍然相對(duì)平滑。而在 AI 訓(xùn)練集群中,情況完全不同:
數(shù)十甚至數(shù)百臺(tái)GPU 服務(wù)器在幾乎同一時(shí)間進(jìn)入高負(fù)載或低負(fù)載狀態(tài)
功率變化與模型訓(xùn)練步驟強(qiáng)相關(guān),通常每1–2 秒發(fā)生一次
負(fù)載波動(dòng)并非隨機(jī),而是高度可預(yù)測(cè)、卻難以被傳統(tǒng)配電系統(tǒng)“消化”
即便與其他 HPC 集群相比,AI 訓(xùn)練的功率波動(dòng)也更為劇烈。這源于三方面的疊加效應(yīng):
Transformer模型的計(jì)算節(jié)奏
以峰值性能為目標(biāo)的現(xiàn)GPU 架構(gòu)
硅片在熱與功率預(yù)算允許下的“機(jī)會(huì)性超頻”行為
同步功率波動(dòng)帶來(lái)的現(xiàn)實(shí)影響
根據(jù) Uptime Intelligence 的分析,在最極端情況下,AI訓(xùn)練過(guò)程中系統(tǒng)級(jí)功率的低點(diǎn)與高點(diǎn)差值可能超過(guò)100%,也就是說(shuō),功率幾乎在毫秒級(jí)內(nèi)完成“翻倍”。這種情況每隔幾秒就會(huì)反復(fù)出現(xiàn),通常發(fā)生在 GPU 從短暫低負(fù)載狀態(tài)迅速進(jìn)入高強(qiáng)度計(jì)算階段時(shí)。
這種情況通常發(fā)生在GPU 加載一批權(quán)重并開(kāi)始訓(xùn)練時(shí),伴隨明顯的電流尖峰(di/dt極高)。GPU 會(huì)在此前計(jì)算“間歇期”積累的熱裕量基礎(chǔ)上,短時(shí)間突破其標(biāo)稱(chēng) TDP。
單臺(tái)服務(wù)器的這種行為并不罕見(jiàn),但在A(yíng)I 訓(xùn)練集群中,它們是同步發(fā)生的。即便只是由幾十個(gè)機(jī)柜組成的中等規(guī)模集群,也可能導(dǎo)致:
數(shù)百kW,甚至數(shù)MW 級(jí)別的交流電負(fù)載突變
電壓暫降、暫升
諧波放大、次同步振蕩
對(duì)母線(xiàn)、斷路器、UPS、變壓器造成額外應(yīng)力
在負(fù)載結(jié)構(gòu)單一、缺乏“緩沖負(fù)載”的專(zhuān)用 AI 數(shù)據(jù)中心中,這種風(fēng)險(xiǎn)尤為明顯。
根據(jù)多家電氣設(shè)備廠(chǎng)商(ABB、Eaton、施耐德、西門(mén)子、維諦等)及行業(yè)研究機(jī)構(gòu)的綜合判斷,只要保持在額定負(fù)載范圍內(nèi),現(xiàn)代配電設(shè)備應(yīng)該能夠處理人工智能造成的電力波動(dòng)。
AI 正在重塑IT 容量的定義
傳統(tǒng)容量規(guī)劃通?;谝韵录僭O(shè):
以 IT 設(shè)備銘牌功率為上限
再考慮 25%–50% 的折減系數(shù)
原因是負(fù)載不一致、軟件很少跑滿(mǎn)
但 AI 訓(xùn)練系統(tǒng)正在打破這一邏輯。在大型 AI 集群中,瞬時(shí)功率變化可能類(lèi)似“準(zhǔn)浪涌電流”,其峰值甚至可能超過(guò)系統(tǒng)的持續(xù)額定功率。這些并非偶發(fā)事件,而是在訓(xùn)練過(guò)程中反復(fù)出現(xiàn)。
雖然電氣設(shè)備本身允許短時(shí)過(guò)載,但問(wèn)題在于:
這些過(guò)載可能每年發(fā)生數(shù)百萬(wàn)次
設(shè)備并非為“長(zhǎng)期、重復(fù)性過(guò)載”而設(shè)計(jì)
長(zhǎng)期結(jié)果可能是:
電磁與機(jī)械疲勞
熱量逐步累積(升溫快、降溫慢)
元器件壽命縮短甚至失效
新一代 AI 系統(tǒng)放大了這一挑戰(zhàn)
早期(2022–2024)主流 AI 系統(tǒng)中:
單臺(tái)8-GPU 服務(wù)器功率波動(dòng)約 4 kW
單機(jī)柜(4臺(tái))波動(dòng)約 16 kW
在 40kW 級(jí)機(jī)柜中,超標(biāo)概率相對(duì)有限
但新一代系統(tǒng)正在改變這一平衡:
單GPU 功率已超過(guò) 1 kW
GPU 占據(jù)系統(tǒng)功率預(yù)算的比例顯著提升
直接液冷(DLC)減少了風(fēng)扇等“穩(wěn)定負(fù)載”
更高的熱效率反而釋放了更大的功率沖擊空間
以基于 NVIDIA GB200 NVL72 架構(gòu)的機(jī)架級(jí)系統(tǒng)為例,機(jī)架功率可能在極短時(shí)間內(nèi)從 60–70 kW 躍升至 150 kW 以上,而其額定功率約為 132 kW。根據(jù)Uptime 的評(píng)估,在極端情況下,瞬時(shí)過(guò)載幅度可達(dá)約 20%,這對(duì)斷路器選型、母線(xiàn)容量、插接單元和導(dǎo)體布局都提出了更高要求。
圖 1 展示了基于 GPU 的計(jì)算集群在運(yùn)行 Transformer 模型訓(xùn)練工作負(fù)載時(shí)的典型功耗曲線(xiàn),可見(jiàn)其功率需求具有明顯的峰值波動(dòng)特征。(算法數(shù)據(jù),非真實(shí)世界數(shù)據(jù))

可行的緩解思路與工程實(shí)踐
目前,數(shù)據(jù)中心尚難以完全“消除”這類(lèi)功率波動(dòng),但通過(guò)系統(tǒng)層面的協(xié)同可以顯著降低風(fēng)險(xiǎn)。
第一,負(fù)載多樣化,而非“純 AI 化”
將 AI 訓(xùn)練負(fù)載與其他 IT 負(fù)載混合部署,可顯著平滑整體功率曲線(xiàn)。即便無(wú)法共享配電,也應(yīng)盡量共享柴油發(fā)電機(jī)組,因?yàn)榘l(fā)電機(jī)對(duì)快速、大幅波動(dòng)最為敏感。
第二,UPS 選型與冗余策略要更保守
更大容量的 UPS 通常具備更高的內(nèi)部電容,有助于吸收瞬時(shí)波動(dòng)。同時(shí),采用更高冗余等級(jí)(如N+2)可避免 UPS 長(zhǎng)期處于邊緣過(guò)載狀態(tài),尤其是在涉及電池頻繁充放電的場(chǎng)景。
第三,善用服務(wù)器功率與性能管理工具
AI 服務(wù)器并非“不可控黑盒”。通過(guò)功率封頂、關(guān)閉加速頻率、限制性能狀態(tài)、設(shè)定溫度上限等方式,可以有效削峰。
同時(shí),可通過(guò)關(guān)閉深度節(jié)能模式(如 CPU/GPU 的休眠狀態(tài))來(lái)抬高功率“地板”,減少上下波動(dòng)幅度。最新一代 GPU 還支持“功率平滑(Power Smoothing)”機(jī)制,可限制功率變化速率。
電氣廠(chǎng)商正在研究超級(jí)電容、新型儲(chǔ)能、電池或飛輪等方案,用于吸收高頻、大功率沖擊。但長(zhǎng)期來(lái)看,從IT 硬件與軟件層面抑制波動(dòng),往往比單純?cè)黾与姎饩彌_更經(jīng)濟(jì)、更可持續(xù)。



