黄色日本A片人人干人人澡|国模视频91avv免费|在线免费播放av|婷婷欧美激情综合|毛片黄色做爱视频在线观看网址|国产明星无码片伊人二区|澳洲二区在线视频|婷婷密臀五月天特片网AV|伊人国产福利久久|午夜久久一区二区,

中國儲能網(wǎng)歡迎您!
當前位置: 首頁 >新聞動態(tài)>國內(nèi)新聞 返回

大規(guī)模 AI 算力對數(shù)據(jù)中心電力系統(tǒng)的挑戰(zhàn)

作者:中國儲能網(wǎng)新聞中心 來源:Uptime Intelligence 發(fā)布時間:2026-02-25 瀏覽:次

中國儲能網(wǎng)訊:在訓練大型生成式AI 模型時,數(shù)據(jù)中心正在面對一種前所未有的電力負載行為。這類負載通常被歸類為高性能計算(HPC),但其挑戰(zhàn)并不只是 GPU、本身的功率密度,或液冷技術的引入——這些在傳統(tǒng) HPC 場景中早已存在。

真正讓 AI 計算“特殊”的,是其運行時電力行為(runtime power behavior):在訓練基于 Transformer 架構的模型時,大規(guī)模計算集群會產(chǎn)生高度同步、頻繁且幅度極大的階躍負載(step load)變化,對數(shù)據(jù)中心配電系統(tǒng)與電能質(zhì)量提出新的挑戰(zhàn)。

為什么 AI 訓練負載與傳統(tǒng) IT/HPC 不同

在大多數(shù)數(shù)據(jù)中心中,成千上萬臺通用服務器的功率變化是不一致的。即便單臺服務器功率突變,整體負載仍然相對平滑。而在 AI 訓練集群中,情況完全不同:

數(shù)十甚至數(shù)百臺GPU 服務器在幾乎同一時間進入高負載或低負載狀態(tài)

功率變化與模型訓練步驟強相關,通常每1–2 秒發(fā)生一次

負載波動并非隨機,而是高度可預測、卻難以被傳統(tǒng)配電系統(tǒng)“消化”

即便與其他 HPC 集群相比,AI 訓練的功率波動也更為劇烈。這源于三方面的疊加效應:

Transformer模型的計算節(jié)奏

以峰值性能為目標的現(xiàn)GPU 架構

硅片在熱與功率預算允許下的“機會性超頻”行為

同步功率波動帶來的現(xiàn)實影響

根據(jù) Uptime Intelligence 的分析,在最極端情況下,AI訓練過程中系統(tǒng)級功率的低點與高點差值可能超過100%,也就是說,功率幾乎在毫秒級內(nèi)完成“翻倍”。這種情況每隔幾秒就會反復出現(xiàn),通常發(fā)生在 GPU 從短暫低負載狀態(tài)迅速進入高強度計算階段時。 

這種情況通常發(fā)生在GPU 加載一批權重并開始訓練時,伴隨明顯的電流尖峰(di/dt極高)。GPU 會在此前計算“間歇期”積累的熱裕量基礎上,短時間突破其標稱 TDP。

單臺服務器的這種行為并不罕見,但在AI 訓練集群中,它們是同步發(fā)生的。即便只是由幾十個機柜組成的中等規(guī)模集群,也可能導致:

數(shù)百kW,甚至數(shù)MW 級別的交流電負載突變

電壓暫降、暫升

諧波放大、次同步振蕩

對母線、斷路器、UPS、變壓器造成額外應力

在負載結構單一、缺乏“緩沖負載”的專用 AI 數(shù)據(jù)中心中,這種風險尤為明顯。

根據(jù)多家電氣設備廠商(ABB、Eaton、施耐德、西門子、維諦等)及行業(yè)研究機構的綜合判斷,只要保持在額定負載范圍內(nèi),現(xiàn)代配電設備應該能夠處理人工智能造成的電力波動。

AI 正在重塑IT 容量的定義

傳統(tǒng)容量規(guī)劃通?;谝韵录僭O:

以 IT 設備銘牌功率為上限

再考慮 25%–50% 的折減系數(shù)

原因是負載不一致、軟件很少跑滿

但 AI 訓練系統(tǒng)正在打破這一邏輯。在大型 AI 集群中,瞬時功率變化可能類似“準浪涌電流”,其峰值甚至可能超過系統(tǒng)的持續(xù)額定功率。這些并非偶發(fā)事件,而是在訓練過程中反復出現(xiàn)。

雖然電氣設備本身允許短時過載,但問題在于:

這些過載可能每年發(fā)生數(shù)百萬次

設備并非為“長期、重復性過載”而設計

長期結果可能是:

電磁與機械疲勞

熱量逐步累積(升溫快、降溫慢)

元器件壽命縮短甚至失效  

新一代 AI 系統(tǒng)放大了這一挑戰(zhàn)

早期(2022–2024)主流 AI 系統(tǒng)中:

單臺8-GPU 服務器功率波動約 4 kW

單機柜(4臺)波動約 16 kW

在 40kW 級機柜中,超標概率相對有限

但新一代系統(tǒng)正在改變這一平衡:

單GPU 功率已超過 1 kW

GPU 占據(jù)系統(tǒng)功率預算的比例顯著提升

直接液冷(DLC)減少了風扇等“穩(wěn)定負載”

更高的熱效率反而釋放了更大的功率沖擊空間

以基于 NVIDIA GB200 NVL72 架構的機架級系統(tǒng)為例,機架功率可能在極短時間內(nèi)從 60–70 kW 躍升至 150 kW 以上,而其額定功率約為 132 kW。根據(jù)Uptime 的評估,在極端情況下,瞬時過載幅度可達約 20%,這對斷路器選型、母線容量、插接單元和導體布局都提出了更高要求。

圖 1 展示了基于 GPU 的計算集群在運行 Transformer 模型訓練工作負載時的典型功耗曲線,可見其功率需求具有明顯的峰值波動特征。(算法數(shù)據(jù),非真實世界數(shù)據(jù))


可行的緩解思路與工程實踐

目前,數(shù)據(jù)中心尚難以完全“消除”這類功率波動,但通過系統(tǒng)層面的協(xié)同可以顯著降低風險。

第一,負載多樣化,而非“純 AI 化”

將 AI 訓練負載與其他 IT 負載混合部署,可顯著平滑整體功率曲線。即便無法共享配電,也應盡量共享柴油發(fā)電機組,因為發(fā)電機對快速、大幅波動最為敏感。

第二,UPS 選型與冗余策略要更保守

更大容量的 UPS 通常具備更高的內(nèi)部電容,有助于吸收瞬時波動。同時,采用更高冗余等級(如N+2)可避免 UPS 長期處于邊緣過載狀態(tài),尤其是在涉及電池頻繁充放電的場景。

第三,善用服務器功率與性能管理工具

AI 服務器并非“不可控黑盒”。通過功率封頂、關閉加速頻率、限制性能狀態(tài)、設定溫度上限等方式,可以有效削峰。

同時,可通過關閉深度節(jié)能模式(如 CPU/GPU 的休眠狀態(tài))來抬高功率“地板”,減少上下波動幅度。最新一代 GPU 還支持“功率平滑(Power Smoothing)”機制,可限制功率變化速率。

電氣廠商正在研究超級電容、新型儲能、電池或飛輪等方案,用于吸收高頻、大功率沖擊。但長期來看,從IT 硬件與軟件層面抑制波動,往往比單純增加電氣緩沖更經(jīng)濟、更可持續(xù)。

分享到:

關鍵字:算力

中國儲能網(wǎng)版權說明:

1、凡注明來源為“中國儲能網(wǎng):xxx(署名)”,除與中國儲能網(wǎng)簽署內(nèi)容授權協(xié)議的網(wǎng)站外,未經(jīng)本網(wǎng)授權,任何單位及個人不得轉載、摘編或以其它方式使用上述作品。

2、凡本網(wǎng)注明“來源:xxx(非中國儲能網(wǎng))”的作品,均轉載與其他媒體,目的在于傳播更多信息,但并不代表中國儲能網(wǎng)贊同其觀點、立場或證實其描述。其他媒體如需轉載,請與稿件來源方聯(lián)系,如產(chǎn)生任何版權問題與本網(wǎng)無關。

3、如因作品內(nèi)容、版權以及引用的圖片(或配圖)內(nèi)容僅供參考,如有涉及版權問題,可聯(lián)系我們直接刪除處理。請在30日內(nèi)進行。

4、有關作品版權事宜請聯(lián)系:13661266197、 郵箱:ly83518@126.com