中國儲能網(wǎng)訊:在過去,行業(yè)里一直默認一個前提:電力消耗一定是是跟算力吞吐量綁定的,想要降低功耗,唯一的辦法就是等服務(wù)器閑下來。但在今天的大模型推理和訓(xùn)練場景里,幾乎是不可能的。
傳統(tǒng)工廠可以錯峰,部分產(chǎn)線可以暫停,很多制造業(yè)負荷本身就具備負荷調(diào)節(jié)能力。但AI數(shù)據(jù)中心不一樣。尤其是推理型集群,用戶隨時隨地在調(diào)用,它必須24小時在線,還要維持極低延遲。這就讓它成了一個極其難搞的“剛性負荷”。
而PowerX這次想做的,已經(jīng)不只是“給數(shù)據(jù)中心配儲能”這么簡單,它真正想定義的是一種“電網(wǎng)原生AI(Grid-Native AI)”架構(gòu)。

01
毫秒與秒之間
儲能與算力的“接力賽”
PowerX近日發(fā)布了專為數(shù)據(jù)中心設(shè)計的機架式儲能系統(tǒng) “PowerX Energy Blade” 的產(chǎn)品概念,在其機架式儲能系統(tǒng)白皮書中,提供了一個很有意思的架構(gòu)思路。整個系統(tǒng)被拆成兩層:底層是高功率的機架式儲能(電池與逆變器);上層是算力調(diào)制層(Compute Modulation),負責動態(tài)調(diào)整AI集群的運行狀態(tài)。
這里面真正有技術(shù)含量的地方,是兩者的“時間差”。電網(wǎng)如果出了波動,要求響應(yīng)的時間是毫秒級的(比如調(diào)頻服務(wù)FCR)。但算力調(diào)度軟件沒那么快,里面牽扯到網(wǎng)絡(luò)路由重新定向、隊列重新排、服務(wù)器狀態(tài)收斂,再快也需要個幾秒鐘的窗口期。
▍Compute-Battery Bridge(算力-電池橋)
于是,PowerX提出了一個非常關(guān)鍵的機制:Compute-Battery Bridge(算力-電池橋),本質(zhì)上是一套“接力機制”。當電網(wǎng)下達調(diào)節(jié)指令的那一瞬間,部署在機柜里的Energy Blade電池和逆變器率先在毫秒內(nèi)完成響應(yīng),不管是充還是放,先把這個缺口頂上。這其實是給上層的算力調(diào)度爭取了寶貴的幾秒鐘“緩沖時間”。
緊接著,算力調(diào)度平臺(也就是白皮書里提到的 GCOP)開始接力干活,通過調(diào)整服務(wù)器的負載,平滑地把功耗拉到目標線上。這時候,控制權(quán)就從電池平穩(wěn)地移交給了算力層。
這樣做有個極大的好處,就是電池不需要長時間大功率死撐,因為儲能只負責“瞬時橋接”,后面的持續(xù)調(diào)節(jié)交給算力系統(tǒng)完成。所以整個系統(tǒng)并不需要無限堆大電池容量,機架空間、熱管理壓力和整體成本都能顯著下降。這個思路,已經(jīng)非常接近“虛擬電廠化的數(shù)據(jù)中心”了。

02
正在往“機架級儲能”方向演化
PowerX其實已經(jīng)不滿足于“外掛儲能”的傳統(tǒng)思路。從白皮書披露的架構(gòu)參數(shù)來看,Energy Blade正在朝“機架級儲能”方向演化。整個系統(tǒng)已經(jīng)不是傳統(tǒng)UPS,而是開始把儲能系統(tǒng)直接融合進AI機架內(nèi)部的供電架構(gòu)。
例如其單機架支持最高125kW雙向功率調(diào)節(jié),而對應(yīng)AI Rack的目標負載本身也在40-120kW區(qū)間。這意味著儲能系統(tǒng)已經(jīng)開始與GPU機架形成同等級功率耦合,而不是作為外圍輔助設(shè)備存在。
更關(guān)鍵的是,它采用了48V DC Server Bus架構(gòu)。這實際上意味著,PowerX正在嘗試把儲能系統(tǒng)直接融合進服務(wù)器直流母線層,而不是繼續(xù)沿用傳統(tǒng) AC UPS 架構(gòu)。而從<5ms的調(diào)頻響應(yīng)速度,以及 PJM、ENTSO-E等電網(wǎng)輔助服務(wù)接口來看,Energy Blade的目標也已經(jīng)不只是數(shù)據(jù)中心保電,而是讓AI機架本身直接參與電網(wǎng)動態(tài)調(diào)節(jié)。

03
它最重要的實驗
其實推翻了很多行業(yè)認知
這篇白皮書最值得看的地方,不是概念,而是它做的那組GPU功耗實驗。研發(fā)團隊拿了一套8×H200 NVL的推理集群,跑Llama-3.1 70B,測出了不少顛覆認知的數(shù)據(jù)。

▍GPU的滿載功耗帶極窄(約24%)
實驗發(fā)現(xiàn),大模型一跑起來,單臺服務(wù)器的整體功耗就在3629W到4500W之間。也就是說,只要服務(wù)器是活躍的,單靠減少或者攔截用戶的請求流量,根本沒辦法大幅度把功耗拉下來。這與傳統(tǒng)CPU型負載非常不同。AI GPU的靜態(tài)功耗占比明顯更高,一旦進入高活躍區(qū)間,即使“少干活”,也未必“少耗電”。

▍單一控制機制已經(jīng)不夠用了
必須協(xié)同使用“工具箱”里的多項微調(diào)手段。白皮書里提出了幾種可行性較高的控制機制,包括:
集群整合(Fleet Consolidation): 通過快速重定向流量,把業(yè)務(wù)集中到更少GPU上運行,讓空閑GPU進入低功耗狀態(tài)。流量重定向可以在1秒內(nèi)完成,而整體功耗穩(wěn)定通常需要10~30秒。
混合精度路由(Mixed-Precision Routing):建立多個不同精度的模型副本,根據(jù)任務(wù)需求動態(tài)切換請求路徑。例如將部分請求切換到低精度模型,在不明顯影響用戶體驗的前提下降低功耗。
單GPU功率變頻限制(Per-GPU Power Cap): 直接在驅(qū)動與固件層限制GPU 最大功率,這是更深層的調(diào)節(jié)方式,可以在亞秒級生效。

這組實驗最終證明了一件事:算力和功耗,是可以解耦的。通過動態(tài)調(diào)整活躍GPU數(shù)量或者切換模型精度,數(shù)據(jù)中心完全可以在不中斷核心算力交付、不破壞用戶體驗的前提下,大范圍地移動自身的整體功耗。
在未來,數(shù)據(jù)中心運營商除了賺取算力收益外,還可以通過參與電網(wǎng)輔助服務(wù)(如調(diào)頻、需求響應(yīng))和電力套利來開辟新的收益線。并且運營商還可以向電網(wǎng)申請“非牢固并網(wǎng)協(xié)議(Flexible-load connection)”,在電力緊張、常規(guī)并網(wǎng)受阻的地區(qū)繞過漫長的電網(wǎng)升級審批,實現(xiàn)提前并網(wǎng),搶占市場先機。
04
寫在最后
當然,客觀來看,這份白皮書目前展示的還只是早期實驗數(shù)據(jù),還沒有在超大規(guī)模的商業(yè)化場景中得到全面驗證。
這也是為什么,越來越多能源公司開始進入AI基礎(chǔ)設(shè)施。因為未來的數(shù)據(jù)中心,可能已經(jīng)不是單純的信息基礎(chǔ)設(shè)施。而是新型電力系統(tǒng)的一部分。



