谷歌技術(shù)報告披露大模型能耗:響應(yīng)一次相當(dāng)于微波爐叮一秒
一次Gemini查詢僅能耗0.24wh
時令 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
大模型耗電驚人,輿論一浪高過一浪。
現(xiàn)在,谷歌用硬核數(shù)據(jù)強勢還擊。
一次Gemini查詢僅能耗0.24wh,相當(dāng)于微波爐運行1秒,排放0.03 g CO?e,甚至比人放一次屁還少,同時消耗約5滴水。
(文中數(shù)據(jù)均表示中位數(shù))

谷歌首席科學(xué)家Jeff Dean公開表示:
這個數(shù)值明顯低于公眾普遍預(yù)期的水平。

并且像谷歌這樣的大模型廠商,一直專注研究如何降低AI消耗。
一年間,通過模型優(yōu)化和額外清潔能源的使用,Gemini的能耗降至原來的1/33,碳排放降至1/44,同時提供了更高質(zhì)量的響應(yīng)。

下面讓我們一起看看谷歌是如何衡量和減少AI能源消耗的?
如何衡量AI消耗能源
谷歌首先指出,目前許多關(guān)于AI能源消耗的計算反映的都是理論效率,而非大規(guī)模運行下的實際效率。

若Gemini只考慮TPU和GPU的消耗,一次查詢只需消耗0.10wh,排放0.02 g CO?e,耗水量約0.12ml。
但這種計算方式僅考慮了機器在運行中的能耗,而忽略了一些關(guān)鍵因素。
與此同時,Jeff Dean也表示:
人們都在思考AI是否會消耗大量能源?它是否會通過碳排放來傷害地球?

所以,谷歌針對AI服務(wù)時的實際情況,開發(fā)了一套更為全面的方法來計算能源消耗,包括以下幾個部分:
全系統(tǒng)動態(tài)功率
這不僅包括主AI模型在計算過程中使用的能源和水,還考慮了大規(guī)模運行下實際的芯片利用率,而該利用率往往遠低于理論最大值。
空閑計算機
為確保高可用性和可靠性,生產(chǎn)系統(tǒng)需要一定程度的預(yù)置容量,該容量處于空閑狀態(tài),但隨時可以處理流量高峰或故障轉(zhuǎn)移。這些閑置芯片消耗的能量必須計入總能源足跡。
CPU和內(nèi)存
AI模型的運行不僅依賴TPU和GPU等機器學(xué)習(xí)加速器,主機的CPU和內(nèi)存同樣在提供服務(wù)和消耗能源方面起著關(guān)鍵作用。
數(shù)據(jù)中心開銷
運行AI的信息技術(shù)設(shè)備所消耗的能源僅占整體能耗的一部分。支撐這些計算的基礎(chǔ)設(shè)施,如冷卻系統(tǒng)、配電系統(tǒng)以及其他數(shù)據(jù)中心開銷同樣會消耗能源。這部分開銷能源通常用電力使用效率(PUE)指標來衡量。
數(shù)據(jù)中心用水量
為了降低能耗及相關(guān)排放,數(shù)據(jù)中心通常會使用水進行冷卻。隨著優(yōu)化AI系統(tǒng)以提高能源效率,其整體用水量也會隨之自然減少。
通過上述更全面的指標,谷歌得出一次Gemini查詢的能耗為0.24wh,排放0.03 g CO?e,同時耗水量約5滴。

如此低的能耗,谷歌究竟是如何實現(xiàn)的?
為什么Gemini消耗這么低
谷歌表示,Gemin顯著的效率提升得益于其在AI開發(fā)中采取的全棧方法,從定制硬件、高效模型,到支撐這些模型運行的強大服務(wù)系統(tǒng),他們在每一層都融入了效率優(yōu)化。

首先是更高效的模型架構(gòu),Gemini是谷歌研究人員開發(fā)的Transformer模型框架,相比之前的語言建模架構(gòu),其效率可提升10倍到100倍。
此外,他們還在模型設(shè)計中融入了像MoE和混合推理等機制,從而進一步減少計算量和數(shù)據(jù)傳輸,提高整體運行效率。
與此同時,Gemini通過精準量化訓(xùn)練(AQT)等方法不斷得到優(yōu)化,使模型在保證回答質(zhì)量的前提下進一步降低了能源消耗。
在優(yōu)化推理和服務(wù)上,谷歌不斷改進AI的交付方式,以提升響應(yīng)速度和整體效率。
比如通過推測解碼技術(shù),較小的模型可以先進行預(yù)測,再由較大的模型快速驗證,從而用更少的芯片提供更多響應(yīng)。
蒸餾技術(shù)則可以利用大型模型作為教師,生成用于服務(wù)的小型高效模型(如Gemini Flash和Flash-Lite)。
不僅如此,為了減少能耗,谷歌在硬件上還采用定制化。
十多年來,他們一直從零開始設(shè)計TPU,以最大化每瓦的性能。同時,他們還協(xié)同設(shè)計AI模型與TPU,確保軟件充分利用硬件潛力,硬件也能高效運行未來的AI軟件。
值得一提的是,最新一代TPU Ironwood的能效比首款公開TPU高30倍,在推理任務(wù)中遠超通用CPU。

接下來,就是優(yōu)化空閑資源。谷歌的服務(wù)堆棧能夠高效利用CPU,并根據(jù)需求近乎實時地動態(tài)調(diào)度模型,從而最大化減少TPU的空閑時間,而不是采用“設(shè)置一次、永久運行”的方式。
同時,他們的XLA ML編譯器、Pallas內(nèi)核和Pathways系統(tǒng),使得在JAX等高級系統(tǒng)中表達的模型計算能夠在TPU服務(wù)硬件上高效運行。
再來看谷歌的超高效數(shù)據(jù)中心,其整體平均能源使用效率(PUE)可達1.09,為業(yè)界最高效的數(shù)據(jù)中心之一。
最后在數(shù)據(jù)中心運營方面,谷歌持續(xù)增加清潔能源的使用,以實現(xiàn)全天候無碳運行的目標,同時努力補充辦公室和數(shù)據(jù)中心平均消耗的120%淡水。
此外,他們還優(yōu)化冷卻系統(tǒng),通過科學(xué)的流域健康評估,平衡能源、水資源和排放之間的局部權(quán)衡,從而指導(dǎo)冷卻方式的選擇,并在水資源緊張地區(qū)限制用水量。
參考鏈接:
[1]https://x.com/JeffDean/status/1958525015722434945
[2]https://cloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference/
- 讓AI作畫自己糾錯!隨機丟模塊就能提升生成質(zhì)量,告別塑料感廢片2025-08-23
- 突破Agent長程推理效率瓶頸!MIT&NUS聯(lián)合推出強化學(xué)習(xí)新訓(xùn)練方法2025-08-22
- 波士頓動力機器人終于有腦子了!人類故意使絆子也不怕2025-08-22
- DiT突遭怒噴,謝賽寧淡定回應(yīng)2025-08-20