僅480塊GPU搞出萬億參數(shù)大模型!達(dá)摩院3個月打造,出手即商用
能耗降低8成,效率還提升11倍
金磊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
不要6000張GPU!不要2000張TPU!
只要480,萬億參數(shù)大模型“抱回家”!
還沒完,更驚艷的在后邊。
同為萬億“體量”,能耗降低超八成,效率還能提升11倍。
當(dāng)真有這好事?
沒錯,這就是阿里巴巴剛剛發(fā)布的萬億巨模型M6。
用綠油油的“低碳版”來形容很是恰當(dāng)了。
今年3月,M6作為中國首個千億多模態(tài)大模型發(fā)布時,前OpenAI政策主管Jack Clark曾發(fā)文點贊道:
這個模型的規(guī)模和設(shè)計都非常驚人。
這次,萬億M6的問世又順利拿下了個中國第一——國內(nèi)首個實現(xiàn)商業(yè)化落地的多模態(tài)大模型。
而且是離你很近的那種哦~
不僅是畫畫、寫作,你的支付寶、淘寶就在用!
自從大模型變得流行起來之后,它所具備的創(chuàng)意能力,一直是被世人所津津樂道。
例如OpenAI的DALL·E,給自家設(shè)計出來的公司門面,是這樣的:
風(fēng)格多變、設(shè)計多樣倒是沒錯了。
甚至被網(wǎng)友們一度稱贊為“甲方克星、乙方福音”。
但講真,要是拿到現(xiàn)實來商用,真的能hold得住嗎?
不見得。
單是從效果圖來看,字體扭曲便是一個大問題。
而要商用,圖片還需要一個非常硬性的要求——得夠清晰啊!
但DALL·E生成圖片的分辨率,卻僅為256×256。
那到了萬億參數(shù)規(guī)模,情況是否有所好轉(zhuǎn)?
直接來看下M6設(shè)計的作品效果:
不難看出,萬億參數(shù)大模型所生成的圖,在清晰度上有了較大的提升,分辨率直接翻倍,達(dá)到了1024×1024,放大后還能看清衣物紋理。
或許你會說,除了M6之外,目前國內(nèi)外已經(jīng)誕生了幾個萬億“體量”的大模型。
那阿里此次提出的大模型,又有什么獨到的特點?
一大特點是,M6不僅公開了實現(xiàn)的詳盡細(xì)節(jié)、模型的收斂情況(詳見文末論文鏈接),而且還是國內(nèi)首個實現(xiàn)商業(yè)落地的萬億參數(shù)多模態(tài)大模型。
還是以生成圖片為例,阿里已經(jīng)初步將成果投入到了生產(chǎn)場景當(dāng)中——阿里新制造平臺犀牛智造。
目前,M6主要參與一些基礎(chǔ)款的設(shè)計。但可預(yù)期的是,隨著實踐經(jīng)驗的豐富,M6的水平將不斷進(jìn)化。
據(jù)了解,M6計劃在一年內(nèi)生成上萬款高清服裝設(shè)計圖。
什么概念?
這個數(shù)量就相當(dāng)于一些快時尚品牌數(shù)百人設(shè)計團(tuán)隊的年出款量。
再具體一些,結(jié)合大數(shù)據(jù)預(yù)測的潮流趨勢,M6可以實現(xiàn)快速設(shè)計和上身模擬,再經(jīng)人類設(shè)計師進(jìn)行篩選。
這么一套流程下來,原本以月計的新款服飾開發(fā)周期,被壓縮到了以周來計算。
或許你會覺得這樣的商業(yè)落地,離自己太遠(yuǎn)了。
不不不,M6還可能會出現(xiàn)在你經(jīng)常用到的App哦——支付寶、淘寶。
懂“搜索”的人都知道,傳統(tǒng)的搜索過程就是,查詢語句與商品title的一個語義匹配過程。
但現(xiàn)在的年輕人搜索商品可不按照套路出牌。
舉個例子,他們會搜“凹凸的咖啡杯”。
其實他們想搜索的就是一種日式風(fēng)格的咖啡杯,但商家可不會把這些細(xì)節(jié)寫進(jìn)商品title中。
這時候,大模型就開始發(fā)揮它的看家本領(lǐng)了。
M6會根據(jù)商家提供的圖片,以及用戶的查詢,做一個跨模態(tài)的搜索。
即使商家沒有在title中描述關(guān)鍵詞,M6可以根據(jù)圖片中的信息,然后推薦出你想要的產(chǎn)品。
這時候你又會說了,其它萬億參數(shù)大模型說不定也能做到!
或許可以。
但如果說,M6只燒了480張GPU就做到了呢?
而且能耗比之前已有萬億參數(shù)模型低了8成,效率還提升了11倍!
不僅如此,達(dá)到這種驚人效果,從千億到萬億參數(shù)規(guī)模,阿里只花了3個月時間。
3個月打造萬億參數(shù)模型,怎么做到的?
首先要了解的一點是,3個月時間的工作,并非是一蹴而就。
早在今年1月份,阿里便推出了百億參數(shù)模型,而當(dāng)時谷歌就已經(jīng)提出來了1.6萬億參數(shù)的Switch Transformer。
谷歌能夠達(dá)到這個量級,所借助的就是一個叫做MoE?(Mixture of Experts)的架構(gòu)。
于是,阿里從百億開始的“規(guī)模升級”過程中,便借鑒了這個架構(gòu),僅耗時2個月,便發(fā)布千億參數(shù)大模型,而且只用了32個?V100 GPU。
不得不說,MoE這個架構(gòu)確實好用。
它能夠做到的在擴(kuò)展模型容量并提升模型效果的基礎(chǔ)上,不顯著增加運算FLOPs,這樣就可以實現(xiàn)高效訓(xùn)練大規(guī)模模型的目的。
但阿里在卻在研究過程中發(fā)現(xiàn)了一個問題:
MoE負(fù)載不均衡。
簡單來說,原理是這樣的。
大模型常用到的Transformer分布式訓(xùn)練中,通常是各個GPU同一FFN層中,使用同一份參數(shù)。
而MoE就不同了,上述的這部分參數(shù)會在GPU之間共享,一份FFN參數(shù)被稱為1個“專家”(expert),每個GPU上將存放若干份參數(shù)不同的“專家”。
(如下圖中標(biāo)紅框部分所示)
但阿里卻發(fā)現(xiàn),在原來MoE的訓(xùn)練過程中,非常容易只選擇top的幾位“專家”,這就使得頭部效應(yīng)非常嚴(yán)重。
于是乎,阿里便對MoE的這個問題進(jìn)行了改良。
研究人員對“專家”做了一個分組工作,即expert prototyping。
具體而言,先是把“專家”分成k個組,在每組中再進(jìn)行top-k的操作(通常采用top-1,便于理解)。然后再將k組的結(jié)果進(jìn)行組合,也稱之為k top-1。
這種方式實現(xiàn)上更直接簡便,并且允許組和組之間并行做top-k操作,更加高效。
例如在百億模型下游image captioning任務(wù)上,甚至能觀察到優(yōu)于top-k的表現(xiàn):
而且在阿里與谷歌交流過程中,谷歌的研究人員也認(rèn)可了這種改良思路,他們認(rèn)為非常精巧。
除此之外,算子精度也是阿里此次改良的工作之一。
谷歌在做Switch Transformer時,為了將模型體積壓下來,選擇了BF16。
但精度的降低會帶來非常大的技術(shù)挑戰(zhàn),就是如何保證模型收斂的問題。
而且阿里還要做到“低碳版”,不能燒太多的GPU,因此相比谷歌在算子精度方面的工作,阿里可謂走了一條更加“極端”的路線。
具體而言,XLA優(yōu)化、混合精度訓(xùn)練、半精度通信等訓(xùn)練效率優(yōu)化技術(shù),并采用了Adafactor優(yōu)化器,成功在480張NVIDIA V100-32GB上完成萬億模型的訓(xùn)練。
并且在訓(xùn)練中,他們采用絕對值更小的初始化,適當(dāng)減小學(xué)習(xí)率,保證了訓(xùn)練的穩(wěn)定性,實現(xiàn)正常的模型收斂,而訓(xùn)練速度也達(dá)到了約480samples/s。
以上便是阿里“低碳版”萬億參數(shù)大模型的核心奧秘了。
而拋開技術(shù)本身,細(xì)品阿里在大模型的規(guī)劃路線,不免讓人產(chǎn)生另一個問題:
阿里為什么這么“急”?
- 從百億參數(shù)到千億參數(shù),用了2個月。
- 從千億參數(shù)到萬億參數(shù),用了3個月。
而且不同于其它大模型堆TPU、GPU,阿里選擇的還是一條極端的“低碳”路線:
千億參數(shù)模型僅需32張GPU,萬億參數(shù)模型只要480張GPU。
“急”,確實有點“急”。
但縱觀全球大模型的發(fā)展,阿里的這種“急”也就不難理解了。
- 谷歌1月份提出1.6萬億參數(shù)大模型Switch Transformer
- 英偉達(dá)的“威震天”4月份也對萬億參數(shù)模型進(jìn)行了訓(xùn)練
- 智源研究院于本月初發(fā)布1.75萬億參數(shù)大模型悟道2.0
- ……
除了萬億規(guī)模,這期間還穿插著像阿里、華為等大廠發(fā)布的百億、千億參數(shù)大模型。
而更早的,谷歌的BERT、OpenAI的GPT-3等,可以說是開啟了大模型了一股熱潮。
好一副“百家爭鳴”之勢。
為什么會這樣?
因為這是必然,是大勢所趨。
就好比十幾年前深度學(xué)習(xí)的崛起一樣,國內(nèi)外各大廠商看到了這個技術(shù)的正確性。
于是紛紛前赴后繼地入局于此,各式各樣的深度學(xué)習(xí)模型不斷涌現(xiàn)。
現(xiàn)如今大模型的這種盛世,就與深度學(xué)習(xí)時代極其相似。
而且比起深度學(xué)習(xí),大模型的迭代速度只會更快。
因為深度學(xué)習(xí)時代之下,并沒有出現(xiàn)很多應(yīng)用場景。
但現(xiàn)如今,單是面向C端用戶群里的大流量場景便應(yīng)接不暇,搜索、推薦、廣告等等。
因此,在大模型的研發(fā)上,不僅僅是阿里“急”,可以說全球各大廠商和研究機(jī)構(gòu),都很“急”。
而從技術(shù)本身來看,大模型還逐漸浮現(xiàn)出了無限的創(chuàng)造價值。
簡而言之,就是在模型參數(shù)越發(fā)巨量的趨勢之下,模型可能會做到更多“意想不到”的事情。
還是以M6生成圖片為例,很多人會有一個質(zhì)疑:
這些生成的圖片,會不會是拼接的,而不是真正意義上的生成。
據(jù)阿里內(nèi)部人士透露,還真不是這樣:
它是真的有了認(rèn)知和創(chuàng)造力。
最簡單的驗證方式,就是拿這些圖片去各種搜索引擎搜一下,結(jié)果定然是完全找不到。
除此之外,技術(shù)應(yīng)當(dāng)有益于人類的發(fā)展。
在這一點上,M6大模型還有計劃“上崗”助農(nóng)扶貧的工作了。
具體而言,它將參與到幫助農(nóng)民賣貨的一個環(huán)節(jié),可以幫助他們快速設(shè)計包裝的logo以及各種IP衍生品。
而在此之前,這些環(huán)節(jié)的人力成本相對來說還是較高的。
綜上來看,大模型的發(fā)展迭代、落地,確實是一個很“急”,但又正確的大趨勢了。
……
最后一個問題,既然萬億規(guī)模參數(shù)已來,按照如此迭代速度,更大量級的大模型,還會遠(yuǎn)嗎?
按現(xiàn)在的趨勢,答案是肯定的,只是時間問題。
但據(jù)阿里的介紹,接下來在大模型的研究工作中,不僅是要追求參數(shù)規(guī)模的迭代,更要追求通用性和商業(yè)落地。
那么對于接下來的大模型,你期待了嗎?
論文地址:
https://arxiv.org/abs/2105.15082
- 商湯林達(dá)華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08