人人都能用的多語種大模型來了!支持59種語言,參數(shù)1760億,1000名科學(xué)家聯(lián)合發(fā)起
動用法國超算訓(xùn)練而成
豐色 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
一直以來,很多大模型都由造它們出來的大型私營科技公司壟斷著。
比如GPT-3等,對于普通人來說,再香也只能眼巴巴看著。
不過現(xiàn)在,為了給你解饞,由近1000名科學(xué)家聯(lián)合發(fā)起的一個志愿項目,耗時一年多煉出了一個號稱和GPT-3一樣強大的語言模型。
它的名字叫BLOOM,參數(shù)1760億,不光支持英文或者中文,連西班牙語、法語等59種語言都支持,是目前最大的多語言開源語言模型。
是的,從現(xiàn)在起,從代碼到數(shù)據(jù)集,BLOOM全部對外開放,所有人都可使用。
動用法國超算、花費384塊A100
BLOOM是一個BigScience項目,去年5月啟動,由Hugging Face主導(dǎo),收到了700萬美元的公共捐款。
共有來自全球60個國家、超過250個機構(gòu),以及超過1000名研究人員參與其中,其中包括以個人名義參加的Meta、谷歌等大廠員工。
它的訓(xùn)練在法國超級計算機Jean Zay上進行,共花費了384塊A100 GPU,其中每塊有80 GB內(nèi)存,訓(xùn)練吞吐量約150 TFLOP(該超算由低碳的核能提供動力,釋放的熱量還用來給學(xué)校供暖)。
相關(guān)推特賬號從3月14日起,每天記錄BLOOM的進度。
隨著進度條漸漸拉滿,每天去點贊的人數(shù)也越來越多。
不過,到了102%它才正式停下——
7月2號,耗時117天的BLOOM宣告完成,恰好在預(yù)期計劃時間內(nèi)。
最終,BLOOM:
- 擁有1760億參數(shù),比GPT-3還多10億
- 包含70層,每層112個注意力頭
- token序列長度為2048
- 采用GeLU激活函數(shù)
- 數(shù)據(jù)集共計3416億條token(1.5TB文本數(shù)據(jù))
- 支持13種編程語言、46種語言
其中,對于很多語言來說,比如法語、西班牙語和阿拉伯語等,都是首次有了自己的開源模型(有網(wǎng)友發(fā)現(xiàn)日語目前還不支持)。
此外,為了讓BLOOM最后的生成結(jié)果盡可能地減少偏見,參與人員還費了不少功夫抓取到的數(shù)據(jù)還進行了一遍人工過濾。
目前,BLOOM的訓(xùn)練對硬件也還是有一些要求:
為了保證效果,最好是準(zhǔn)備8塊80GB或者16塊40GB的的A100。
這導(dǎo)致只有稍微大點的團隊才能用。
當(dāng)然也可以選擇在云上訓(xùn)練,最高每小時40美元。
最后,BLOOM表示還會降低使用門檻,并準(zhǔn)備開發(fā)一個分布式系統(tǒng),允許實驗室在其服務(wù)器之間共享模型。
它聲稱自己將會成為一個模型家族,不會一勞永逸。
Hugging Face地址:
https://huggingface.co/bigscience/bloom
參考鏈接:
[1]https://twitter.com/evanmiltenburg/status/1546792818269732864
[2]https://techcrunch.com/2022/07/12/a-year-in-the-making-bigsciences-ai-language-model-is-finally-available/
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發(fā)場景,專為企業(yè)私有部署設(shè)計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數(shù)學(xué)和計算機最高獎“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10