單卡就能跑的大模型等效GPT-3!Meta發(fā)布大語(yǔ)言模型LLaMA,大小從7B到65B不等
給LeCun寫(xiě)出雙押Rap
Pine 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
ChatGPT的熱度稍有平息,蟄伏已久的Meta就迅速放出“大招”:
一次性發(fā)布四種尺寸的大語(yǔ)言模型LLaMA:7B、13B、33B和65B,用小杯、中杯、大杯和超大杯來(lái)解釋很形象了有木有(Doge)。
還聲稱,效果好過(guò)GPT,偏向性更低,更重要的是所有尺寸均開(kāi)源,甚至13B的LLaMA在單個(gè)GPU上就能運(yùn)行。
消息一出,直接在網(wǎng)上掀起一陣熱度,不到一天時(shí)間,相關(guān)推文的瀏覽量就已經(jīng)快破百萬(wàn)。
同在Meta的LeCun當(dāng)然也得為這次大模型的熱度“添油加柴”,LLaMA直接給他寫(xiě)了段“AI”Rap:
We gotta think about the future, it’s gonna be here?soon
Maybe we can even put some AI in the?moon
Think about the children, think about the next?generation
Let’s make sure we put the right systems in their?foundation
(不得不說(shuō)效果不錯(cuò),還雙押了,skr~)
不過(guò)話說(shuō)回來(lái),這次Meta的LLaMA模型到底如何?
一起來(lái)一探究竟。
數(shù)學(xué)編程寫(xiě)求職信統(tǒng)統(tǒng)都能拿下
Meta發(fā)布的LLaMA是通用大語(yǔ)言模型,原理就不多贅述,和以往的大語(yǔ)言模型一樣:
將一系列單詞作為輸入,并預(yù)測(cè)下一個(gè)單詞以遞歸生成文本。
這次,Meta之所以一次給出不同大小的LLaMA模型,論文中給出了這樣的解釋:
近來(lái)的研究表明,對(duì)于給定的計(jì)算預(yù)算,最佳性能不是由最大的模型實(shí)現(xiàn)的,而是由基于更多數(shù)據(jù)訓(xùn)練的更小的模型實(shí)現(xiàn)的。
也就是說(shuō),較小的模型規(guī)模加上比較大的數(shù)據(jù)集,獲得的性能可能會(huì)比更大規(guī)模模型的要好很多。
一方面,小規(guī)模模型需要的計(jì)算能力和資源相對(duì)來(lái)說(shuō)都會(huì)少很多,另一方面,它還能基于更多數(shù)據(jù)集訓(xùn)練更多token,更容易針對(duì)特定的潛在產(chǎn)品用例進(jìn)行重新訓(xùn)練和微調(diào)。
除了一把給出四種尺寸的LLaMA,Meta這次還直接開(kāi)源了這個(gè)大語(yǔ)言模型。
更重要的是,Meta為了讓自己的工作與開(kāi)源兼容,使用的都是公開(kāi)的數(shù)據(jù)。
而這把開(kāi)源,也不只利好開(kāi)發(fā)人員,同樣也利好Meta。
LLaMA模型也有著其他大語(yǔ)言模型的通?。簳?huì)產(chǎn)生偏見(jiàn)性、有毒或者虛假的內(nèi)容。開(kāi)源吸引來(lái)的更多的研究可以幫助解決這個(gè)問(wèn)題。
不過(guò)講了這么多,Meta的這個(gè)LLaMA模型到底能做啥?
扎克伯格直接在Facebook放出豪言,這是AI大語(yǔ)言模型里的新SOTA:
生成文本、進(jìn)行對(duì)話、總結(jié)書(shū)面材料以及解決數(shù)學(xué)定理或預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)等它都能干。
論文的最后也給出了一些栗子:
比如說(shuō),給出幾個(gè)數(shù)字,它直接就能找出其中的規(guī)律并續(xù)寫(xiě),還balabala解釋了一大通。
ChatGPT之前擅長(zhǎng)寫(xiě)的求職信LLaMA也能輕松拿下。
編程、寫(xiě)小說(shuō)也是分分鐘的事兒:
效果超越GPT-3
當(dāng)然按照慣例,在最后LLaMA還是得和其他大模型做做比較(是騾子是馬,咱得拉出來(lái)遛遛)。
其中,大家比較熟悉的就是GPT-3,直接看看它們倆之間的效果比較:
相較于有1750億參數(shù)的GPT-3,最多只有650億參數(shù)LLaMA贏麻了:它在大多數(shù)基準(zhǔn)上都要優(yōu)于GPT-3。
比如說(shuō)常識(shí)推理:
或者說(shuō)一些基礎(chǔ)問(wèn)題的解決:
又比如說(shuō)閱讀理解:
甚至,研究人員還提供了一組評(píng)估模型偏見(jiàn)性和毒性的基準(zhǔn),得分越高,偏見(jiàn)就越大:
LLaMA以66.6分險(xiǎn)勝,偏見(jiàn)性略低于GPT-3。
你對(duì)Meta這次的LLaMA怎么看呢?如果還想了解更多可以戳文末鏈接~
論文地址:
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
參考鏈接:
[1] https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
[2] https://twitter.com/GuillaumeLample/status/1629151231800115202
[3] https://twitter.com/ylecun/status/1629243179068268548
- GPT-5不能停!吳恩達(dá)田淵棟反對(duì)千人聯(lián)名,OpenAI CEO也發(fā)聲了2023-03-30
- ChatGPT標(biāo)注數(shù)據(jù)比人類(lèi)便宜20倍,80%任務(wù)上占優(yōu)勢(shì) | 蘇黎世大學(xué)2023-03-29
- 馬斯克嘲諷比爾蓋茨不懂AI/ 蘋(píng)果收購(gòu)AI視頻公司/ 壁仞GPU聯(lián)創(chuàng)出走…今日更多新鮮事在此2023-03-28
- GPT-4老板:AI可能會(huì)殺死人類(lèi),已經(jīng)出現(xiàn)我們無(wú)法解釋的推理能力2023-03-28