微信版大語言模型來了:跨時空對話李白、教你高情商說話,在線可玩
這年頭、AI的情商都比我高了
魚羊 夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
大規(guī)模語言模型,微信版,來了!
并且甫一登場,就沒藏著掖著:
論文、API接口、在線試玩網(wǎng)站……一條龍全都齊備。
續(xù)寫文本、閱讀理解等常規(guī)任務(wù)就不說了,這個名叫WeLM的AI,竟然直接讓我和李白跨時空聊起了杜甫:
我:現(xiàn)在有一首關(guān)于你的歌,其中一句歌詞是「要是能重來,我要選李白」,請問你自己有什么看法?
李白:我要選杜甫。
這還不算完,WeLM甚至還治好了我不會聊天的毛病,分分鐘教會我如何高情商說話。
這么一個AI,參數(shù)量不算大,目前處于百億水平。
但值得關(guān)注的是,實驗結(jié)果顯示,它在18個中文語言任務(wù)里,效果堪比參數(shù)量是其25倍的模型。
是不是有點手癢想上手一試了?先奉上鏈接,咱們再仔細(xì)說說,這波微信是怎么做到的。
體驗鏈接:
https://welm.weixin.qq.com/docs/playground/
API接口:
https://welm.weixin.qq.com/docs/api/
論文地址:
https://arxiv.org/abs/2209.10372
「學(xué)富五車」的大模型
微信語言大模型WeLM,全名Well-Read Language Model,也就是「學(xué)富五車的語言模型」。
在翻譯任務(wù)上,WeLM不光可以做到基本的,甚至三語夾雜也難不倒它。
在文本續(xù)寫任務(wù)上,只需給出開頭就能生成適應(yīng)不同風(fēng)格的文本。
這種多語言、多任務(wù)能力是怎么做到的?
其實WeLM與著名的GPT-3是同類,都是自回歸解碼器結(jié)構(gòu),微信團(tuán)隊選擇這種結(jié)構(gòu)就是看中其在海量數(shù)據(jù)中掌握無窮范式的能力。
在具體實現(xiàn)方法上,WeLM還有兩項特色。
一是采用RoPE相對位置編碼,與傳統(tǒng)的固定位置編碼相比能更好處理長文本,比如理解整篇文章甚至整本書。
二是使用62k個token的SentencePiece并保留其中的空格和Tab,這樣更有利于下游任務(wù)。
使用這些方法,WeLM總共設(shè)計了從13億到100億參數(shù)的三個版本,可按需調(diào)用。
其中100億參數(shù)的滿血版WeLM在14項中文任務(wù)中整體表現(xiàn)超過同大小的模型,甚至在零樣本任務(wù)上超過比它大25倍的模型。
這其中最大的秘訣就是精心準(zhǔn)備的高質(zhì)量訓(xùn)練數(shù)據(jù)上充分訓(xùn)練,也就是「學(xué)富五車」的含義所在。
高質(zhì)量訓(xùn)練數(shù)據(jù)包括從Common Crawl下載的近兩年中文網(wǎng)頁、大量書籍、新聞、論壇數(shù)據(jù)和學(xué)術(shù)論文。
收集到的數(shù)據(jù)總量超過10TB,其中包含750G英文數(shù)據(jù),中文中夾雜的英日韓語為了語義連貫也全部保留。
不過這還不算完,需要經(jīng)過清洗、去重等一系列步驟才能算得上是高質(zhì)量數(shù)據(jù)。
首先是去除噪聲和臟數(shù)據(jù),結(jié)合使用規(guī)則和模型檢測后,超過87%的數(shù)據(jù)被過濾。
再利用SimHash算法去重,進(jìn)一步過濾掉40%的數(shù)據(jù)。
接下來要去除一切和測評相關(guān)的數(shù)據(jù),保證公平性,以 17-gram 為檢測重復(fù)粒度再次過濾了0.15%的數(shù)據(jù)。
一系列處理后留下的數(shù)據(jù)量為262B tokens,最后再對這些數(shù)據(jù)進(jìn)行不同比重的采樣,使數(shù)據(jù)平滑分布在各個話題上。
對于預(yù)訓(xùn)練,團(tuán)隊認(rèn)為當(dāng)今多數(shù)大模型的訓(xùn)練都不夠充分,WeLM 100億參數(shù)版的訓(xùn)練量基本與1750億的GPT-3相當(dāng)(300B tokens),在128張A100上訓(xùn)練用了大概24天時間。
為了保證訓(xùn)練效率,WeLM在訓(xùn)練過程中還使用了完全可原地復(fù)現(xiàn)的形式,不管發(fā)生任何問題都能從最近的checkpoint恢復(fù)。
自1750億參數(shù)的GPT-3之后,語言模型規(guī)模越來越大,到今年谷歌的PaLM已經(jīng)達(dá)到5400億,中文大模型同樣有這個趨勢。
可以看出微信團(tuán)隊選擇了另一條路線,以高質(zhì)量訓(xùn)練數(shù)據(jù)和高效訓(xùn)練做到「四兩撥千斤」的效果。
到這一步WeLM已經(jīng)有了不錯的表現(xiàn),不過接下來這個步驟再次將其零樣本泛化能力提到新的高度。
研究團(tuán)隊針對76個數(shù)據(jù)集各人工撰寫10-20個Prompt,將原任務(wù)中的文本關(guān)系的標(biāo)簽和輸入信息轉(zhuǎn)化成流暢通順的自然語言形式,更符合自回歸語言模型的訓(xùn)練形式。
使用這些Prompt對模型微調(diào)后,相當(dāng)于讓模型學(xué)會了面對多樣的Prompt該做什么。如果遇到相似Prompt形式的全新任務(wù),也可以有更穩(wěn)定的表現(xiàn)。
實驗證明,在全量數(shù)據(jù)上微調(diào)后的模型在新的NLP任務(wù)上具備更優(yōu)秀的零樣本遷移能力,同時也使得微調(diào)變?yōu)橐豁?strong>一勞永逸的工作。
最后,研究團(tuán)隊還測試了WeLM的三個額外能力。
通過提供示例,WeLM可以對自己的決策作出解釋,不過這種能力不太穩(wěn)定,還需要進(jìn)一步探索。
通過簡單提問,WeLM可以對結(jié)果進(jìn)行自我糾正和檢查能力,為后續(xù)提高性能提供了可能方向。
WeLM還表現(xiàn)出一定的記憶能力,如果輸入內(nèi)容完美匹配前文,即使內(nèi)容很長、出現(xiàn)頻次很低,模型依然可以準(zhǔn)確的生成剩下的部分。
最后再來總結(jié)一下,WeLM精通中文的同時掌握英日韓等多種外語、可以通過少樣本或零樣本學(xué)習(xí)執(zhí)行全新任務(wù),同時以合理尺寸做到與25倍參數(shù)量的模型相媲美使用成本較低,總之就是奔著實用性和大規(guī)模落地去的。
同步開放在線體驗與API,也是希望有想法的開發(fā)者能方便的用起來,讓W(xué)eLM大模型真正實用的工具。
WeLM怎么用
具體來說,WeLM線上Demo目前釋出的功能包括:對話-采訪、閱讀理解、翻譯、改寫、續(xù)寫以及自由任務(wù)。
在正式開始跟WeLM玩耍之前,記得要先給模型扔一段簡單的「范文」,也就是「prompt」。
在線網(wǎng)站會給出一些默認(rèn)的prompt,你也可以自行修改設(shè)計。需要遵循的設(shè)計原則是:
第一,描述清楚;第二,例子具備代表性(多個例子更好)。
以文本分類任務(wù)為例,prompt應(yīng)該長這樣:
其中的技巧包括,首先,把分類任務(wù)用自然語言清晰地表達(dá)出來,在上面這個示例中,「微博」即為輸入,「類別」即為輸出。
其次,在第一句的指令型描述中,需要把可能的分類結(jié)果都列出來。
最后,如果效果不佳,可以嘗試加入更多例子,讓W(xué)eLM更清楚你到底想要做怎樣的任務(wù)。
另外,正如前文所說,WeLM擁有零樣本學(xué)習(xí)能力。
所以直接把它當(dāng)作問答搜索引擎來用,也不是不行(手動狗頭)。
如果你還想得到更多樣化的生成結(jié)果,token數(shù)量、temperature等參數(shù)均可調(diào)整。
更重要的一點是,WeLM已開放API接口?。也就是說,如果身為開發(fā)者的你想在自己的App里用上這個大模型,填寫調(diào)查問卷注冊即可。
One More Thing
說起來,這樣的大模型要是真的落地應(yīng)用了,媽媽豈不是再也不用擔(dān)心我因為不會聊天而母胎solo ?
比如說……
你還有什么有趣的腦洞?大膽招呼起來~
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18