AI大牛周明打造輕量“孟子模型”開源!靠10億參數(shù)沖上CLUE榜第三
此次開源4個(gè)模型,分別可用于文本分類、金融新聞分類、文案生成和圖片描述等場(chǎng)景
明敏 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
只用10億參數(shù)就殺進(jìn)中文自然語言理解CLUE榜單前三的孟子模型,現(xiàn)在開源了!
其打造團(tuán)隊(duì)瀾舟科技-創(chuàng)新工場(chǎng)最新宣布,基于孟子通用模型,他們將開源4個(gè)模型。
分別可用于文本分類、金融新聞分類、文案生成和圖片描述等場(chǎng)景。
今年7月,這個(gè)由AI大牛周明率隊(duì)打造的輕量級(jí)模型,一經(jīng)發(fā)布就驚艷眾人。
它以十億參數(shù)完成此前百億、千億參數(shù)模型創(chuàng)造的紀(jì)錄,打破近年來CLUE榜單被騰訊、搜狗、華為、阿里達(dá)摩院輪番霸榜的格局。
截至目前,孟子模型仍舊是榜單前五中唯一非巨頭企業(yè)推出的模型,且排名第三。
下游任務(wù)表現(xiàn)出色
CLUE榜單可是自然語言理解玩家的必爭(zhēng)之地,騰訊、搜狗、華為、阿里達(dá)摩院等更是輪番霸榜刷新紀(jì)錄。
而他們的大模型動(dòng)輒就是百億、千億級(jí)的參數(shù),僅僅只有10億參數(shù)的孟子模型,到底是如何殺出重圍的呢?
我們不妨來了解一下孟子模型。
孟子模型是瀾舟科技基于語言學(xué)信息融入和訓(xùn)練加速等方法,研發(fā)的系列模型。
由于與BERT保持一致的模型結(jié)構(gòu)(Transformer),孟子模型可以快速替換現(xiàn)有的預(yù)訓(xùn)練模型。
它可處理多語言、多模態(tài)數(shù)據(jù),同時(shí)支持多種文本理解和文本生成任務(wù),在文本分類、閱讀理解等各類任務(wù)上表現(xiàn)出色。
具體來看,這次開源的4個(gè)模型架構(gòu)如下:
對(duì)應(yīng)各個(gè)場(chǎng)景來看,在金融方面的任務(wù)中,孟子模型表現(xiàn)優(yōu)秀:
生成營銷文案上,相對(duì)于GPT而言,孟子模型能夠生成的語言明顯更為豐富。
描述圖片內(nèi)容上也更為準(zhǔn)確、細(xì)致,幾乎看不出AI的痕跡。
四兩撥千斤
與其他中文語言模型相比,孟子模型最大的特點(diǎn)就是小而精。
它采用輕量化訓(xùn)練策略,致力于構(gòu)建十億參數(shù)級(jí)別的小模型,充分發(fā)揮已有參數(shù)下的模型潛力,有利于快速、低成本的落地現(xiàn)實(shí)業(yè)務(wù)場(chǎng)景。
與此同時(shí),孟子還使用人類先驗(yàn)知識(shí)引導(dǎo)模型訓(xùn)練,讓模型更高效率獲得知識(shí)。
孟子模型具備頂尖的語言理解能力,在權(quán)威CLUE中文理解評(píng)測(cè)的總排行榜,分?jǐn)?shù)突破84分,逼近人類基準(zhǔn)分?jǐn)?shù)(85.61)。
另外,基于T5-style的端到端生成的訓(xùn)練范式,同步適配BERT-style的判定式架構(gòu),讓孟子模型便于適配行業(yè)應(yīng)用,可以覆蓋廣泛業(yè)務(wù)場(chǎng)景。
在模型架構(gòu)上,“孟子”也進(jìn)行了全方位改進(jìn)。
具體有四方面:
- 模型結(jié)構(gòu)方面,將語義角色、詞性標(biāo)注等語言學(xué)特征融合到Embedding表示中,基于句法約束引入注意力機(jī)制中,從而提升模型對(duì)語言學(xué)知識(shí)的建模能力。
- 訓(xùn)練策略上,引入基于實(shí)體知識(shí)和Discourse的Mask機(jī)制,強(qiáng)化模型對(duì)語言成分和語篇關(guān)系的表征。
- 為進(jìn)一步提高訓(xùn)練效率,使用了大模型蒸餾和初始化小模型策略。
- 為更好地將孟子模型適應(yīng)垂直領(lǐng)域如金融、營銷,使用了領(lǐng)域數(shù)據(jù)繼續(xù)訓(xùn)練并構(gòu)造相應(yīng)的提示模版(Prompt),取得了明顯的性能提升。
周明:未來十年孕育認(rèn)知智能大機(jī)遇
最后,我們?cè)賮斫榻B一下孟子模型的幕后團(tuán)隊(duì)——瀾舟科技。
它是由創(chuàng)新工廠孵化的一家認(rèn)知智能公司。
公司創(chuàng)始人——周明博士。
AI領(lǐng)域內(nèi),周明已不用過多介紹,他是公認(rèn)的世界級(jí)AI科學(xué)家,自然語言處理領(lǐng)域的代表性人物。
周明博士在2020年加盟創(chuàng)新工場(chǎng),擔(dān)任創(chuàng)新工場(chǎng)首席科學(xué)家。
就在剛剛開幕的2021杭州·云棲大會(huì)上,我們也看到了周明博士的身影。
基于自己多年的產(chǎn)學(xué)研認(rèn)識(shí),他分享了自己對(duì)于認(rèn)知智能的一些思考。
周明博士提到,目前神經(jīng)網(wǎng)絡(luò)的方法依賴大規(guī)模的標(biāo)注數(shù)據(jù)做端到端訓(xùn)練。這種黑箱式系統(tǒng)缺乏解釋能力、也不具備常識(shí)推理能力。
我們?nèi)四X在處理熟悉任務(wù)的時(shí)候,都是依賴直覺的,這有點(diǎn)對(duì)應(yīng)預(yù)訓(xùn)練模型或者深度學(xué)習(xí);
在處理新事物時(shí),人腦就要沉靜下來,用自己的知識(shí)去推理,這更像是符號(hào)計(jì)算。
他認(rèn)為,當(dāng)下的深度學(xué)習(xí)應(yīng)該思考如何用一個(gè)模型將這二者的優(yōu)勢(shì)結(jié)合,也就是把數(shù)據(jù)和知識(shí)融合起來解決問題。
此外周明博士還提出,現(xiàn)在深度學(xué)習(xí)訓(xùn)練新任務(wù),要學(xué)習(xí)所有的能力。但人類在應(yīng)對(duì)新任務(wù)時(shí),往往只是基于基礎(chǔ)能力做了小部分的調(diào)整。
所以,如何模擬人腦、設(shè)計(jì)一系列基礎(chǔ)能力和相應(yīng)微調(diào)機(jī)制,是深度學(xué)習(xí)要思考的問題。
提及對(duì)AI行業(yè)的展望,周明博士表示:
AI正由感知智能快速向認(rèn)知智能邁進(jìn),未來的十年孕育著巨大的認(rèn)知智能發(fā)展和創(chuàng)新的機(jī)遇。
與此同時(shí),他還在分享中透露,瀾舟科技從開源起步,正在過渡到SaaS、訂制和App。目前已與國內(nèi)外幾十所著名高校和十余個(gè)相關(guān)領(lǐng)域的頭部企業(yè)建立了穩(wěn)定的合作關(guān)系。
- 4o-mini華人領(lǐng)隊(duì)也離職了,這次不怪小扎2025-08-19
- 宇樹機(jī)器人“撞人逃逸”火到國外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進(jìn)化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11