3B模型不輸7B LLaVA!北大多模態(tài)MoE模型登GitHub熱榜
甚至部分指標(biāo)比13B的模型還要好
小炒湯圓 投稿
量子位 | 公眾號(hào) QbitAI
混合專家(MoE)架構(gòu)已支持多模態(tài)大模型,開發(fā)者終于不用卷參數(shù)量了!
北大聯(lián)合中山大學(xué)、騰訊等機(jī)構(gòu)推出的新模型MoE-LLaVA,登上了GitHub熱榜。
它僅有3B激活參數(shù),表現(xiàn)卻已和7B稠密模型持平,甚至部分指標(biāo)比13B的模型還要好。

從一張圖表中,MoE-LLaVA可以精準(zhǔn)分析之中的細(xì)節(jié),連線條的顏色都能把控到位。

推理能力也十分優(yōu)秀,能夠根據(jù)照片場(chǎng)景針對(duì)性地給出旅行建議。

在物體幻覺基準(zhǔn)測(cè)試中,MoE-LLaVA取得了近87分的成績(jī),超過了一眾13B模型,占據(jù)了成為成績(jī)-參數(shù)量圖線左上角的位置。

性能方面,在8塊V100上,僅需兩天時(shí)間就能完成MoE-LLaVA的訓(xùn)練。
與簡(jiǎn)單粗暴地提高參數(shù)量相比,MoE架構(gòu)大幅降低了多模態(tài)模型的訓(xùn)練和推理成本。
目前,研究團(tuán)隊(duì)已經(jīng)開放了所有的數(shù)據(jù)、代碼和模型,那么它的表現(xiàn)到底如何呢?
成績(jī)不輸13B稠密模型
在圖像問答數(shù)據(jù)集和Benchmark工具上,MoE-LLaVA都取得了優(yōu)異的測(cè)試成績(jī)。
與前SOTA方法LLaVA-1.5相比,MoE-LLaVA-2.7B×4展現(xiàn)了強(qiáng)大的圖片理解能力,在5個(gè)數(shù)據(jù)集上的表現(xiàn)非常接近LLaVA-1.5。
其中,在SQA數(shù)據(jù)集上,MoE-LLaVA的成績(jī)比LLaVA-1.5-7B還要領(lǐng)先1.9個(gè)百分點(diǎn)。
而相比于小規(guī)模多模態(tài)模型TinyGPT-V,MoE-LLaVA-1.8B×4在相當(dāng)?shù)募せ顓?shù)下,在GQA和VisWiz數(shù)據(jù)集中分別超出27.5和10個(gè)百分點(diǎn),說明了MoE-LLaVA擁有強(qiáng)大的視覺理解能力。

為了更全面的驗(yàn)證MoE-LLaVA的多模態(tài)理解能力,研究團(tuán)隊(duì)在4個(gè)Benchmark工具包上評(píng)估了它的性能。
Benchmark工具包中的答案通常是開放性的,而且沒有固定模板,目的是驗(yàn)證模型能否能完成自然語(yǔ)言問答任務(wù)。
結(jié)果,MoE-LLaVA-1.8B×4超過了圖片分辨率更高的Qwen-VL,說明MoE-LLaVA這一稀疏模型可以用更少的激活參數(shù)達(dá)到和稠密模型相當(dāng)甚至更好的性能。

此外,研究團(tuán)隊(duì)還采用POPE工具評(píng)估了驗(yàn)證MoE-LLaVA的幻覺,結(jié)果它表現(xiàn)最好的性能,意味著它能準(zhǔn)確辨別圖像內(nèi)容。
具體來說,MoE-LLaVA-1.8B×4以2.2B的激活參數(shù)量,超過了13B的LLaVA-1.5。
另外,MoE-LLaVA的yes ratio占比處于較均衡狀態(tài),說明它能夠根據(jù)問題做出正確的反饋。

那么,MoE-LLaVA具體是如何實(shí)現(xiàn)的呢?
向多模態(tài)模型中引入MoE架構(gòu)
MoE-LLaVA采用三階段的訓(xùn)練策略,整體工作流程如下圖所示。
前兩個(gè)階段中,圖像和文本信息分別被視覺編碼器(VE)和文本嵌入層(WEL)轉(zhuǎn)化為token。
具體來看,階段1的目標(biāo)是把視覺token轉(zhuǎn)換成LLM能理解的形式。
為了實(shí)現(xiàn)這一點(diǎn),研究團(tuán)隊(duì)采用一個(gè)多層感知機(jī)(MLP)將視覺token投影到LLM的輸入域,使其作為L(zhǎng)LM能理解的偽文本token。
在這個(gè)階段,LLM被訓(xùn)練學(xué)會(huì)描述圖片,為理解更高層次的圖片語(yǔ)義的打下基礎(chǔ)。
階段2是用多模態(tài)的指令數(shù)據(jù)來對(duì)LLM進(jìn)行微調(diào),使之成為有多模態(tài)理解能力的模型。
這個(gè)階段的指令更加復(fù)雜,包含圖片邏輯推理、文字識(shí)別等高級(jí)任務(wù),對(duì)模型的多模態(tài)理解能力有了更高的要求。

通常來說,如果是稠密多模態(tài)模型,訓(xùn)練過程到此就完成了,但研究團(tuán)隊(duì)發(fā)現(xiàn)同時(shí)將LLM多模態(tài)化和稀疏化是有一定困難的。
為了解決這個(gè)問題,研究團(tuán)隊(duì)把該階段的權(quán)重作為階段3的初始化依據(jù),以降低稀疏模型學(xué)習(xí)的難度。
作為初始化,研究團(tuán)隊(duì)把前饋神經(jīng)網(wǎng)絡(luò)(FFN)復(fù)制多份,作為專家集合的初始化權(quán)重。
當(dāng)視覺token和文本token被送入MoE架構(gòu)時(shí),router會(huì)計(jì)算每一個(gè)token和專家們的匹配權(quán)重,然后被送入最匹配的top-k個(gè)專家進(jìn)行處理,最后根據(jù)router的權(quán)重加權(quán)求和匯聚成輸出。
當(dāng)top-k個(gè)專家被激活時(shí),其余的專家保持靜默,這種模型構(gòu)成了具有無限可能的稀疏通路的MoE-LLaVA。

整體上,在ScienceQA數(shù)據(jù)集上訓(xùn)練時(shí),所有的MoE layer中的專家的負(fù)載比較平衡。
然而隨著模型逐漸被稀疏化,第17到27層的專家的負(fù)載突然增大,甚至幾乎包攬了所有tokens。
對(duì)于淺層的5-11層,主要是由專家2、3、4共同協(xié)作。值得關(guān)注的是,專家1幾乎只在第1-3層工作,隨著模型變深,專家1逐漸退出了工作。
可以看出,MoE-LLaVA的專家們學(xué)到了某種特定的模式,它能夠按照一定的規(guī)律進(jìn)行專家們的分工。
進(jìn)一步地,研究團(tuán)隊(duì)還分析了不同專家的模態(tài)分布,發(fā)現(xiàn)文本和圖像的專家分布極其相似。
例如,當(dāng)專家3在17-27層工作時(shí),它所處理的文本和圖像的占比是相似的,這展現(xiàn)出MoE-LLaVA中的專家對(duì)于模態(tài)并無明顯的偏好。
同時(shí),研究團(tuán)隊(duì)還在token層次上觀察了專家們的行為,跟蹤了所有token在稀疏網(wǎng)絡(luò)中的軌跡在下游任務(wù)。
通過PCA降維方式,研究團(tuán)隊(duì)分析了對(duì)文本和圖像所有的激活的通路,得到了主要的10條通路。
團(tuán)隊(duì)還發(fā)現(xiàn),對(duì)于某個(gè)未見的文本或圖像token,MoE-LLaVA始終偏向于派發(fā)專家2和3來處理;專家1、4則傾向于處理初始化的token。
作者簡(jiǎn)介
MoE-LLaVA由北大深研院信息工程學(xué)院袁粒課題組主導(dǎo),該課題組主要研究機(jī)器視覺、機(jī)器學(xué)習(xí)和腦科學(xué)。
去年推出的法律大模型ChatLaw和AI表格工具酷表(ChatExcel),該課題組都有參與其中。
本文第一作者是該實(shí)驗(yàn)室的碩士生林彬,此前他還以一作或共同一作的身份參與過和多模態(tài)對(duì)齊框架LanguageBind(入選ICLR 2024)、視頻大模型Video-LLaVA等工作。
此外,來自中山大學(xué)、騰訊、FarReel AI Lab、鵬城實(shí)驗(yàn)室等機(jī)構(gòu)的研究人員也參與了本項(xiàng)目。
Github:
https://github.com/PKU-YuanGroup/MoE-LLaVA
論文地址:
https://arxiv.org/abs/2401.15947
Demo:
https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長(zhǎng)度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語(yǔ)言難題,2300種語(yǔ)言數(shù)字化計(jì)劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對(duì)1億年薪挖人,使命感比鈔票更重要2025-08-18