微軟亞研院:Language Is Not All You Need
給語言大模型加點料,梗圖IQ測試都能秒答
魚羊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
還記得這張把谷歌AI搞得團(tuán)團(tuán)轉(zhuǎn)的經(jīng)典梗圖嗎?

現(xiàn)在,微軟亞研院的新AI可算是把它研究明白了。
拿著這張圖問它圖里有啥,它會回答:我看著像鴨子。
但如果你試圖跟它battle,它就會改口:看上去更像兔子。并且還解釋得條條是道:
圖里有兔子耳朵。

是不是有點能看得懂圖的ChatGPT內(nèi)味兒了?
這個新AI名叫Kosmos-1,諧音Cosmos(宇宙)。AI如其名,本事確實不?。簣D文理解、文本生成、OCR、對話QA都不在話下。
甚至連瑞文智商測試題都hold住了。

而具備如此能力的關(guān)鍵,就寫在論文的標(biāo)題里:Language is not all you need。
多模態(tài)大語言模型
簡單來說,Kosmos-1是一種把視覺和大語言模型結(jié)合起來的多模態(tài)大語言模型。
在感知圖片、文字等不同模態(tài)輸入的同時,Kosmos-1還能夠根據(jù)人類給出的指令,以自回歸的方式,學(xué)習(xí)上下文并生成回答。
研究人員表示,在多模態(tài)語料庫上從頭訓(xùn)練,不經(jīng)過微調(diào),這個AI就能在語言理解、生成、圖像理解、OCR、多模態(tài)對話等多種任務(wù)上有出色表現(xiàn)。
比如甩出一張貓貓圖,問它這照片好玩在哪里,Kosmos-1就能給你分析:貓貓戴上了一個微笑面具,看上去就像在笑。

又比如讓它看一眼MSRA用來高效訓(xùn)練大模型的TorchScale工具包的主頁,Kosmos-1也能快速get這個庫是用來干啥的。

Kosmos-1還能理解圖像上下文。發(fā)一張食物的照片給它,這個AI不僅能回答你這是什么,還能在你追問如何烹飪時,給出食譜和烹調(diào)小建議。

Kosmos-1的骨干網(wǎng)絡(luò),是一個基于Transformer的因果語言模型。Transformer解碼器作為通用接口,用于多模態(tài)輸入。
用于訓(xùn)練的數(shù)據(jù)來自多模態(tài)語料庫,包括單模態(tài)數(shù)據(jù)(如文本)、跨模態(tài)配對數(shù)據(jù)(圖像-文本對)和交錯的多模態(tài)數(shù)據(jù)。
值得一提的是,雖說“Language is not all you need”,但為了讓Kosmos-1更能讀懂人類的指示,在訓(xùn)練時,研究人員還是專門對其進(jìn)行了僅使用語言數(shù)據(jù)的指令調(diào)整。
具體而言,就是用(指令,輸入,輸出)格式的指令數(shù)據(jù)繼續(xù)訓(xùn)練模型。
實驗結(jié)果
研究人員在5大類共10個任務(wù)中,測試了Kosmos-1的效果,包括:
- 語言任務(wù):語言理解、語言生成、無OCR文本分類
- 跨模態(tài)遷移:常識推理
- 非語言推理:IQ測試(瑞文遞進(jìn)矩陣)
- 感知-語言任務(wù):圖像說明、視覺QA、網(wǎng)頁QA
- 視覺任務(wù):零樣本圖像分類、帶描述的零樣本圖像分類
從實驗結(jié)果上來看,Kosmos-1基本都hold住了。
零樣本圖像說明:
零樣本視覺QA:
無OCR文本理解:
研究人員還提到,Kosmos-1是第一個能完成零樣本瑞文智商測試的AI。
不過,跟成年人類的平均水平相比,AI的“智商”還差得有點遠(yuǎn)。隨機(jī)選擇的正確率為17%,而Kosmos-1經(jīng)過指令調(diào)教之后,準(zhǔn)確率為26%。
研究人員認(rèn)為:
但Kosmos-1證明了多模態(tài)大模型有潛力將感知和語言結(jié)合起來,進(jìn)行零樣本的非語言推理。
另外,研究人員還展示了Kosmos-1處理復(fù)雜問答和推理任務(wù)的過程。關(guān)鍵在于多模態(tài)思維鏈提示。
研究人員將感知-語言任務(wù)分解為兩個步驟。第一步,給定一個圖像,引導(dǎo)模型對圖像進(jìn)行分析。
第二步,把模型子集分析出來的結(jié)果再喂給它,并給出任務(wù)提示,以生成最后的答案。
這項新研究來自MSRA的韋福如團(tuán)隊。韋福如是微軟亞洲研究院自然語言計算研究組主管研究員。
三位一作分別是Shaohan Huang、董力和Wenhui Wang。
論文地址:
https://arxiv.org/abs/2302.14045
— 完 —