一個模型搞定圖像標注、讀圖問答兩件事,VQA準確率逼近人類水平 | Demo可玩
通訊作者為清華校友
明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
現(xiàn)在,丟給AI一張圖,它不僅能看圖說話,還能應(yīng)對人們提出的刁鉆問題了。
比如,給它看一張經(jīng)典卷福照。
它便能回答出:
一個穿著西服、正在比劃手勢的男人。
那么圖中男人的眼睛是什么顏色的呢?
藍色。
我定睛一看,還真是如此!
這就是視覺-語言領(lǐng)域的新成果:BLIP (Bootstrapping Language-Image Pre-training)。
它突破性地將過去往往只能單獨執(zhí)行的視覺-文本生成、視覺-文本理解兩種任務(wù)整合在了一起,讓AI可以在看圖說話和視覺問答兩種模式來回切換。
并且在各種任務(wù)上的表現(xiàn)也都優(yōu)于過去SOTA方法,VQA準確率超過78%,逼近人類基準線(80.83%)。
話不多說,就讓我們來試玩一下,看看這個模型究竟有多厲害。
Demo試玩
BLIP可以提供兩種功能。
第一是描述圖片的內(nèi)容,第二是回答有關(guān)圖片的提問。
上傳好圖片后,便可從圖片下方的模式中任選一種進行試玩。
首先我們來看看它看圖說話的水平如何。
上傳了一張有小孩、貓、狗多種元素的圖片后,模型輸出的內(nèi)容為:
一個小男孩和一只貓、一只狗一起趴在地上。
再提問試試看:
圖中有魚嗎?
BLIP:NO.
可以看到,BLIP對圖片的理解很到位,那么再多換幾張圖片呢?
當我們上傳蒙娜麗莎的畫像后,模型很輕松地辨別出來了這是一張女人的畫像,并非是一張照片。
即便是上傳一張惡搞的奧特曼圖片,也沒有難倒BLIP,并且還給出了一個一本正經(jīng)的回答:
一個男人端著一個插有蠟燭的蛋糕。
甚至問它:蛋糕是在男人的左手上還是右手上?BLIP都能給出正確的答案:
右手。
這波操作屬實是6到我了。
那么它背后的原理是什么呢?我們一起來看。
學(xué)習(xí)帶噪圖像-文本對
BLIP這次主要做的工作有兩方面。
第一,它使用了一個多任務(wù)模型(MED),將多種任務(wù)預(yù)訓(xùn)練整合在了一起。
從框架圖中看到,MED主要包括3個部分:
單峰編碼器,可以用圖像-文本對比損失(ITC)訓(xùn)練,讓視覺和文本表征對齊。
基于圖像的文本編碼器,可以用傳統(tǒng)的交叉注意層來模擬視覺-語言信息的轉(zhuǎn)換,并通過圖像-文本匹配損失(ITM)來進行訓(xùn)練,從而來區(qū)分正、負圖像-文本對。
基于圖像的文本解碼器,可以將雙向自注意力層轉(zhuǎn)換為因果自注意力層,并且與編碼器共享同一個交叉注意力層和前饋網(wǎng)絡(luò)。解碼器通過語言建模訓(xùn)練(LM)來輸出文字標注。
由此,該模型可以執(zhí)行圖像-文本對比、圖像-文本匹配和圖像語言生成任務(wù)。
第二方面,研究人員提出了一種新型的數(shù)據(jù)自舉法(CapFilt)。它可以讓模型從帶有噪聲的圖像-文本對中學(xué)習(xí)。
CapFilt中主要包含標注器 (captioner)和過濾器 (filter)兩個部分。
其中,標注器用來生成描述圖像的文本,過濾器將帶有噪音的結(jié)果排除掉。
比如下面的幾個例子,就是過濾器將錯誤的答案駁回。
研究表明,標注器列出的文本越多樣化,最后的效果越好。
與此前取得SOTA的方法相比,BLIP在圖像-文本檢索任務(wù)上recall@1平均提升了2.7%;在看圖生成文字上,CIDEr提升2.8%,視覺問答方面分數(shù)提升了1.6%。
通訊作者為清華校友
此項研究的通訊作者為許主洪 (Steven C.H. Hoi)。
他目前也任職于Salesforce亞洲研究院。此前為新加坡國立大學(xué)信息系統(tǒng)學(xué)院教授。
2002年,許主洪在清華大學(xué)計算機系獲得學(xué)士學(xué)位。于2004年、2006年先后在香港大學(xué)計算機科學(xué)與工程系獲得碩士、博士學(xué)位。
2019年當選IEEE Fellow。主要研究領(lǐng)域有計算機視覺、NLP、深度學(xué)習(xí)等。
第一作者為Junnan Li。
他目前是Salesforce亞洲研究院高級研究科學(xué)家。
本科畢業(yè)于香港大學(xué),博士畢業(yè)于新加坡國立大學(xué)。
研究領(lǐng)域很廣泛,包括自我監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)、視覺-語言。
其余兩位作者也均為華人,分別是Dongxu Li和Caiming Xiong。
論文地址:
https://arxiv.org/abs/2201.12086
試玩地址:
https://huggingface.co/spaces/akhaliq/BLIP
GitHub地址:
https://github.com/salesforce/BLIP
- 4o-mini華人領(lǐng)隊也離職了,這次不怪小扎2025-08-19
- 宇樹機器人“撞人逃逸”火到國外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11