全面覆蓋CV任務(wù)!這個國產(chǎn)“書生”只學(xué)10%內(nèi)容,性能就超越同行
而且馬上就要開源了!
邊策 金磊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
河邊有個AI攝像頭可以檢測偷排污水,能不能順手讓它幫個忙,有人掉河里時也發(fā)個警告?
很難。
這要求有更通用的智能,因為對AI來說這是兩個完全不同的任務(wù)。況且,可用的數(shù)據(jù)很少。
得有大量人掉河里的數(shù)據(jù)。可惜素材并不好找。難道讓程序員親自“跳進(jìn)污水河”來構(gòu)建一個數(shù)據(jù)集?
一個看似簡單的附加小需求,實則很難且成本很高。
而這就是當(dāng)下要突破的核心瓶頸:
具備零樣本和少樣本學(xué)習(xí)能力的全能AI勢在必行。
自然語言領(lǐng)域首先邁出了第一步,GPT-3讓我們看到在海量數(shù)據(jù)下AI舉一反三的能力。
現(xiàn)在計算機(jī)視覺領(lǐng)域也迎來了一次“變天”。
繼通用語言模型的巨大成功之后,在“大力出奇跡”這件事情上,搞計算機(jī)視覺的也邁出了這樣的重要一步。
上海人工智能實驗室聯(lián)合商湯科技、香港中文大學(xué)、上海交通大學(xué)共同發(fā)布了通用視覺模型(General Vision Model)“書生”(INTERN)。
這位“書生”的學(xué)習(xí)效率有多高呢?
據(jù)透露,只要“書生”看過每種花的一兩個樣本,就能實現(xiàn)99.7%的花卉分類準(zhǔn)確率。
也就是說,在開頭那個問題中,只要城市的安防攝像頭捕捉到一次意外事故,今后AI就可以做到識別和預(yù)警。
背負(fù)猜想能力“書生”
從通用視覺技術(shù)體系的名字來看,團(tuán)隊將其命名為“書生”背后有著這樣的一個希冀:
可通過持續(xù)學(xué)習(xí),舉一反三,逐步實現(xiàn)計算機(jī)視覺領(lǐng)域的融會貫通,最終實現(xiàn)靈活高效的模型部署。
而現(xiàn)實情況是,過去的CV領(lǐng)域?qū)I模型的研究多集中于處理單一任務(wù)上。
但是隨著AI技術(shù)在產(chǎn)業(yè)中的不斷深化,AI的應(yīng)用也在向復(fù)雜的多任務(wù)協(xié)同演進(jìn)。
以自動駕駛為例,一套視覺模型要識別各個物體的種類,還要預(yù)測障礙物距離、行人可能的運(yùn)動軌跡。
無論如何,這都是單一視覺模型無法完成的。
同時AI模型還有很多無法顧及的長尾、碎片場景。
舉個例子:
某工廠生產(chǎn)線引入AI質(zhì)量檢測技術(shù),希望用攝像頭代替肉眼檢測次品。但是如果產(chǎn)線的良品率非常高,那么只有極少數(shù)次品。
我們都知道,一般AI模型在數(shù)據(jù)不足的情況下,會導(dǎo)致訓(xùn)練不足,錯誤率高。在這種情況下,AI模型很難達(dá)到很難部署到產(chǎn)線上。
過去的做法是開發(fā)特定模型用于不同這類特殊碎場景,AI的應(yīng)用成了專家才能參與的“作坊式”開發(fā)。
如果有一個通用AI模型,只需針對不同環(huán)境做微調(diào),就能立即適應(yīng),便可以擺脫“作坊式”開發(fā)的低效率模式。
通用視覺模型“書生”應(yīng)運(yùn)而生,它已經(jīng)在訓(xùn)練階段“吃進(jìn)”大量數(shù)據(jù)成為通才,只需要看到少量樣本,就具備了“舉一反三”的能力。
在自動駕駛、智能制造、智慧城市中還有很多類似的“長尾”場景,它們的共同點(diǎn)都是數(shù)據(jù)獲取通常困難且昂貴。
通用視覺“書生”為打破了AI在以上場景中應(yīng)用提供了可能。
而且從實驗結(jié)果來看,“書生”的路數(shù)也在印證這種方式的正確性。
它能夠同時解決圖像分類、目標(biāo)檢測、語義分割、深度估計四大任務(wù),而且做到樣樣精通。
例如與當(dāng)今最強(qiáng)的開源通用模型CLIP相比,在CV領(lǐng)域的四大任務(wù)26個數(shù)據(jù)集上,“書生”的平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。
和CLIP一樣,“書生”也需要強(qiáng)大算力作為支撐, SenseCore商湯AI大裝置恰好派上用場。
今年商湯宣布在上海臨港的AIDC投入運(yùn)營,這是目前亞洲最大的人工智能算力中心,僅僅是商湯AI大裝置的一部分。
在商湯CEO徐立看來,AI大裝置是推動機(jī)器猜想的一個基礎(chǔ)要素。那么“書生”則是在此基礎(chǔ)上背負(fù)商湯“猜想”能力的具體實現(xiàn)。
通才“書生”是怎么煉成的?
整體而言,“書生”這個視覺通用體系包含七大模塊——三個基礎(chǔ)設(shè)施模塊和四個訓(xùn)練階段模塊。
其中,三個基礎(chǔ)設(shè)施模塊分別為:
- 通用視覺數(shù)據(jù)系統(tǒng)
- 通用視覺網(wǎng)絡(luò)結(jié)構(gòu)
- 通用視覺評測基準(zhǔn)
它們?nèi)齻€就像是“藏經(jīng)閣”一樣,奠定了在通往通才道路上海量知識和建模等能力的基礎(chǔ)。
例如通用視覺數(shù)據(jù)系統(tǒng)就包含了一個超大規(guī)模視覺數(shù)據(jù)集,擁有100億個樣本和各種監(jiān)督信號。
它還提出了一個廣泛的標(biāo)簽系統(tǒng),包括11.9萬個視覺概念,可以說是涵蓋了自然界的眾多領(lǐng)域和目前計算機(jī)視覺研究中的幾乎所有標(biāo)簽。
通用視覺網(wǎng)絡(luò)結(jié)構(gòu),則提供了強(qiáng)悍的建模能力。
具體而言,它是由一個具有卷積和Transformer運(yùn)算符的統(tǒng)一搜索空間構(gòu)建而成。
通用視覺評測基準(zhǔn)就像是一個“擂臺”,收集了4種類型共26個下游任務(wù)。
在此基礎(chǔ)上,讓“書生”產(chǎn)生的模型和已公布的預(yù)訓(xùn)練模型同臺競技。
并且這個“擂臺”還引入了百分比樣本(percentage-shot)的設(shè)置,如此一來,下游任務(wù)訓(xùn)練數(shù)據(jù)被壓縮的同時,還可以很好地保留原始數(shù)據(jù)集的長尾分布等屬性。
但也正如剛才提到的,除了基礎(chǔ)設(shè)施模塊之外,“書生”還有四個訓(xùn)練階段模塊。
而這條路徑所采取的是一種階梯式學(xué)習(xí)的方法。
其中,前三個訓(xùn)練階段是屬于技術(shù)鏈條的上游,主要的發(fā)力點(diǎn)是在表征通用性方面。
它們分別叫做基礎(chǔ)模型(Amateur)、專家模型(Expert)和通才模型(Generalist)。
在基礎(chǔ)模型階段,如其名,要做的事情就是讓“書生”打下廣泛且良好的基礎(chǔ)。
具體而言,它是一個獲取基礎(chǔ)模型的多模態(tài)預(yù)訓(xùn)練階段,也就是同時使用來自圖像-文本、圖像-圖像和文本-文本對的監(jiān)督信號來訓(xùn)練任務(wù),并診斷模型。
而在基礎(chǔ)模型階段“歷練”后得到的輸出,將作為下一階段,即專家模型的初始化輸入。
專家模型要培養(yǎng)的是“書生”的專家能力,也就是讓多個專家模型各自學(xué)習(xí)某一領(lǐng)域的專業(yè)知識。
主要是通過多源監(jiān)督(multi-source supervisions)的方式,來積累某個類型任務(wù)中的專業(yè)知識。
值得一提的是,在這個過程中每位專家只關(guān)注自己的專業(yè),不干擾“其他人”的學(xué)習(xí)。
上游的第三個階段,便是通才模型。
它是一個組合式的預(yù)訓(xùn)練階段,這個階段的結(jié)果就是產(chǎn)出一個通用模型。
這個模型整合了專家的知識,并生成能夠處理任何已知或未知任務(wù)通用表示的最終形式。
在經(jīng)歷了前三個訓(xùn)練階段模塊后,便來到了最后的泛化模型 (Adaptation)。
這個階段屬于技術(shù)鏈條的下游,用來解決各式各樣不同類型的任務(wù)。
而這也是最考驗“書生”舉一反三能力的時刻。
換言之,它需要在這個階段把之前學(xué)到的通用知識,融會貫通地應(yīng)用到特定的不同任務(wù)中去。
以上便是“書生”這個通用視覺技術(shù)體系完整的一套流程,它的全景如下圖所示:
總而言之,在“書生”煉成之后,便是有了一種“兵來將擋”的味道了。
無論是面對智慧城市、智慧醫(yī)療、自動駕駛,亦或是未知領(lǐng)域,“書生”都能以專家的實力來迎刃而解。
像“書生”這樣實現(xiàn)以一個模型完成成百上千種任務(wù)的新范式,體系化解決人工智能發(fā)展中數(shù)據(jù)、泛化、認(rèn)知和安全等諸多瓶頸問題。
而這只是“書生”在算法層面上的煉就功法,但對于大模型來說,算力也是非常重要且必要的硬性要求。
這就不得提到商湯早在數(shù)月前發(fā)布的SenseCore AI大裝置。
它可以說是商湯引擎的底層架構(gòu)了,可以類比為整個引擎夯實有力的地基。
具體而言,先從算力角度來看,商湯通過結(jié)合AI芯片以及AI傳感器,構(gòu)建了亞洲最大的人工智能智算中心(AIDC)。
這個AIDC的計算峰值可以達(dá)到3740Petaflops (1 petaflop等于每秒1千萬億次浮點(diǎn)運(yùn)算),相當(dāng)于一天處理時長達(dá)到23600萬年!
除此之外,從平臺角度來看,AI大裝置打通了從數(shù)據(jù)處理、模型生產(chǎn)、模型訓(xùn)練、高性能推理運(yùn)算,以及模型部署等等各個環(huán)節(jié)。
而且不同于其它廠商采用開源工具,商湯這“一整套”都是自研的,具備更強(qiáng)的適配性,更利于模型的部署和應(yīng)用。
如此一來,在算法、算力、平臺“三位一體”之下,便可明顯區(qū)別于“小作坊式”的模型打造方式了。
但畢竟常言道學(xué)無止境,那么已經(jīng)具備如此實力的“書生”,還能通過怎樣的方式來提高自己呢?
“書生”還要加碼開源的力量
從人工智能技術(shù)發(fā)展的歷史長河來看,多數(shù)主流AI工具都具備一個共性——開源。
開源的力量可以說是不言而喻了,越開放、越分享,就會越發(fā)讓AI工具具備活力。
而這,也是“書生”要做的一件事情:
基于“書生”的通用視覺開源平臺OpenGVLab也將在明年年初正式開源。
更具體的,上海人工智能實驗室聯(lián)合商湯要將向?qū)W術(shù)界和產(chǎn)業(yè)界公開的不僅僅是預(yù)訓(xùn)練模型,還包括它的使用范式、數(shù)據(jù)系統(tǒng)和評測基準(zhǔn)等。
但“書生”的開源布局圖還不止于自身。
OpenGVLab將與上海人工智能實驗室此前發(fā)布的OpenMMLab 、OpenDILab一道,共同構(gòu)筑開源體系OpenXLab。
其背后所要實現(xiàn)的目的,就如商湯所說的,持續(xù)推進(jìn)通用人工智能的技術(shù)突破和生態(tài)構(gòu)建。
從涉足領(lǐng)域來看,這個生態(tài)里,應(yīng)該包括了智慧城市、智慧醫(yī)療,也包括了自動駕駛和智能交通……
開源的“書生”,仗劍變革,前景廣闊。
論文地址:
https://arxiv.org/abs/2111.08687
- 商湯林達(dá)華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08