一個算法模型搞定千萬種場景,人工智能領(lǐng)域出現(xiàn)一匹黑馬
可零數(shù)據(jù)啟動、小樣本調(diào)優(yōu)的預(yù)訓(xùn)練大模型
明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
不知不覺,AI技術(shù)的滲透,已經(jīng)開始超出人們的想象。
去醫(yī)院照個CT,都有AI作為雙重保障,通過視頻畫面動作識別,確定病人在進(jìn)入機(jī)器前已經(jīng)得到有效保護(hù)。
還有流水線產(chǎn)品是否有瑕疵,公共場所人們是否戴了口罩,工人是否佩戴安全帽、后廚是否達(dá)到“明廚亮灶”、應(yīng)急通道是否有違停車輛等生產(chǎn)、生活中常見的場景,也都已經(jīng)在用AI來識別檢測了。
更讓人意想不到的是,如上千差萬別的場景,可以只用一個預(yù)訓(xùn)練大模型來搞定。
而且不用收集大量樣本數(shù)據(jù)集,零數(shù)據(jù)即可啟動、小樣本就能調(diào)優(yōu)。
僅需半個月,就可以完成模型訓(xùn)練并投入使用。
要知道,在傳統(tǒng)算法訓(xùn)練模式下,一般是“一套算法對應(yīng)一個場景”,換個識別對象,就需要重頭收集樣本數(shù)據(jù)、開發(fā)訓(xùn)練了。
這就導(dǎo)致一套算法上線,往往是幾個月的長戰(zhàn)線模式,背后需要投入很高的人力物力成本。
而在數(shù)字化改革的浪潮下,千行百業(yè)涌現(xiàn)出越來越多的細(xì)小場景,傳統(tǒng)“一套算法對應(yīng)一個場景”的算法訓(xùn)練模式遇到前所未有的挑戰(zhàn)。
在此需求和背景下,用一個算法模型就能解決所有場景問題無疑是一劑解決問題的良方,那到底是誰率先拿出了可以“單挑”1000萬個場景組合的預(yù)訓(xùn)練大模型?
又為什么會在此刻走入我們的視野?
AI 2.0時代開啟,行業(yè)玩家技術(shù)路線已備好
這可以從基礎(chǔ)設(shè)施、行業(yè)需求兩個方面來解答。
首先在基礎(chǔ)設(shè)施上,我國構(gòu)建的視頻大數(shù)據(jù)系統(tǒng)經(jīng)比較完善。
目前,全國幾億臺攝像設(shè)備,可以構(gòu)成一個空前巨大的視頻大數(shù)據(jù)庫。
但是這些設(shè)備中,僅有20%是智能的。
這意味著收集到的海量數(shù)據(jù),實(shí)際被應(yīng)用的并不多。
而且其中的大部分算法,都集中在人臉識別、車牌識別等高頻應(yīng)用場景上。
在低頻場景中能識別的對象非常少,準(zhǔn)確性也不夠高。
與此同時,當(dāng)AI發(fā)展步入深水區(qū)后,各行各業(yè)對于視覺識別的需求越來越高,碎片化場景扎堆涌現(xiàn)。
也就是第二方面影響因素——行業(yè)需求。
正如開頭提到的諸多場景,如后廚、CT室、施工現(xiàn)場等,在數(shù)字化浪潮的驅(qū)動下,這些細(xì)小場景也都迫切尋求智能化支持,它們共同組成了一個占比80%的長尾場景。
問題在于,這些細(xì)小場景自身特點(diǎn)鮮明,很難用一個訓(xùn)練好的算法一網(wǎng)打盡。
比如后廚需要識別灶臺上東西的擺放是否正確,工地則需要識別工人是否佩戴安全帽。在識別對象類型、物體屬性、關(guān)系和行為上,這兩個場景幾乎沒有共同之處。
如果使用傳統(tǒng)的“煙囪式”算法平臺呢?
可行性并不高。
可以用城市管理的場景舉例說明。
它最大的特點(diǎn)就是碎片化,從馬路牙子是否有破損、樹木是否倒伏、車輛是否違停到窨井蓋是否缺失等,幾乎場景內(nèi)每一個點(diǎn),都是一個定制化需求。
如果使用傳統(tǒng)算法模式,算法廠商需要根據(jù)每一個點(diǎn)來設(shè)計(jì)算法,單個算法的費(fèi)用可能就會高達(dá)幾十萬。
而且還需要需求方自己去采集樣本圖片包,采集量少則幾千,多則幾萬張。
然后算法公司才能拿著這些圖片去訓(xùn)練算法,整個開發(fā)周期可能長達(dá)幾個月,最后才能實(shí)現(xiàn)交付。
假如訓(xùn)練出的算法不夠好,還要繼續(xù)再次進(jìn)行迭代,可能又要等一個多月的時間才能再次交付。
這樣的時間成本、金錢成本,客戶是難以承擔(dān)的。
但與此同時,當(dāng)AI發(fā)展步入深水區(qū)后,各行各業(yè)對于視覺識別的需求越來越高,碎片化場景在扎堆涌現(xiàn)。
顯然要解決這樣的碎片化場景的應(yīng)用,必須要尋找一條新的技術(shù)路線。
在這樣的背景下,預(yù)訓(xùn)練大模型技術(shù)橫空出世。
預(yù)訓(xùn)練大模型從根本上改變了人工智能的技術(shù)邏輯,意味著“作坊式”模式的終結(jié),“AI工業(yè)化”模式的到來,是開啟人工智能2.0時代的具有里程碑意義的技術(shù)變革!
人工智能1.0 時代,對每一個識別的場景(目標(biāo))都要訓(xùn)練一個對應(yīng)的算法模型,每個模型的訓(xùn)練都要有大量的樣本并標(biāo)注,也就是“一套算法對應(yīng)一個場景”。
人工智能2.0時代,通過海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練形成一個具有通識能力的大模型,以“大規(guī)模預(yù)訓(xùn)練﹢微調(diào)”范式滿足多元化需求,也就是“1個模型適用N個場景”。
去年,隨著美國Open-AI 公司的GPT-3預(yù)訓(xùn)練大模型的發(fā)布,海量數(shù)據(jù)預(yù)訓(xùn)練對算法能力的提升肉眼可見,從而在人工智能領(lǐng)域掀起一股熱潮,儼然成為一個新的賽道。
聯(lián)匯科技,從預(yù)訓(xùn)練大模型賽道上跑出來的一匹黑馬。
聯(lián)匯科技是國內(nèi)最早自主研發(fā)大規(guī)模預(yù)訓(xùn)練算法模型的公司之一。
同時聯(lián)匯科技還發(fā)布了首款基于視覺語言預(yù)訓(xùn)練大模型的OmVision視覺認(rèn)知平臺,為視覺智能產(chǎn)業(yè)提供了全新的AI視覺認(rèn)知基礎(chǔ)工具平臺。
OmModel——業(yè)界領(lǐng)先的多模態(tài)預(yù)訓(xùn)練大模型
OmModel是業(yè)界領(lǐng)先的多模態(tài)預(yù)訓(xùn)練大模型。
它通過大規(guī)模自監(jiān)督學(xué)習(xí)的多模態(tài)人工智能算法,融合語言和視覺模態(tài)理解,完成基于行業(yè)的億級圖片、萬級視頻、十億級圖文大規(guī)模預(yù)訓(xùn)練,實(shí)現(xiàn)用更小的標(biāo)注樣本數(shù)量,融合更多的模態(tài)信息,獲得更為精準(zhǔn)的視覺AI模型,從而實(shí)現(xiàn)了本文開頭描述的一個模型應(yīng)對千萬種場景的超強(qiáng)能力。
OmModel預(yù)訓(xùn)練大模型提供了具有超強(qiáng)通識能力的解決方案,以“預(yù)訓(xùn)練大模型+下游任務(wù)微調(diào)”的方式,有效地從大量標(biāo)記和未標(biāo)記的數(shù)據(jù)中捕獲知識,解決模型通用性差的問題,極大地?cái)U(kuò)展了模型的泛化能力,使模型更加“融會貫通”、“舉一反三”。
同時,隨著數(shù)據(jù)規(guī)模和模型規(guī)模的不斷增大,模型精度也將得到進(jìn)一步提升。
聯(lián)匯科技首席科學(xué)家趙天成博士表示:
高門檻、高成本一直是人工智能產(chǎn)業(yè)化落地的最大障礙。
而人工智能的最終目的是要能為百行千業(yè)賦能,這就要求人工智能的應(yīng)用落地門檻要足夠低,成本也要控制在合適的范圍內(nèi)。
現(xiàn)在我們找到了解決這個問題的鑰匙,就是通過預(yù)訓(xùn)練大模型,重新定義算法的生產(chǎn)流程,用一個算法模型搞定千萬種場景,解決大量碎片化應(yīng)用場景的問題,讓人工智能更易用,實(shí)現(xiàn)真正的普惠AI,用“普惠AI+行業(yè)”的融合創(chuàng)新賦能更多企業(yè)與用戶。
OmModel預(yù)訓(xùn)練大模型是預(yù)先用海量多模態(tài)數(shù)據(jù),通過自監(jiān)督訓(xùn)練出一個對生活中大多數(shù)人、物、行為、屬性等具有強(qiáng)大通識認(rèn)知能力的認(rèn)知模型。
OmModel預(yù)訓(xùn)練大模型目前具有20000多種目標(biāo)、300多種屬性、200多種行為的強(qiáng)大通識能力,到年底更可以達(dá)到50000多種識別目標(biāo)。
而且它還具有強(qiáng)大的文字語言理解能力,我們可以通過文字描述,對擬識別的場景進(jìn)行定義,通過目標(biāo)、屬性、行為三要素的靈活搭配組合,就可以生成千萬種不同功能的算法應(yīng)用;徹底打破了傳統(tǒng)視覺識別算法“樣本采集、樣本標(biāo)注、訓(xùn)練調(diào)參”的生產(chǎn)模式。
比如在城市管理的場景下,OmModel可以自動識別道路上幾乎一切對象,樹木、人、自行車、人的動作等都能搞定。
當(dāng)我們要生成一個算法的時候,只要輸入相應(yīng)的文字描述即可。
如“騎自行車的男人”或者“道路上的垃圾”就可以馬上生成相應(yīng)的算法。
而且,用預(yù)訓(xùn)練大模型,能夠通過更少的參數(shù)量,實(shí)現(xiàn)和行業(yè)知名大模型同等或者更好的性能。
平均算法模型的識別精準(zhǔn)度可以提高40%,而訓(xùn)練數(shù)據(jù)量可以降低90%。
開發(fā)周期由平均幾個月縮短為幾天,還可以擁有更快的推理速度,從而有效覆蓋大量長尾應(yīng)用場景。
OmModel技術(shù)的落地載體:OmVision視覺認(rèn)知平臺
趙天成博士告訴量子位:
基于OmModel預(yù)訓(xùn)練大模型技術(shù),我們還進(jìn)一步開發(fā)了OmVision視覺認(rèn)知平臺,OmVision是一個全新概念的‘0樣本、0基礎(chǔ)、0代碼’的機(jī)器視覺基礎(chǔ)軟件工具平臺,一般技術(shù)人員都可以用這個平臺,來生產(chǎn)和運(yùn)行視覺算法。
一般意義上的算法生產(chǎn)都是要由算法工程師來完成的,但由于算法的實(shí)際應(yīng)用場景涉及千行百業(yè),算法工程師對現(xiàn)場的需求理解往往不到位,造成了生產(chǎn)算法的不懂業(yè)務(wù),懂業(yè)務(wù)的一線人員不懂算法的“死結(jié)”。
因此理想的辦法最好是降低算法生產(chǎn)的專業(yè)技術(shù)門檻,讓各個行業(yè)的一線人員自己來生產(chǎn)算法,從而徹底打開這個“結(jié)”。
OmVision視覺認(rèn)知平臺正是基于這一思路的大膽嘗試。
OmVision視覺認(rèn)知平臺,徹底顛覆了傳統(tǒng)“算法生產(chǎn)”和“算法應(yīng)用”分離的方式,首次提出了“算法來自應(yīng)用”的理念,重新定義了算法生產(chǎn)“三部曲”策略。
- 第一、0樣本冷啟動。
- 第二、小樣本訓(xùn)練。
- 第三、線上調(diào)優(yōu)。
具體來看,OmVision平臺可分為Om Studio和OmVision OS兩個部分。
OmVision Studio算法工廠是算法生產(chǎn)系統(tǒng),提供基于預(yù)訓(xùn)練大模型的算法訓(xùn)練SaaS服務(wù),為企業(yè)客戶可提供低門檻的算法生產(chǎn)工具,該部分主要負(fù)責(zé)“三步曲”策略中的0樣本冷啟動和小樣本訓(xùn)練。
讓普通工程師免代碼訓(xùn)練復(fù)雜算法,像樂高搭積木一樣在工廠中按需搭建功能
OmVision OS是基于預(yù)訓(xùn)練大模型的視覺操作系統(tǒng),實(shí)現(xiàn)算法的個性化線上調(diào)優(yōu),以及多場景視覺協(xié)同預(yù)測,并根據(jù)算法的需要,靈活高效地調(diào)度GPU算力資源,構(gòu)建起高性能視覺識別運(yùn)行平臺,滿足業(yè)務(wù)的需求。
簡單理解,它能夠讓每個攝像設(shè)備都擁有智慧大腦,可以根據(jù)場景協(xié)同預(yù)測。
“三部曲”中的線上調(diào)優(yōu),主要就是通過這一系統(tǒng)完成。
它能依托大模型的通識能力,對每一路視頻流信號進(jìn)行協(xié)同判斷和識別,極大提高算法的環(huán)境抗干擾能力。
還能根據(jù)實(shí)際場景對算法進(jìn)行可持續(xù)的、針對性環(huán)境調(diào)優(yōu)迭代,實(shí)現(xiàn)“用得越久、精度越高”。
同時,由于每個算法應(yīng)用均基于大模型的認(rèn)知能力,因此在OS上對每路流增加算法數(shù)量時,不會明顯增加GPU資源消耗,可大幅度降低算法運(yùn)行的算力成本。
部署方面,系統(tǒng)支持云端部署、彈性擴(kuò)容、效果可視,支持視頻接入標(biāo)準(zhǔn)、算法兼容標(biāo)準(zhǔn)、告警輸出標(biāo)準(zhǔn)、交付驗(yàn)收標(biāo)準(zhǔn)“四個標(biāo)準(zhǔn)”,與第三方廠商視頻云、算法服務(wù)低代碼快速對接,實(shí)現(xiàn)和視頻匯聚平臺的有效融合。
那么這個OmVision到底憑什么實(shí)現(xiàn)了如此好的性能?其幕后打造者又是誰?
90后CMU科學(xué)家在杭州煉出OmVision
而該系統(tǒng)高效靈活開發(fā)應(yīng)用部署的背后,離不開一個組合——
90后CMU博士+行業(yè)資深廠商。
這里提到的廠商,是誕生于杭州的聯(lián)匯科技。
或許名字看上去并不熟悉,但它其實(shí)從十多年前就開始深入音視頻分析與處理行業(yè),是業(yè)內(nèi)經(jīng)驗(yàn)豐富的資深玩家。
90后CMU博士趙天成,為聯(lián)匯科技的首席科學(xué)家。
他曾多次擔(dān)任國際頂尖會議和期刊的審稿人和區(qū)域主席,在國際頂級會議和期刊上發(fā)表論文30余篇,多次獲得最佳論文獎,并且2018年獲得微軟研究院Best & Brightest PhD榮譽(yù)。
2019年,他于卡耐基梅隆大學(xué)獲得計(jì)算機(jī)博士學(xué)位。
畢業(yè)回國后,他便作為牽頭人,開啟了OmModel預(yù)訓(xùn)練大模型的研發(fā)工作。
實(shí)際上,OmModel預(yù)訓(xùn)練大模型的誕生,與趙天成博士個人在學(xué)界、產(chǎn)業(yè)界多年的觀察有著千絲萬縷關(guān)系。
要知道OmModel的籌備,最早可以追溯到2019年。
那一年BERT剛剛提出,學(xué)術(shù)界大佬們都在專注實(shí)現(xiàn)更強(qiáng)自然語言理解能力的語言大模型研究。
而這時的趙天成已經(jīng)意識到,預(yù)訓(xùn)練大模型,或許不必局限于一種數(shù)據(jù)模態(tài)類型,而且大模型帶來的影響力也遠(yuǎn)遠(yuǎn)不止自然語言處理的突破,
作為多模態(tài)與人機(jī)交互領(lǐng)域的資深學(xué)者,他想到這一點(diǎn)其實(shí)并不稀奇。
早在2016年,趙天成同導(dǎo)師Maxine Eskenazi教授發(fā)表的《Towards end-to-end learning for dialog state tracking and management using deep reinforcement learning》是最早利用深度學(xué)習(xí)打通自然語言模態(tài)與數(shù)據(jù)庫模態(tài)的工作之一,當(dāng)年獲得最佳論文獎。
2018年后,他便開始接觸視覺語言預(yù)訓(xùn)練大模型方面的研究,提出了包括多模態(tài)視覺對話系統(tǒng)、大規(guī)模稀疏向量視覺語言匹配算法等一系列成果。
后面隨著大模型風(fēng)潮逐漸興起,趙天成意識到,如果將自然語言與視覺理解結(jié)合起來,那將顛覆以往計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用方式,讓AI 機(jī)器視覺從視覺感知邁向視覺認(rèn)知。
這是我們看到的一個巨大機(jī)會。
趙天成想到:一旦實(shí)現(xiàn)了視覺認(rèn)知能力,讓機(jī)器像人一樣擁有了認(rèn)知萬事萬物的能力,并能用文字語言來定義和關(guān)聯(lián)視覺場景,就能解決我們現(xiàn)在的很多問題。
比如怎樣在一萬個小時的新聞聯(lián)播素材中,找到撒貝寧在天安門前采訪群眾的片段?
怎么從攝像頭實(shí)時視頻信號中,快速定義需要識別的目標(biāo)?
要實(shí)現(xiàn)這樣的視覺認(rèn)知能力,就需要用海量音、視、圖、文等多模態(tài)數(shù)據(jù)來進(jìn)行訓(xùn)練,構(gòu)建一個大規(guī)模多模態(tài)預(yù)訓(xùn)練模型。
順著這樣的思路,趙天成率領(lǐng)團(tuán)隊(duì)開始了多模態(tài)數(shù)據(jù)分析算法的研究。聯(lián)匯科技的OmModel視覺語言預(yù)訓(xùn)練大模型,也在這樣的契機(jī)下應(yīng)運(yùn)而生。
走在人工智能2.0變革前列
當(dāng)前,我們正處于人工智能從1.0時代邁向2.0時代的關(guān)鍵時代轉(zhuǎn)折點(diǎn)。
OmModel預(yù)訓(xùn)練大模型在數(shù)字安防、工業(yè)視覺、自動駕駛、醫(yī)學(xué)影像、虛擬現(xiàn)實(shí)、新一代視頻會議終端、數(shù)字文娛等場景的圓滿落地,構(gòu)成了OmModel豐富的應(yīng)用層。
隨著機(jī)器視覺等更多關(guān)鍵核心技術(shù)突破和特定應(yīng)用場景融合加速,在城市大腦、智能制造、智能家居、智慧交通、智慧旅游、智慧教育等領(lǐng)域的泛在通用場景的規(guī)模化落地,也只是時間問題。
聯(lián)匯用低成本、零門檻的方案,為行業(yè)內(nèi)許多中小企業(yè)提供智能化升級的方案,使得人機(jī)通力合作模式深入到千行百業(yè)中去,讓技術(shù)變得更為普適。
由此也就不難理解,為什么聯(lián)匯科技會跑在人工智能2.0時代的前列。
在和趙天成博士的交流中,他表示AI需要進(jìn)化,也需要普惠,我們通過技術(shù)和產(chǎn)品讓人工智能2.0更易用,讓“AI+行業(yè)”的融合創(chuàng)新賦能更多企業(yè)與用戶。
每一次AI技術(shù)與應(yīng)用的精進(jìn),都由“破風(fēng)者”帶動。
自主、完善、富有韌性的產(chǎn)業(yè)生態(tài),更加需要企業(yè)自主發(fā)揮能力,走在行業(yè)的最前沿,去面對技術(shù)無人區(qū)的挑戰(zhàn)和商業(yè)價值的兌現(xiàn)。
人工智能產(chǎn)業(yè)更是如此。
對于人工智能2.0的未來,趙天成博士表示:
技術(shù)的價值是讓每一個行業(yè)、每一個企業(yè)都能受惠于技術(shù)的美好,人工智能是源自技術(shù)底層的賦能,我們在做的事情是讓AI無處不在,以更具溫度的力量去理解、去重構(gòu)、去進(jìn)步。
- 4o-mini華人領(lǐng)隊(duì)也離職了,這次不怪小扎2025-08-19
- 宇樹機(jī)器人“撞人逃逸”火到國外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進(jìn)化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11