萬(wàn)億大模型究竟怎么用?達(dá)摩院&浙大&上海人工智能實(shí)驗(yàn)室聯(lián)手推出洛犀平臺(tái):大小模型端云協(xié)同進(jìn)化
須彌藏芥子,芥子納須彌
魚羊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
AI領(lǐng)域這股大模型之風(fēng),可謂是席卷全球,越吹越勁。
單說(shuō)2021年下半年,前有微軟英偉達(dá)聯(lián)手推出5300億參數(shù)NLP模型,后又見(jiàn)阿里達(dá)摩院一口氣將通用預(yù)訓(xùn)練模型參數(shù)推高至10萬(wàn)億。
而就在最近,扎克伯格還宣布要豪砸16000塊英偉達(dá)A100,搞出全球最快超級(jí)計(jì)算機(jī),就為訓(xùn)練萬(wàn)億參數(shù)級(jí)大模型。
大模型正當(dāng)其道,莫非小模型就沒(méi)啥搞頭了?
就在“中國(guó)工程院院刊:信息領(lǐng)域青年學(xué)術(shù)前沿論壇”上,阿里巴巴達(dá)摩院、上海浙江大學(xué)高等研究院、上海人工智能實(shí)驗(yàn)室聯(lián)手給出了一個(gè)新的答案:
須彌藏芥子,芥子納須彌。
大小模型協(xié)同進(jìn)化,才能充分利用大模型應(yīng)用潛力,構(gòu)建新一代人工智能體系。
此話怎講?
這就得先說(shuō)說(shuō)大模型“軍備競(jìng)賽”背后的現(xiàn)實(shí)困境了。
大小模型協(xié)同進(jìn)化
核心問(wèn)題總結(jié)起來(lái)很簡(jiǎn)單,就是大模型到底該怎么落地?
參數(shù)規(guī)模百億、千億,乃至萬(wàn)億的大模型們,固然是語(yǔ)言能力、創(chuàng)作能力全面開(kāi)花,但真想被部署到實(shí)際的業(yè)務(wù)當(dāng)中,卻面臨著能耗和性能平衡的難題。
說(shuō)白了,就是參數(shù)量競(jìng)相增長(zhǎng)的大模型們,規(guī)模太過(guò)龐大,很難真正在手機(jī)、汽車等端側(cè)設(shè)備上被部署應(yīng)用——
要知道,1750億參數(shù)的GPT-3,模型大小已經(jīng)超過(guò)了700G。
達(dá)摩院2022年十大科技趨勢(shì)報(bào)告中也提到,在經(jīng)歷了一整年的參數(shù)競(jìng)賽模式之后,在新的一年,大模型的規(guī)模發(fā)展將進(jìn)入冷靜期。
不過(guò)在這個(gè)“陣痛期”,倒也并非沒(méi)有人試吃“大模型工業(yè)化應(yīng)用”這只螃蟹。
比如,支付寶搜索框背后,已經(jīng)試點(diǎn)集成業(yè)界首個(gè)落地的端上預(yù)訓(xùn)練模型。
當(dāng)然,不是把大模型強(qiáng)行塞進(jìn)手機(jī)里——
來(lái)自阿里巴巴達(dá)摩院、上海浙江大學(xué)高等研究院、上海人工智能實(shí)驗(yàn)室的聯(lián)合研究團(tuán)隊(duì),通過(guò)蒸餾壓縮和參數(shù)共享等技術(shù)手段,將3.4億參數(shù)的M6模型壓縮到了百萬(wàn)參數(shù),以大模型1/30的規(guī)模,保留了大模型90%以上的性能。
具體而言,壓縮后的M6小模型大小僅為10MB,與開(kāi)源的16M ALBERT-zh小模型相比,體積減少近40%,并且效果更優(yōu)。難得的是,10MB的M6模型依然具有文本生成能力。
在移動(dòng)端排序模型部署方面,這支研究團(tuán)隊(duì)同樣有所嘗試。
主流的模型壓縮、蒸餾、量化或參數(shù)共享,通常會(huì)使得到的小模型損失較大精度。
該團(tuán)隊(duì)發(fā)現(xiàn),把云上排序大模型拆分后部署,可形成小于10KB的端側(cè)精細(xì)輕量化子模型,即保證端側(cè)推理精度無(wú)損失,同時(shí)實(shí)現(xiàn)了輕量級(jí)應(yīng)用端側(cè)資源。這也就是端云協(xié)同推理。
在阿里的應(yīng)用場(chǎng)景下,研究團(tuán)隊(duì)基于這樣的協(xié)同推理機(jī)制,結(jié)合表征矩陣壓縮、云端排序打分作為特征、實(shí)時(shí)序列等技術(shù)和信息,構(gòu)建了端重排模型。
該技術(shù)試點(diǎn)部署在支付寶搜索、淘寶相關(guān)應(yīng)用中,取得了較為顯著的推理效果提升,且相關(guān)百模設(shè)計(jì)解決了在不犧牲熱門用戶服務(wù)體驗(yàn)的同時(shí),最大化冷門用戶體驗(yàn)的難題。
從以上的案例中,不難總結(jié)出大模型落地應(yīng)用的一條可行的途徑:
取大模型之精華,化繁為簡(jiǎn),通過(guò)高精度壓縮,將大模型化身為終端可用的小模型。
這樣做的好處,還不只是將大模型的能力釋放到端側(cè),通過(guò)大小模型的端云協(xié)同,小模型還可以向大模型反饋算法與執(zhí)行成效,反過(guò)來(lái)提升云端大模型的認(rèn)知推理能力。
達(dá)摩院、浙大和上海人工智能實(shí)驗(yàn)室,還進(jìn)一步將這一技術(shù)路線總結(jié)為端云協(xié)同AI范式:
云端大模型作為超級(jí)大腦,擁有龐大的先驗(yàn)知識(shí),能進(jìn)行深入的“慢思考”。
而端側(cè)小模型作為四肢,能完成高效的“快思考”和有力執(zhí)行。
兩者共同進(jìn)化,讓AI向具有認(rèn)知力和接近人類水平的智能邁進(jìn)。
基于這樣的思考和實(shí)踐經(jīng)驗(yàn),三方聯(lián)合研究團(tuán)隊(duì)最新推出了端云協(xié)同平臺(tái)洛犀。
該平臺(tái)旨在將端云兩側(cè)的最佳實(shí)踐以文檔、算法組件、平臺(tái)服務(wù)的形式沉淀下來(lái),為開(kāi)發(fā)者提供一站式端云協(xié)同模型訓(xùn)練、部署、通信能力。
具體而言,洛犀平臺(tái)可拆解為端側(cè)、云側(cè)、端云鏈路三部分。
其中,端側(cè)以Python/js package的形式提供服務(wù),稱為L(zhǎng)uoxi-lite,包含表征、文本理解、圖計(jì)算等能力。
端云鏈路側(cè),平臺(tái)提供實(shí)現(xiàn)端云協(xié)同關(guān)鍵的通信能力,包括方案分發(fā)鏈路、數(shù)據(jù)通信鏈路。
端云協(xié)同的模型訓(xùn)練沉淀在云端,稱為L(zhǎng)uoxi-cloud,包含端模型訓(xùn)練等。
目前,除了前文提到的部署于搜索場(chǎng)景的M6模型、排序模型,研究團(tuán)隊(duì)還借助洛犀完成了圖神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等技術(shù)在端云協(xié)同范式下的部署。
值得一提的是,1月12日,洛犀平臺(tái)中云上大模型核心技術(shù)“超大規(guī)模高性能圖神經(jīng)網(wǎng)絡(luò)計(jì)算平臺(tái)及其應(yīng)用”,獲得了2021年中國(guó)電子學(xué)會(huì)科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。
芥子納須彌,加速大模型落地應(yīng)用
說(shuō)了這么多,簡(jiǎn)單總結(jié)一下就是,大模型展現(xiàn)的效果再怎么驚艷,對(duì)于業(yè)界而言,終歸是落地應(yīng)用方為真。
因此,對(duì)于大模型發(fā)展的下一階段來(lái)說(shuō),比拼的將不僅僅是誰(shuí)燒的GPU更多、誰(shuí)的模型參數(shù)規(guī)模更大,更會(huì)是誰(shuí)能把大模型的能力充分應(yīng)用到具體場(chǎng)景之中。
在這個(gè)大模型從拼“規(guī)?!钡狡础奥涞亍钡倪^(guò)渡時(shí)期,達(dá)摩院、浙大、上海人工智能實(shí)驗(yàn)室三方此番提出的“須彌藏芥子、芥子納須彌”的思路,便格外值得關(guān)注。
“龐大的須彌山如何納入極微小的種子中?”
對(duì)于當(dāng)下大模型、小模型的思辨而言,解決了這樣一個(gè)問(wèn)題,也就在充分利用大模型能力、探索下一代人工智能系統(tǒng)的路途上更進(jìn)了一步。
結(jié)合歷史上計(jì)算形態(tài)的變化,隨著物聯(lián)網(wǎng)技術(shù)的爆發(fā),在當(dāng)下,盡管云計(jì)算模式已經(jīng)在通信技術(shù)的加持下得到了進(jìn)一步強(qiáng)化,但本地計(jì)算需求也在指數(shù)級(jí)持續(xù)涌現(xiàn),將全部的計(jì)算和數(shù)據(jù)均交由集中式的云計(jì)算中心來(lái)處理并不符合實(shí)際。
就是說(shuō),發(fā)展既發(fā)揮云計(jì)算優(yōu)勢(shì)、又調(diào)動(dòng)端計(jì)算敏捷性的計(jì)算模式,才是當(dāng)下的需求所在。
也正是在這樣端云協(xié)同的趨勢(shì)之下,大小模型的協(xié)同演進(jìn)有了新的范式可依:云側(cè)有泛化模型,端側(cè)有個(gè)性化模型,兩個(gè)模型相互協(xié)作、學(xué)習(xí)、推理,實(shí)現(xiàn)端云雙向協(xié)同。
而這,正解決了我們?cè)陂_(kāi)頭提到的,大模型落地過(guò)程中面臨的性能與能耗平衡之困。
正如浙江大學(xué)上海高等研究院常務(wù)副院長(zhǎng)吳飛教授所言,從大模型到終端可用的小模型,關(guān)鍵在于“取其精華、化繁為簡(jiǎn)”,實(shí)現(xiàn)高精度壓縮;而在端云協(xié)同框架之下,小模型的實(shí)踐積累對(duì)于大模型而言,將是“集眾智者無(wú)畏于圣人”。
你覺(jué)得呢?
— 完 —
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開(kāi)箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01
- 1.5B參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國(guó)產(chǎn)開(kāi)源之光多模態(tài)統(tǒng)一模型,來(lái)了2025-07-30