萬億大模型究竟怎么用?達(dá)摩院&浙大&上海人工智能實驗室聯(lián)手推出洛犀平臺:大小模型端云協(xié)同進(jìn)化
須彌藏芥子,芥子納須彌
魚羊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
AI領(lǐng)域這股大模型之風(fēng),可謂是席卷全球,越吹越勁。
單說2021年下半年,前有微軟英偉達(dá)聯(lián)手推出5300億參數(shù)NLP模型,后又見阿里達(dá)摩院一口氣將通用預(yù)訓(xùn)練模型參數(shù)推高至10萬億。
而就在最近,扎克伯格還宣布要豪砸16000塊英偉達(dá)A100,搞出全球最快超級計算機,就為訓(xùn)練萬億參數(shù)級大模型。
大模型正當(dāng)其道,莫非小模型就沒啥搞頭了?
就在“中國工程院院刊:信息領(lǐng)域青年學(xué)術(shù)前沿論壇”上,阿里巴巴達(dá)摩院、上海浙江大學(xué)高等研究院、上海人工智能實驗室聯(lián)手給出了一個新的答案:
須彌藏芥子,芥子納須彌。
大小模型協(xié)同進(jìn)化,才能充分利用大模型應(yīng)用潛力,構(gòu)建新一代人工智能體系。
此話怎講?
這就得先說說大模型“軍備競賽”背后的現(xiàn)實困境了。
大小模型協(xié)同進(jìn)化
核心問題總結(jié)起來很簡單,就是大模型到底該怎么落地?
參數(shù)規(guī)模百億、千億,乃至萬億的大模型們,固然是語言能力、創(chuàng)作能力全面開花,但真想被部署到實際的業(yè)務(wù)當(dāng)中,卻面臨著能耗和性能平衡的難題。
說白了,就是參數(shù)量競相增長的大模型們,規(guī)模太過龐大,很難真正在手機、汽車等端側(cè)設(shè)備上被部署應(yīng)用——
要知道,1750億參數(shù)的GPT-3,模型大小已經(jīng)超過了700G。
達(dá)摩院2022年十大科技趨勢報告中也提到,在經(jīng)歷了一整年的參數(shù)競賽模式之后,在新的一年,大模型的規(guī)模發(fā)展將進(jìn)入冷靜期。
不過在這個“陣痛期”,倒也并非沒有人試吃“大模型工業(yè)化應(yīng)用”這只螃蟹。
比如,支付寶搜索框背后,已經(jīng)試點集成業(yè)界首個落地的端上預(yù)訓(xùn)練模型。
當(dāng)然,不是把大模型強行塞進(jìn)手機里——
來自阿里巴巴達(dá)摩院、上海浙江大學(xué)高等研究院、上海人工智能實驗室的聯(lián)合研究團(tuán)隊,通過蒸餾壓縮和參數(shù)共享等技術(shù)手段,將3.4億參數(shù)的M6模型壓縮到了百萬參數(shù),以大模型1/30的規(guī)模,保留了大模型90%以上的性能。
具體而言,壓縮后的M6小模型大小僅為10MB,與開源的16M ALBERT-zh小模型相比,體積減少近40%,并且效果更優(yōu)。難得的是,10MB的M6模型依然具有文本生成能力。
在移動端排序模型部署方面,這支研究團(tuán)隊同樣有所嘗試。
主流的模型壓縮、蒸餾、量化或參數(shù)共享,通常會使得到的小模型損失較大精度。
該團(tuán)隊發(fā)現(xiàn),把云上排序大模型拆分后部署,可形成小于10KB的端側(cè)精細(xì)輕量化子模型,即保證端側(cè)推理精度無損失,同時實現(xiàn)了輕量級應(yīng)用端側(cè)資源。這也就是端云協(xié)同推理。
在阿里的應(yīng)用場景下,研究團(tuán)隊基于這樣的協(xié)同推理機制,結(jié)合表征矩陣壓縮、云端排序打分作為特征、實時序列等技術(shù)和信息,構(gòu)建了端重排模型。
該技術(shù)試點部署在支付寶搜索、淘寶相關(guān)應(yīng)用中,取得了較為顯著的推理效果提升,且相關(guān)百模設(shè)計解決了在不犧牲熱門用戶服務(wù)體驗的同時,最大化冷門用戶體驗的難題。
從以上的案例中,不難總結(jié)出大模型落地應(yīng)用的一條可行的途徑:
取大模型之精華,化繁為簡,通過高精度壓縮,將大模型化身為終端可用的小模型。
這樣做的好處,還不只是將大模型的能力釋放到端側(cè),通過大小模型的端云協(xié)同,小模型還可以向大模型反饋算法與執(zhí)行成效,反過來提升云端大模型的認(rèn)知推理能力。
達(dá)摩院、浙大和上海人工智能實驗室,還進(jìn)一步將這一技術(shù)路線總結(jié)為端云協(xié)同AI范式:
云端大模型作為超級大腦,擁有龐大的先驗知識,能進(jìn)行深入的“慢思考”。
而端側(cè)小模型作為四肢,能完成高效的“快思考”和有力執(zhí)行。
兩者共同進(jìn)化,讓AI向具有認(rèn)知力和接近人類水平的智能邁進(jìn)。
基于這樣的思考和實踐經(jīng)驗,三方聯(lián)合研究團(tuán)隊最新推出了端云協(xié)同平臺洛犀。
該平臺旨在將端云兩側(cè)的最佳實踐以文檔、算法組件、平臺服務(wù)的形式沉淀下來,為開發(fā)者提供一站式端云協(xié)同模型訓(xùn)練、部署、通信能力。
具體而言,洛犀平臺可拆解為端側(cè)、云側(cè)、端云鏈路三部分。
其中,端側(cè)以Python/js package的形式提供服務(wù),稱為Luoxi-lite,包含表征、文本理解、圖計算等能力。
端云鏈路側(cè),平臺提供實現(xiàn)端云協(xié)同關(guān)鍵的通信能力,包括方案分發(fā)鏈路、數(shù)據(jù)通信鏈路。
端云協(xié)同的模型訓(xùn)練沉淀在云端,稱為Luoxi-cloud,包含端模型訓(xùn)練等。
目前,除了前文提到的部署于搜索場景的M6模型、排序模型,研究團(tuán)隊還借助洛犀完成了圖神經(jīng)網(wǎng)絡(luò)、強化學(xué)習(xí)等技術(shù)在端云協(xié)同范式下的部署。
值得一提的是,1月12日,洛犀平臺中云上大模型核心技術(shù)“超大規(guī)模高性能圖神經(jīng)網(wǎng)絡(luò)計算平臺及其應(yīng)用”,獲得了2021年中國電子學(xué)會科學(xué)技術(shù)進(jìn)步獎一等獎。
芥子納須彌,加速大模型落地應(yīng)用
說了這么多,簡單總結(jié)一下就是,大模型展現(xiàn)的效果再怎么驚艷,對于業(yè)界而言,終歸是落地應(yīng)用方為真。
因此,對于大模型發(fā)展的下一階段來說,比拼的將不僅僅是誰燒的GPU更多、誰的模型參數(shù)規(guī)模更大,更會是誰能把大模型的能力充分應(yīng)用到具體場景之中。
在這個大模型從拼“規(guī)?!钡狡础奥涞亍钡倪^渡時期,達(dá)摩院、浙大、上海人工智能實驗室三方此番提出的“須彌藏芥子、芥子納須彌”的思路,便格外值得關(guān)注。
“龐大的須彌山如何納入極微小的種子中?”
對于當(dāng)下大模型、小模型的思辨而言,解決了這樣一個問題,也就在充分利用大模型能力、探索下一代人工智能系統(tǒng)的路途上更進(jìn)了一步。
結(jié)合歷史上計算形態(tài)的變化,隨著物聯(lián)網(wǎng)技術(shù)的爆發(fā),在當(dāng)下,盡管云計算模式已經(jīng)在通信技術(shù)的加持下得到了進(jìn)一步強化,但本地計算需求也在指數(shù)級持續(xù)涌現(xiàn),將全部的計算和數(shù)據(jù)均交由集中式的云計算中心來處理并不符合實際。
就是說,發(fā)展既發(fā)揮云計算優(yōu)勢、又調(diào)動端計算敏捷性的計算模式,才是當(dāng)下的需求所在。
也正是在這樣端云協(xié)同的趨勢之下,大小模型的協(xié)同演進(jìn)有了新的范式可依:云側(cè)有泛化模型,端側(cè)有個性化模型,兩個模型相互協(xié)作、學(xué)習(xí)、推理,實現(xiàn)端云雙向協(xié)同。
而這,正解決了我們在開頭提到的,大模型落地過程中面臨的性能與能耗平衡之困。
正如浙江大學(xué)上海高等研究院常務(wù)副院長吳飛教授所言,從大模型到終端可用的小模型,關(guān)鍵在于“取其精華、化繁為簡”,實現(xiàn)高精度壓縮;而在端云協(xié)同框架之下,小模型的實踐積累對于大模型而言,將是“集眾智者無畏于圣人”。
你覺得呢?
— 完 —