大模型這場(chǎng)硬仗還得華為昇騰來(lái)打
大模型全流程使能平臺(tái)上線(xiàn)
楊凈 明敏 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
為什么這年頭,大模型可以這么火?!
這不前幾天,谷歌研究員說(shuō)“AI有人格”,結(jié)果震驚整個(gè)科技圈……
背后其實(shí)就是大模型的鍋。
在大家的認(rèn)知里,AI大模型真的很全能——能說(shuō)會(huì)唱、寫(xiě)詩(shī)作畫(huà)樣樣精通,甚至還能像人一樣跟你聊天。
而且性能精度和泛化能力兼具~光看最近屢次出圈的AI作畫(huà)就知道了。
既然大模型這么多好處,如果應(yīng)用到了產(chǎn)業(yè)界,這不得把企業(yè)的開(kāi)發(fā)者們都給饞哭了。
一直以來(lái),大模型似乎都是大廠、高校及科研機(jī)構(gòu)的專(zhuān)利。
其他企業(yè)倒也不是不能用。
且不論從規(guī)劃、開(kāi)發(fā)到部署各個(gè)環(huán)節(jié)有多難,光是個(gè)中成本也不敢讓企業(yè)輕易試錯(cuò)。
從規(guī)劃到部署一個(gè)大模型到底有多難?
首先從AI大模型的規(guī)劃應(yīng)用上,垂直行業(yè)就很容易遇到隔行如隔山的問(wèn)題。
比如制造業(yè)中的檢驗(yàn)環(huán)節(jié)。
質(zhì)檢專(zhuān)業(yè)人員清楚知曉零件需要達(dá)到多少精確度、流水線(xiàn)的運(yùn)轉(zhuǎn)速度如何。
但問(wèn)題就在于,用什么樣的AI大模型,能配合生產(chǎn)線(xiàn)的運(yùn)轉(zhuǎn)呢?
△紫東.太初訓(xùn)練的“小初”在紡織生產(chǎn)線(xiàn)上聲音質(zhì)檢
類(lèi)似的場(chǎng)景,在電力、金融、醫(yī)藥等垂直領(lǐng)域中也會(huì)發(fā)生。
也就是說(shuō),在開(kāi)發(fā)還未開(kāi)始時(shí),困難就已經(jīng)找上門(mén)了。
而更大的問(wèn)題,還在后面。
即便垂直領(lǐng)域企業(yè)終于明晰了自己要開(kāi)發(fā)什么樣的算法,但是居高不下的開(kāi)發(fā)門(mén)檻、部署成本,依舊是“攔路虎”。
要知道,大模型是應(yīng)對(duì)AI應(yīng)用碎片化趨勢(shì)的一個(gè)有效解。
傳統(tǒng)AI時(shí)代,由于模型參數(shù)量小、泛化性差,一個(gè)模型大多只能對(duì)應(yīng)單個(gè)場(chǎng)景。
動(dòng)不動(dòng)就從0開(kāi)始、獨(dú)立調(diào)優(yōu)、艱難迭代、推倒重來(lái)的模式,于企業(yè)而言實(shí)在是太勞民傷財(cái)了。
由此,垂直行業(yè)的目光自然而然放到了泛化性強(qiáng)、只需要微調(diào)的大模型上。
但問(wèn)題是,動(dòng)輒千億、萬(wàn)億規(guī)模的大模型,開(kāi)發(fā)周期勢(shì)必會(huì)相應(yīng)拉長(zhǎng)、對(duì)開(kāi)發(fā)人員的技術(shù)能力要求也更高。
到部署環(huán)節(jié)中,大模型部署成本高是業(yè)內(nèi)的重要難題。更別說(shuō)還要考量硬件適配性、功耗、成本、性?xún)r(jià)比等問(wèn)題。
一個(gè)個(gè)難題到來(lái),都意味著企業(yè)想要憑一己之力煉出大模型,實(shí)在是關(guān)山難越。
或許有人會(huì)說(shuō),垂直行業(yè)面臨的問(wèn)題,似乎都是AI專(zhuān)業(yè)能力不夠強(qiáng)導(dǎo)致的。
那AI領(lǐng)域?yàn)槭裁床荒苤苯幽贸霈F(xiàn)成可用的行業(yè)大模型?
這也就看到了行業(yè)大模型難煉的B面——垂直行業(yè)的專(zhuān)業(yè)知識(shí),同樣是AI技術(shù)人員的“攔路虎”。
還是從規(guī)劃部分說(shuō)起。
盡管面對(duì)質(zhì)檢環(huán)節(jié),AI技術(shù)人員知道可以應(yīng)用CV算法,但算法要達(dá)到多快的識(shí)別速度?非行業(yè)人士很難知曉。
而且算法開(kāi)發(fā)的重要環(huán)節(jié),就是海量數(shù)據(jù)訓(xùn)練。
一方面,如金融、保險(xiǎn)、醫(yī)藥等行業(yè)數(shù)據(jù)涉及隱私保護(hù),數(shù)據(jù)集收集會(huì)變得尤為困難。
另一方面,涉及到大量垂直領(lǐng)域?qū)I(yè)知識(shí)的數(shù)據(jù),AI領(lǐng)域技術(shù)人員將其整合為數(shù)據(jù)集的難度也進(jìn)一步升高。
最后回到部署上。
想要與實(shí)際生產(chǎn)環(huán)節(jié)緊密配合、讓AI算法實(shí)現(xiàn)更大價(jià)值,如果沒(méi)有對(duì)應(yīng)行業(yè)內(nèi)人士的意見(jiàn)參考,AI技術(shù)人員也是束手無(wú)策。
最終可能算法性能卓越,但卻走不出實(shí)驗(yàn)室。
綜上幾點(diǎn)不難看出,大模型在產(chǎn)業(yè)界落地遇到的問(wèn)題,是貫穿開(kāi)發(fā)應(yīng)用全流程的,而且要集合AI行業(yè)和對(duì)應(yīng)專(zhuān)業(yè)領(lǐng)域的智慧,共同解決這些困難。
怎么做?當(dāng)下產(chǎn)業(yè)界、AI界的目光,自然而然聚焦于此。
大模型全流程使能體系,了解一下?
AI大廠作為技術(shù)輸送方,對(duì)AI大模型的特點(diǎn)、容易遇到的問(wèn)題和困難,自然有著更為深入的了解。
剛好在華為開(kāi)發(fā)者大會(huì)上,華為昇騰給出了一套生態(tài)構(gòu)建方案——
大模型全流程使能體系。
雖說(shuō)是大模型生態(tài)構(gòu)建方案,但仔細(xì)一看,無(wú)論是整體體系、還是流程開(kāi)發(fā)套件,核心思想都是降低AI大模型開(kāi)發(fā)、應(yīng)用門(mén)檻,都是直擊企業(yè)和開(kāi)發(fā)者的痛點(diǎn)。
整個(gè)體系很清晰,直接按照流程劃分,分成規(guī)劃、開(kāi)發(fā)和部署三個(gè)環(huán)節(jié)。
每個(gè)環(huán)節(jié),都有相應(yīng)的支撐。
首先是規(guī)劃環(huán)節(jié)。
當(dāng)前大模型最前沿主要在這幾個(gè)方向,以華為云盤(pán)古CV大模型為代表的計(jì)算機(jī)視覺(jué)、以鵬程.盤(pán)古為代表的自然語(yǔ)言處理、還有紫東·太初為代表的多模態(tài)、語(yǔ)音、博弈智能、人工智能科學(xué)計(jì)算。
但對(duì)于產(chǎn)業(yè)界來(lái)說(shuō),具體到現(xiàn)實(shí)落地需要什么,就成為一個(gè)不可忽略的問(wèn)題。大模型沙盤(pán)正是來(lái)規(guī)劃和牽引產(chǎn)業(yè)界的企業(yè)做出需要的大模型。
此前,基于昇騰AI的能力,業(yè)內(nèi)就已經(jīng)先后推出華為云盤(pán)古系列、鵬程.盤(pán)古、鵬程.神農(nóng)、紫東.太初、武漢.Luojia等有影響力的大模型。
接著就是最為關(guān)鍵的開(kāi)發(fā)環(huán)節(jié)。
前面提到,企業(yè)要想開(kāi)發(fā)一個(gè)大模型,需要考慮基礎(chǔ)開(kāi)發(fā)、行業(yè)適配、實(shí)際部署等問(wèn)題。
這一次,華為直接給出了大模型開(kāi)發(fā)使能平臺(tái),覆蓋從數(shù)據(jù)準(zhǔn)備、基礎(chǔ)模型開(kāi)發(fā)、行業(yè)應(yīng)用適配到推理部署一整個(gè)開(kāi)發(fā)流程都給安排上了。
核心發(fā)布了三個(gè)套件:大模型開(kāi)發(fā)套件、大模型微調(diào)套件以及大模型部署套件。
大模型開(kāi)發(fā)套件,昇思MindSpore與ModelArts結(jié)合既提供了像算法開(kāi)發(fā)基礎(chǔ)能力,還具備了像并行計(jì)算、存儲(chǔ)優(yōu)化、斷點(diǎn)續(xù)訓(xùn)這種特殊能力。
在算法開(kāi)發(fā)這塊上,昇思MindSpore提供了易用編程API,既能滿(mǎn)足多種需求,算法還特別簡(jiǎn)單。百行代碼就可以實(shí)現(xiàn)千億參數(shù)Transformer模型開(kāi)發(fā)。
至于并行計(jì)算能力,自然是昇思MindSpore的傳統(tǒng)藝能了,昇思提供的數(shù)據(jù)并行、模型并行、流水并行、優(yōu)化器并行、子圖并行等業(yè)界領(lǐng)先的6維混合并行計(jì)算技術(shù),開(kāi)發(fā)者只需一行代碼就能實(shí)現(xiàn)模型自動(dòng)切分、分布式并行計(jì)算。
而存儲(chǔ)優(yōu)化、斷點(diǎn)續(xù)訓(xùn)則是針對(duì)日常訓(xùn)練時(shí)遇到耗內(nèi)存、訓(xùn)練中斷等問(wèn)題。
- 使用NPU/CPU/NVMe自動(dòng)存儲(chǔ)優(yōu)化,復(fù)用多級(jí)存儲(chǔ),512張顯卡可以跑10萬(wàn)億參數(shù)模型。
- 訓(xùn)練被意外中斷時(shí)候,觸發(fā)軟硬件協(xié)同保護(hù),讓千億級(jí)模型在2-3分鐘內(nèi)無(wú)損修復(fù)。
開(kāi)發(fā)完了之后,就到大模型下一個(gè)任務(wù)——行業(yè)應(yīng)用適配環(huán)節(jié)。
換言之,就是讓基礎(chǔ)模型來(lái)學(xué)習(xí)行業(yè)數(shù)據(jù),以此來(lái)滿(mǎn)足相應(yīng)的需求。
對(duì)產(chǎn)業(yè)界來(lái)說(shuō),大模型內(nèi)部的專(zhuān)業(yè)參數(shù)過(guò)于復(fù)雜,不知道如何調(diào)參,調(diào)哪些參數(shù)。
昇騰MindX提供大模型微調(diào)套件,功能包括兩部分:一鍵式微調(diào)、低參數(shù)調(diào)優(yōu)。
總的來(lái)說(shuō),就是通過(guò)預(yù)置典型行業(yè)任務(wù)微調(diào)模板、小樣本學(xué)習(xí)等手段,直接凍結(jié)局部參數(shù),自動(dòng)提示或者直接激活特定的參數(shù)。
如此一來(lái),減少參數(shù)調(diào)優(yōu)工作量,讓下游任務(wù)靈活配置,可以快速適配到各種行業(yè)應(yīng)用之中,比如現(xiàn)在的生物醫(yī)藥、智慧城市、遙感、電力等等。
推理部署,是制約大模型應(yīng)用的一大因素。
在這方面,昇騰AI在MindStudio中提供了分布式推理服務(wù)化、模型輕量化、動(dòng)態(tài)加密部署三方面能力。
通過(guò)多機(jī)多卡分布式推理,可以大幅提高計(jì)算吞吐量,即便1000人,甚至是1萬(wàn)人都可以同時(shí)調(diào)用這個(gè)能力,不至于并發(fā)崩潰
模型輕量化是指,利用剪枝、蒸餾、量化等小型化工具,讓模型實(shí)現(xiàn)至少10倍級(jí)的壓縮率。
動(dòng)態(tài)加密部署,則是注重模型部署的安全性。為了防止黑客搬遷數(shù)據(jù),從而反向解析模型結(jié)構(gòu)。
昇騰就提供了動(dòng)態(tài)模型混淆,對(duì)模型增加動(dòng)態(tài)密鑰,性能開(kāi)銷(xiāo)小于5%。
最后,就是大模型的產(chǎn)業(yè)應(yīng)用落地階段。這也是當(dāng)下產(chǎn)業(yè)界最為困擾的問(wèn)題。
盡管學(xué)術(shù)界的大模型呈現(xiàn)井噴之勢(shì),但是真正走到規(guī)?;a(chǎn)業(yè)部署的,還寥寥無(wú)幾。
科研創(chuàng)新和實(shí)際應(yīng)用之間,尚存巨大鴻溝??缭进櫆系年P(guān)鍵,還是要凝聚各方的力量。也就是打通產(chǎn)學(xué)研用之間的斷點(diǎn),以大模型為核心,建立產(chǎn)業(yè)聯(lián)盟。
產(chǎn)業(yè)聯(lián)盟的出現(xiàn),就是為讓產(chǎn)業(yè)的力量聚焦在一處,從而自然加快大模型創(chuàng)新、應(yīng)用孵化的步伐。在這方面,昇騰已經(jīng)打好了兩個(gè)樣板出來(lái)。
去年,圍繞武漢.LuoJia,智能遙感開(kāi)源生態(tài)聯(lián)盟正式成立,匯聚企業(yè)、高校等31家成員。
以紫東.太初為核心,多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟也相應(yīng)成立,包括新華社技術(shù)局、長(zhǎng)安汽車(chē)、中國(guó)移動(dòng)等30個(gè)成員單位已經(jīng)加盟。
今年,昇騰還將支撐伙伴成立AI流體力學(xué)、 AI生物醫(yī)藥以及智慧育種領(lǐng)域的產(chǎn)業(yè)聯(lián)盟。值得一提的是,在會(huì)上,華為還發(fā)布了昇騰科研創(chuàng)新使能計(jì)劃。國(guó)內(nèi)高校和科研院所可以用上昇騰人工智能基礎(chǔ)軟硬件平臺(tái),以此來(lái)展開(kāi)創(chuàng)新大模型的開(kāi)發(fā)。
從科研創(chuàng)新,到應(yīng)用開(kāi)發(fā),再到的產(chǎn)業(yè)落地,如此一來(lái)形成大模型產(chǎn)學(xué)研用生態(tài)閉環(huán)。大模型在多行業(yè)大規(guī)模應(yīng)用的節(jié)點(diǎn),已然顯現(xiàn)。
大模型來(lái)到多行業(yè)應(yīng)用前夕
在大模型如雨后春筍誕生的另一邊,AI行業(yè)重磅玩家,紛紛基于主流AI框架,積極探索支持大模型的技術(shù)。
比如英偉達(dá)、微軟基于PyTorch,谷歌基于TensorFlow。它們不約而同地開(kāi)始從并行技術(shù)、存儲(chǔ)優(yōu)化上,探索支持大模型。
其中,基于PyTorch擴(kuò)展的框架,根據(jù)Transformer定制并行策略。基于TensorFlow的框架,也提出了算子級(jí)模型并行、MoE并行等策略。
而這些鋪墊,其實(shí)都是為了大模型的落地應(yīng)用打基礎(chǔ)。
聚焦到更為細(xì)節(jié)處。國(guó)內(nèi)已經(jīng)出現(xiàn)了垂直行業(yè)依托大模型,打造出行業(yè)產(chǎn)品的案例。
在湖南,千博信息基于紫東.太初大模型,開(kāi)發(fā)出了手語(yǔ)多模態(tài)模型,開(kāi)創(chuàng)性地將手語(yǔ)動(dòng)作與示意圖片和文字實(shí)現(xiàn)聯(lián)動(dòng)。
基于手語(yǔ)多模態(tài)模型,他們還開(kāi)發(fā)出了手語(yǔ)教考一體機(jī),讓聽(tīng)障學(xué)生的日常學(xué)習(xí)、考試變得更為便捷。目前,一體機(jī)已經(jīng)在湘潭特校等數(shù)十個(gè)學(xué)校陸續(xù)上線(xiàn)。
還有像鵬程.神農(nóng)平臺(tái)已逐步進(jìn)入生物制藥行業(yè),幫助抗菌肽快速生成,傳統(tǒng)可能需要40年的多肽生成,現(xiàn)在通過(guò)大模型和分類(lèi)器,生產(chǎn)時(shí)間壓縮至數(shù)月。
種種現(xiàn)象之下,大模型向行業(yè)深入的特點(diǎn)也已開(kāi)始顯現(xiàn)。
一方面,在大模型標(biāo)準(zhǔn)制定上,開(kāi)始趨向于更加細(xì)分、更加垂直。在谷歌聯(lián)合442位作者、耗時(shí)2年提出的大語(yǔ)言模型新基準(zhǔn)BIG-bench中,包含了204個(gè)任務(wù)內(nèi)容涵蓋語(yǔ)言學(xué)、兒童發(fā)展、數(shù)學(xué)、常識(shí)推理、生物學(xué)、物理學(xué)、社會(huì)偏見(jiàn)、軟件開(kāi)發(fā)等方面的問(wèn)題。
另一方面,模型在開(kāi)發(fā)應(yīng)用流程上,也逐漸更加規(guī)范和系統(tǒng)化。比如昇騰最近提出的大模型全流程使能體系,正是將過(guò)去幾年在各個(gè)熱點(diǎn)領(lǐng)域做的積累,全面總結(jié)并進(jìn)一步創(chuàng)新。
以進(jìn)一步牽引、規(guī)范大模型規(guī)劃、開(kāi)發(fā)、應(yīng)用流程,為大模型的多行業(yè)應(yīng)用提供更為標(biāo)準(zhǔn)化的參考。
最后,在大模型多行業(yè)應(yīng)用前夕,產(chǎn)業(yè)界到底應(yīng)該如何做?參考昇騰提出的方案,可得到以下幾點(diǎn)啟示:
第一、凝聚創(chuàng)新力量,提供有序的創(chuàng)新規(guī)劃,提升技術(shù)開(kāi)發(fā)的有效性。
第二、降低大模型開(kāi)發(fā)、部署門(mén)檻,讓垂直行業(yè)也能輕松用上AI大模型。
第三、匯聚產(chǎn)業(yè)界力量,打通產(chǎn)學(xué)研用之間斷點(diǎn),讓AI大模型不再被束之高閣,而是深入落地到各行各業(yè)。
一言以蔽之,共筑中國(guó)大模型生態(tài)是當(dāng)下發(fā)展之必然。