北大袁粒:用戶不會(huì)為只能“閑聊”的大模型買單 | 中國AIGC產(chǎn)業(yè)峰會(huì)
垂域應(yīng)用才能將大模型轉(zhuǎn)化為生產(chǎn)力
編輯部 整理自 AIGC峰會(huì)
量子位 | 公眾號(hào) QbitAI
大模型能力與日俱增,如何將其轉(zhuǎn)化為生產(chǎn)力?
中國AIGC產(chǎn)業(yè)峰會(huì)上,北京大學(xué)深圳研究生院助理教授袁粒給出了他的看法:
如果大模型只會(huì)閑聊,用戶是不會(huì)買單的,唯有打造垂域應(yīng)用,才能把大模型變?yōu)樯a(chǎn)力。
袁粒專注于多模態(tài)深度學(xué)習(xí)研究方向,一作論文單篇被引用千余次。
屢屢登上熱搜的ChatExcel、ChatLaw等垂直領(lǐng)域產(chǎn)品,都是出自他的團(tuán)隊(duì)。最近,由他們發(fā)起的Sora復(fù)現(xiàn)計(jì)劃“OpenSora”,更是引發(fā)了廣泛關(guān)注。
為了完整體現(xiàn)袁粒的思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來更多啟發(fā)。
中國AIGC產(chǎn)業(yè)峰會(huì)是由量子位主辦的行業(yè)峰會(huì),20位產(chǎn)業(yè)代表與會(huì)討論。線下參會(huì)觀眾近千人,線上直播觀眾300萬,獲得了主流媒體的廣泛關(guān)注與報(bào)道。
話題要點(diǎn)
- 用來閑聊的玩具并不能滿足用戶真正的需求,將大模型轉(zhuǎn)化為生產(chǎn)力的關(guān)鍵,在于垂域應(yīng)用。
- 要做好垂域應(yīng)用,必須先解決大模型的幻覺問題,一個(gè)重要方法就是檢索增強(qiáng)生成(RAG)。
- AI發(fā)展到今天,開源世界的貢獻(xiàn)功不可沒,正是有很多開源模型才推動(dòng)了AI領(lǐng)域的繁榮。
以下為袁粒演講全文:
怎樣將大模型轉(zhuǎn)化為生產(chǎn)力
我今天主要是來講講我們?cè)诙嗄B(tài)模型垂域上面的應(yīng)用,主要是我們自己團(tuán)隊(duì)的工作。
首先引用浙大趙(俊博)老師的拷問,你會(huì)為一個(gè)閑聊的玩具買單嗎,這是當(dāng)Chat系列模型出來后,大家都會(huì)思考的。
同時(shí)在去年5、6月份,ChatGPT用戶量出現(xiàn)了微跌,也就是說如果大家只是為了一個(gè)聊天去用一個(gè)產(chǎn)品,肯定是不夠的,需要實(shí)實(shí)在在的轉(zhuǎn)化成生產(chǎn)力,生產(chǎn)力由什么轉(zhuǎn)化,就是垂域應(yīng)用。
我們知道后來OpenAI動(dòng)作很快,推出了GPT store,也就是GPT的商店。
我認(rèn)為GPT商場(chǎng)中的每一個(gè)應(yīng)用,就是一個(gè)垂域的產(chǎn)品。我們的團(tuán)隊(duì)也是做了一些多模態(tài)垂域的開發(fā),包括ChatExcel、ChatLaw,既有語言生成應(yīng)用,也有視覺生成的一些模型。
我們的基礎(chǔ)平臺(tái)是基于鵬城的云腦加上我們自建的算力,以及通用和行業(yè)的數(shù)據(jù)來進(jìn)行應(yīng)用的開發(fā)的。
我們先來簡(jiǎn)單看看一些代表性工作。
第一個(gè)就是數(shù)據(jù)垂域的應(yīng)用ChatExcel,它其實(shí)是早于微軟的Copilot發(fā)布的,在2022年下半年開始研發(fā),23年2月發(fā)布。
一開始的想法很簡(jiǎn)單,是2022年下半年的時(shí)候,我的一個(gè)博士生告訴我,他說老師,我想給女朋友減負(fù)。
因?yàn)樗呐笥咽且粋€(gè)高校的信息老師,天天要處理很多表格,大家也知道企業(yè)有很多“表哥、表姐”。所以當(dāng)時(shí)我覺得這個(gè)想法很好,背后代表了大家普遍的需求,所以就出來了ChatExcel。
ChatExcel是從傳統(tǒng)到生成式路線,而且會(huì)比生成式路線再往前推了一步,就是多模態(tài)生成。
我們看看在第一版的時(shí)候,線上能體現(xiàn)到這邊這一部分,用文字直接操縱表格,其實(shí)WPS當(dāng)前也已經(jīng)能做這到一步,因?yàn)槲覀儚?022年下半年到2023年初發(fā)布。
當(dāng)然在這個(gè)之后,我們進(jìn)行了升級(jí),升級(jí)成一個(gè)多模態(tài)的模型,這個(gè)視頻放一下,這也是我們目前部署給某奢侈品巨頭的一個(gè)真正落地的case,大家可以看到已經(jīng)不是單模態(tài),能進(jìn)行數(shù)據(jù)的可視化,以及能進(jìn)行一些營銷的處理,包括幫你分析這個(gè)產(chǎn)品哪一個(gè)明星來代言會(huì)更好。
我們ChatExcel孵化了一家企業(yè),這個(gè)是我的學(xué)生創(chuàng)業(yè)做的一件事情,我也很支持他。如果大家感興趣可以在互聯(lián)網(wǎng)上搜到。
打造垂域應(yīng)用,要先解決幻覺問題
第二個(gè)應(yīng)用是ChatLaw,ChatLaw是中文法律垂域應(yīng)用。
ChatLaw這個(gè)應(yīng)用的動(dòng)機(jī)很簡(jiǎn)單,就是在食堂和一個(gè)法學(xué)院的老師吃飯的時(shí)候,他說我們北大的法律比清華還是好的,但是法律科技在那個(gè)時(shí)候沒有擁抱大模型,我們是否能做一些法律上面的東西。
所以我們一起合作做出來這個(gè)ChatLaw的模型。
其實(shí)這個(gè)很簡(jiǎn)單,思路就是用戶提出需求,我們用Agent進(jìn)行模型的調(diào)度、處理,最后提供法律助手服務(wù),包括信息的分析、結(jié)構(gòu)化抽取,同時(shí)能夠?yàn)橛脩舭蓭熒梢恍┐蠹宜熘脑V訟狀,一些文本的文件,這個(gè)是可以給普通用戶,同時(shí)也可以幫律師。
當(dāng)然我們目標(biāo)從來不是替換律師,而是成為律師的助手,替換一些底層重復(fù)性的工作。
我們可以看看一些簡(jiǎn)單的能力,有人被裁員之后去問我的模型,我的模型會(huì)讓他上傳合同和HR溝通錄音,然后給他分析事實(shí),最后給出建議。
基于這個(gè)建議,我們告知他其實(shí)被裁員之后可以走勞動(dòng)仲裁,仲裁流程以及勞動(dòng)仲裁申請(qǐng)書都可以由ChatLaw生成,還會(huì)推薦一些類似的案例和判決結(jié)果。
同時(shí)我自己的學(xué)生,以及我個(gè)人,也有從這個(gè)模型中受益,這是當(dāng)時(shí)ChatLaw內(nèi)測(cè)的時(shí)候,我的學(xué)生身上發(fā)生的真實(shí)案例。
我的學(xué)生想買一個(gè)車,在4S店試駕,結(jié)果就遇到了一個(gè)法律問題。
一般情況下,在試駕的時(shí)候需要簽一份“免責(zé)協(xié)議”,大概內(nèi)容是如果開著這個(gè)車出了交通事故,責(zé)任完全由試駕人員承擔(dān),4S店則不承擔(dān)責(zé)任。
但是很不幸,我這個(gè)學(xué)生把車開回4S店的時(shí)候,在視覺盲區(qū)中和一輛電動(dòng)車發(fā)生了刮蹭。
當(dāng)時(shí)我的學(xué)生被4S店告知,要么把這個(gè)車買下來,要么在完成定損之后全額賠償。
當(dāng)時(shí)ChatLaw正好在內(nèi)測(cè),我的學(xué)生就問了模型,我的模型最后給他的答案是,4S店的“免責(zé)協(xié)議”違背了《侵權(quán)責(zé)任法》第42條(現(xiàn)《民法典·侵權(quán)責(zé)任編》第1203條)的規(guī)定。
同時(shí),ChatLaw也給這個(gè)學(xué)生生成了一份調(diào)解建議書,闡明了因?yàn)檫@個(gè)產(chǎn)品歸屬于4S店,所以這個(gè)“協(xié)議”屬于霸王條款。
于是,這名學(xué)生拿著法律依據(jù)以及生成的文書給4S店,然后4S店對(duì)這件事情就沒有再過問了,不了了之了。
雖然我的學(xué)生最后買的也是這款車,但沒有在這家4S店。
這就是法律真正在普惠個(gè)人,包括我個(gè)人在現(xiàn)在生活當(dāng)中一些小問題,也會(huì)問模型,因?yàn)楹芏鄷r(shí)候它確實(shí)有效。
當(dāng)然,大家也許會(huì)說,通用模型本身也能回答大家的這些法律問題。
但是通用模型有一個(gè)問題——在專業(yè)領(lǐng)域,最大的問題是幻覺問題,俗稱“一本正經(jīng)地胡說八道”。
大家知道如果問ChatGPT,“林黛玉倒拔垂楊柳”是怎么回事,ChatGPT會(huì)把這個(gè)過程說得非常清晰生動(dòng),甚至最后林黛玉的性格都能分析出來,說是《紅樓夢(mèng)》某一回的,這種問題非常嚴(yán)重。
去年上半年我們開發(fā)垂域模型的時(shí)候就知道,垂域模型必須要解決幻覺問題,所以我們當(dāng)時(shí)提出來,現(xiàn)在大家都很熟知這個(gè)詞叫檢索增強(qiáng)生成。
那個(gè)時(shí)候確實(shí)是我們首次做出來的,只是我們沒有把這個(gè)概念提出來,讓大模型做大模型的事情,讓檢索做檢索的事情。
當(dāng)然這套框架,大家感興趣可以讀論文,我們也開源了一部分模型,但是商業(yè)版比開源模型更好。
其實(shí)簡(jiǎn)單說就是用檢索的方式在數(shù)據(jù)庫里面提取出一個(gè)參考信息,讓這個(gè)檢索參考信息抑制或者緩解模型的幻覺,尤其是發(fā)動(dòng)“緊急立法權(quán)”編造法律條文這種重大問題。
這也是通用模型和垂域模型一個(gè)重要的差異,尤其在法律這種嚴(yán)肅的場(chǎng)景下一定要考慮這個(gè)問題。
“開源版Sora”是產(chǎn)業(yè)的期待
做完垂域應(yīng)用的時(shí)候,當(dāng)然大家可能說,一個(gè)高校團(tuán)隊(duì)好像做的事好多,確實(shí),為什么?
因?yàn)槲覀冊(cè)诟咝@锩妫?strong>不是追求必然的商業(yè)化,而是做有意思的科研和有意思的事情。
我最后介紹的一個(gè)東西是聯(lián)合實(shí)驗(yàn)室最近的一項(xiàng)工作,叫做Open-Sora Plan,Sora的開源計(jì)劃。
我剛開始發(fā)起這個(gè)計(jì)劃的時(shí)候,很多人問說為什么叫復(fù)現(xiàn),不叫超越。
我說我們還是要實(shí)事求是,我們離國外的大模型還是有一定差距,我們能把它復(fù)現(xiàn)出來,尤其我們作為高校團(tuán)隊(duì),在算力和數(shù)據(jù)資源都有限的情況下,我們能復(fù)現(xiàn)出一版tiny Sora已經(jīng)不錯(cuò)了。
而且我們這個(gè)是開源項(xiàng)目,我們選用的是MIT license,同時(shí)所有的人都可以無條件的用我們開源的數(shù)據(jù)和模型。
當(dāng)然我們大家知道,在大語言模型ChatGPT出來的時(shí)候,其實(shí)還沒有開源的模型,整個(gè)商業(yè)界或者整個(gè)產(chǎn)業(yè)界和學(xué)術(shù)界都比較難受——學(xué)術(shù)界沒有研究對(duì)象,商業(yè)的生態(tài)也沒有繁榮。
所以后來有了Meta的Llama,我們這個(gè)開源的目標(biāo)就是能否做出一版視覺版的Llama。
這個(gè)事情為什么想在高校做,因?yàn)楦咝5淖藨B(tài)是中立,所有人都可以受益,我們拿的是納稅人的錢,做的事情繁榮了生態(tài),也就沒有浪費(fèi)他們的錢。
所以我們想做這件事情。

于是我們很快把這套框架搭起來了,這個(gè)框架分為三個(gè)部分——視頻編解碼器、Diffusion Transformer,以及條件注入。
我們把這個(gè)框架搭起來之后扔給開源世界,整個(gè)開源世界,尤其在推特上面發(fā)布之后,對(duì)此是很支持的。
我們最看重是技術(shù)社區(qū)的評(píng)價(jià),因?yàn)樗攀谴蠹艺嬲龔募夹g(shù)角度考慮的結(jié)果。我們也很快在GitHub上登了第一,目前Star超過 10K。我們這個(gè)特點(diǎn)是什么?
我覺得Sora這條技術(shù)路線的優(yōu)勢(shì)是能生成長時(shí)視頻,原因之一是因?yàn)樵谟?xùn)練的時(shí)候,喂給了它很長的視頻片段。
所以里面核心模塊之一是第一部分Video VAE,就是視頻編解碼,需要對(duì)視頻進(jìn)行壓縮,因?yàn)闊o法將一個(gè)1分鐘的視頻直接放在一個(gè)80G顯存的顯卡。
所以我們?cè)赩ideo VAE做了很多工作,目前Video VAE能夠?qū)σ曨l進(jìn)行壓縮,而且壓縮完之后能重建保持高清晰度。
我們現(xiàn)在能夠把1分鐘1080P的視頻塞進(jìn)80G的顯卡,如果是半分鐘720P的視頻,我們能塞4個(gè)。
我個(gè)人認(rèn)為,視頻重建就是視頻生成的上限。如果無法壓縮重建一個(gè)視頻,也就無法生成。
我們現(xiàn)在能夠?qū)σ曨l進(jìn)行256倍的壓縮,而且信噪比能保持30以上,信噪比越高,表示重建信號(hào)越好。
而且重建視頻的同時(shí)也能夠重建圖像。我們現(xiàn)在開源的版本是能夠壓縮256位的視頻,當(dāng)然下一步目標(biāo)是壓縮512位,大家可以用我們的CausalVideoVAE進(jìn)行視頻壓縮。
我們也進(jìn)行了數(shù)據(jù)收集,有兩類方案。
一個(gè)是爬取視頻數(shù)據(jù),因?yàn)槭俏纳曨l,需要打文本的標(biāo)簽。
但是這個(gè)很受限于標(biāo)注模型的準(zhǔn)確度,會(huì)受限于現(xiàn)在用的多模態(tài)理解模型,所以文本和視頻的對(duì)齊度不高。
方案二也是用文本驅(qū)動(dòng)物理引擎,比如游戲引擎去合成數(shù)據(jù),這樣的話文本和視頻的對(duì)齊度和細(xì)粒度會(huì)非常高。
而且我們也是剛剛打通了這套數(shù)據(jù)收集方式,用文本的Prompt驅(qū)動(dòng)游戲畫面,讓人物做出特定動(dòng)作。
這種合成數(shù)據(jù)有個(gè)好處,就是對(duì)齊度高,收集速度也快很多,因?yàn)椴恍枰驑?biāo),只需要構(gòu)造很好的文本Prompt,驅(qū)動(dòng)物理引擎。
大家知道Sora里面有很多case的場(chǎng)景很像物理引擎生成的,我個(gè)人認(rèn)為就是這樣的數(shù)據(jù)的功勞,所以我們現(xiàn)在也把這條路剛剛打通。
關(guān)于模型收斂情況,我們?cè)谏现馨l(fā)布了第一版預(yù)訓(xùn)練模型,坦率講離Sora差距很大,不過我們僅僅用了一個(gè)實(shí)驗(yàn)室,用很少的算力預(yù)訓(xùn)練。
從我們生成的一些Demo來看,包括面包被烤熟、種子發(fā)芽這種質(zhì)變場(chǎng)景,都比較符合物理規(guī)律,這個(gè)是Sora模型的核心。
視頻生成的長度則是幾秒鐘到十秒鐘。
當(dāng)然,還可以建模游戲里面的一些場(chǎng)景,比如讓它生成“我的世界”中建造房子的過程。
我們也有我們?nèi)A段的復(fù)現(xiàn)目標(biāo),第一階段已經(jīng)完成了,就是1.0的版本,現(xiàn)在已經(jīng)公開。
大家都可以用,包括壓縮工具CausalVideoVAE也可以,不需要我們的商業(yè)授權(quán),因?yàn)檫@就是開源的事情。
我們現(xiàn)在在第二階段,該階段目標(biāo)也是開源項(xiàng)目的最終目標(biāo),我們希望訓(xùn)練出的模型可以生成20秒以上、720P清晰度的視頻。
開源世界對(duì)我們支持了很多,比如我們合作伙伴,也是聯(lián)合發(fā)起方兔展智能,為我們提供了百卡H100和H800的算力,進(jìn)行第二階段開源項(xiàng)目的研發(fā)。
華為昇騰團(tuán)隊(duì)也和我們積極合作,為我們提供了算力支持。
同時(shí)我們也承諾,第二階段仍然開源。
當(dāng)然在第三階段,是超越開源項(xiàng)目的目標(biāo),這個(gè)是在座各位以及工業(yè)界能有更多的算力和更多數(shù)據(jù),讓它更接近Sora,尤其是在泛化性和時(shí)長上。
最后,我個(gè)人覺得AI發(fā)展到今天,開源世界的貢獻(xiàn)功不可沒。
大家知道的ImageNet數(shù)據(jù)集是開源的,很多的深度學(xué)習(xí)模型也都是開源的,所以才推動(dòng)了這個(gè)領(lǐng)域的繁榮。
所以這個(gè)事情的意義是比較大的,學(xué)術(shù)界和產(chǎn)業(yè)界都有一個(gè)可以用的類Sora架構(gòu)的模型。
好,我的演講到這,謝謝大家。