兆級(jí)長文本,已是一線大模型機(jī)構(gòu)標(biāo)配能力丨上海AI Lab林達(dá)華
大海撈針也沒有那么難
衡宇 發(fā)自 阿拉上海
量子位 | 公眾號(hào) QbitAI
“據(jù)我了解,國內(nèi)多個(gè)一線大模型機(jī)構(gòu),都已經(jīng)突破了兆級(jí)的長文本能力。”
以上,是“2024全球開發(fā)者先鋒大會(huì)”大模型前沿論壇會(huì)間隙,上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華與量子位的交談剪影。
林達(dá)華,深度學(xué)習(xí)與計(jì)算機(jī)專家,香港中文大學(xué)教授,他是商湯聯(lián)合創(chuàng)始人,也是商湯創(chuàng)始人湯曉鷗的學(xué)生,是國際上最具影響力的視覺算法開源項(xiàng)目OpenMMLab的主導(dǎo)發(fā)起人。在大模型時(shí)代,他帶領(lǐng)了書生·浦語InternLM開源大模型體系以及OpenCompass司南大模型評(píng)測體系的研發(fā)工作。
林達(dá)華預(yù)估,第一季度左右,各家都會(huì)對(duì)大模型上下文窗口兆級(jí)能力“亮劍”。

同時(shí),他表達(dá)了與月之暗面同樣的態(tài)度,即大海撈針其實(shí)沒有那么難。
難的是海里不止一根針,應(yīng)有無數(shù)的碎片化信息藏在各個(gè)地方,(大模型)把所有東西串接一起,做比較深層次的結(jié)論。
就像讀福爾摩斯偵探小說,讀完后綜合判斷兇手是誰——這就不是一個(gè)簡單的檢索問題。
近期,各家大模型于長文本賽道上卷生卷死,但是否應(yīng)把它作為最主要的方向去打磨,大家有不同的判斷。
林達(dá)華點(diǎn)出,應(yīng)該要評(píng)估衡量超長文本能力的計(jì)算代價(jià),“無損長上下文窗口,每一次響應(yīng)都是很昂貴的過程,對(duì)應(yīng)用來說,這個(gè)性價(jià)比是不是最理想的?我覺得值得探討?!?/p>

長文本相關(guān)問題只是林達(dá)華表達(dá)自己思考和見解的一小個(gè)片段。
在這場大模型前沿論壇上,他以業(yè)界躬身入局者的身份,回望過去“群模亂舞”的一年,總結(jié)出大模型賽道的四點(diǎn)現(xiàn)狀:
- OpenAI引領(lǐng)技術(shù)潮流,Google緊緊追趕,Claude異軍突起;
- 上下文、推理能力、更高效的模型架構(gòu)是技術(shù)探索的重點(diǎn)方向;
- 輕量級(jí)模型嶄露頭角;
- 開源模型快速發(fā)展,開放生態(tài)已成氣候。

林達(dá)華還表示,大模型時(shí)代,技術(shù)演進(jìn)有兩股主要的驅(qū)動(dòng)力量:
一是對(duì)AGI的追求,對(duì)Scaling Law的信仰;
二是對(duì)大模型帶來新一次產(chǎn)業(yè)變革的憧憬。
除此之外,更詳細(xì)的回望和前瞻性觀點(diǎn),在林達(dá)華口中一一道來。

模型架構(gòu):從追求參數(shù)到追求更高效的Scale
Transformer架構(gòu)對(duì)計(jì)算資源的消耗巨大。
前幾日的黃仁勛與Transformer七子路邊對(duì)話中,Transformer作者Aidan Gomez語氣堅(jiān)定,“世界需要比Transformer更好的東西(the world needs something better than Transformers)”。
業(yè)界已經(jīng)開始從追求參數(shù),過渡轉(zhuǎn)換為追求更高效的規(guī)模。
其中,MoE值得關(guān)注,業(yè)界同時(shí)在探索Mamba模型等,以低復(fù)雜度的注意力架構(gòu)更高效地處理上下文。

訓(xùn)練數(shù)據(jù):從追求數(shù)量到尋求規(guī)?;瘶?gòu)造高質(zhì)量數(shù)據(jù)的路徑
訓(xùn)練數(shù)據(jù)包括三要素:
規(guī)模、質(zhì)量、多樣性。
在規(guī)模方面,早在ChatGPT之前,DeepMind等研究報(bào)告已指出訓(xùn)練數(shù)據(jù)要和模型參數(shù)同步增長。
而訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì)模型水平影響很大,低質(zhì)量數(shù)據(jù)對(duì)模型可能產(chǎn)生破壞性影響。增強(qiáng)數(shù)據(jù)的知識(shí)密度,能帶來更高的訓(xùn)練效率。
此外,好的數(shù)據(jù)集是非常多樣化的,均衡分布在充分大的語義空間中。
互聯(lián)網(wǎng)語料數(shù)據(jù)的分布極不均勻,存在大量低水平重復(fù)的語言模式,可能帶來模型能力的塌縮,“10%的帶有重復(fù)模式的數(shù)據(jù)注入到訓(xùn)練集里,有可能會(huì)使得模型降級(jí)到原來1/2的體量。”
合理的resampling(重采樣)策略能大幅度降低其負(fù)面影響。因此,業(yè)界也在從追求訓(xùn)練數(shù)據(jù)數(shù)量,過渡向到尋求規(guī)?;瘶?gòu)建高質(zhì)量數(shù)據(jù)。

多模態(tài):多模態(tài)融合將成為重要趨勢,技術(shù)探索仍在路上
多模態(tài)融合將成為重要技術(shù)趨勢,但技術(shù)探索仍在路上。
相比語言,多模態(tài)模型的訓(xùn)練多了一個(gè)重要維度,即圖像和視頻的分辨率對(duì)多模態(tài)模型最終的性能表現(xiàn)有重要影響。
如果使用非常高的分辨率進(jìn)行多模態(tài)的訓(xùn)練和推理,模型能夠得到巨大提升,但高分辨率會(huì)帶來高計(jì)算成本。
“如何在高分辨率和合理計(jì)算成本之間取得最佳平衡,這為架構(gòu)研究帶來了很大的創(chuàng)新空間?!?/p>

智能體:大模型應(yīng)用的重要形態(tài),但需要核心基礎(chǔ)能力的支撐
要讓大模型真正進(jìn)入到應(yīng)用的場景和生產(chǎn)的場景的時(shí)候,它需要跟系統(tǒng)、跟場景、跟里面所有的事情互動(dòng)。因此,需要給大模型裝上手腳,然后就能不斷地發(fā)出指令做出反饋,這就是一個(gè)智能體,這就是場景應(yīng)用價(jià)值的系統(tǒng)。
智能體并不是一個(gè)簡單的流程化過程。
它需要建立在一個(gè)非常堅(jiān)實(shí)的基礎(chǔ)模型上,具有很強(qiáng)的指令跟隨能力、理解能力、反思能力和執(zhí)行能力。如果這些能力都不具備,其實(shí)串接在一起仍然不然獲得你所理想中的那種智能體的能力。
這里面是實(shí)驗(yàn)室把智能體具像化,智能體不一定是機(jī)器人,它可以是各種軟件系統(tǒng)。

計(jì)算環(huán)境:云側(cè)還在指數(shù)式成長,端側(cè)即將迎來黃金增長期
芯片進(jìn)入到后摩爾定律時(shí)代,未來算力會(huì)變成體量的拓展,越來越多的芯片連接在一起,建成越來越大的計(jì)算中心,支撐對(duì)通用人工智能的追求。
最終瓶頸不再是芯片,而是能源。
現(xiàn)在,小規(guī)格的大語言模型已具備較強(qiáng)性能水平和實(shí)用可能性,優(yōu)秀的模型越做越小,可以進(jìn)入到手機(jī)直接運(yùn)行。
林達(dá)華表示,隨著端側(cè)算力快速增長,端側(cè)即將迎來黃金增長期,云端協(xié)同將成為未來重要趨勢,由云側(cè)計(jì)算建立天花板,端側(cè)計(jì)算將支撐用戶使用大規(guī)模放量。
國內(nèi)外差距:和GPT-4真正差距是推理能力
國內(nèi)前列的模型在主客觀表現(xiàn)上都超過了GPT-3.5。
但同時(shí)需注意,國內(nèi)大模型與GPT-4的真正差距在于推理能力。
林達(dá)華稱,特別是隨著推理難度的提升,GPT-4和其他模型,重量級(jí)模型和輕量級(jí)模型逐漸拉開差距。相比常識(shí)推理、演繹推理,歸納推理是差距最大的類型。
One More Thing
在對(duì)談中,林達(dá)華還表達(dá)了對(duì)國內(nèi)大模型落地的看法。
觀國內(nèi)當(dāng)下的最大的優(yōu)勢,是應(yīng)用場景非常非常多。
如果有套生態(tài),能夠讓大家用大模型去探索在哪些地方能用,哪些地方不能用,在應(yīng)用上的探索速度和體量可能更快。
不過,他同時(shí)表示:
不能因?yàn)槲覀冊(cè)趹?yīng)用落地上的繁花似錦,就掩蓋我們?nèi)ニ伎剂硪粋€(gè)問題——?dú)w于最終,還是要提升創(chuàng)新能力和原創(chuàng)水平。
- “智元機(jī)器人收購A股上市公司是創(chuàng)新需要…現(xiàn)金流能撐三年”2025-08-22
- 稚暉君新大招:機(jī)器人二次開發(fā)0門檻了!2025-08-22
- 賣酒的茅臺(tái)要學(xué)AI了!和奔馳麥當(dāng)勞一起拜師百度2025-08-17
- VLA進(jìn)化后降維打擊!雙手揀貨,漂移操作,還能批量化秀舞,太空艙直接開上街,被銀河通用卷到了2025-08-11