兆級長文本,已是一線大模型機構標配能力丨上海AI Lab林達華
大海撈針也沒有那么難
衡宇 發(fā)自 阿拉上海
量子位 | 公眾號 QbitAI
“據(jù)我了解,國內(nèi)多個一線大模型機構,都已經(jīng)突破了兆級的長文本能力。”
以上,是“2024全球開發(fā)者先鋒大會”大模型前沿論壇會間隙,上海人工智能實驗室領軍科學家林達華與量子位的交談剪影。
林達華,深度學習與計算機專家,香港中文大學教授,他是商湯聯(lián)合創(chuàng)始人,也是商湯創(chuàng)始人湯曉鷗的學生,是國際上最具影響力的視覺算法開源項目OpenMMLab的主導發(fā)起人。在大模型時代,他帶領了書生·浦語InternLM開源大模型體系以及OpenCompass司南大模型評測體系的研發(fā)工作。
林達華預估,第一季度左右,各家都會對大模型上下文窗口兆級能力“亮劍”。

同時,他表達了與月之暗面同樣的態(tài)度,即大海撈針其實沒有那么難。
難的是海里不止一根針,應有無數(shù)的碎片化信息藏在各個地方,(大模型)把所有東西串接一起,做比較深層次的結論。
就像讀福爾摩斯偵探小說,讀完后綜合判斷兇手是誰——這就不是一個簡單的檢索問題。
近期,各家大模型于長文本賽道上卷生卷死,但是否應把它作為最主要的方向去打磨,大家有不同的判斷。
林達華點出,應該要評估衡量超長文本能力的計算代價,“無損長上下文窗口,每一次響應都是很昂貴的過程,對應用來說,這個性價比是不是最理想的?我覺得值得探討?!?/p>

長文本相關問題只是林達華表達自己思考和見解的一小個片段。
在這場大模型前沿論壇上,他以業(yè)界躬身入局者的身份,回望過去“群模亂舞”的一年,總結出大模型賽道的四點現(xiàn)狀:
- OpenAI引領技術潮流,Google緊緊追趕,Claude異軍突起;
- 上下文、推理能力、更高效的模型架構是技術探索的重點方向;
- 輕量級模型嶄露頭角;
- 開源模型快速發(fā)展,開放生態(tài)已成氣候。

林達華還表示,大模型時代,技術演進有兩股主要的驅(qū)動力量:
一是對AGI的追求,對Scaling Law的信仰;
二是對大模型帶來新一次產(chǎn)業(yè)變革的憧憬。
除此之外,更詳細的回望和前瞻性觀點,在林達華口中一一道來。

模型架構:從追求參數(shù)到追求更高效的Scale
Transformer架構對計算資源的消耗巨大。
前幾日的黃仁勛與Transformer七子路邊對話中,Transformer作者Aidan Gomez語氣堅定,“世界需要比Transformer更好的東西(the world needs something better than Transformers)”。
業(yè)界已經(jīng)開始從追求參數(shù),過渡轉(zhuǎn)換為追求更高效的規(guī)模。
其中,MoE值得關注,業(yè)界同時在探索Mamba模型等,以低復雜度的注意力架構更高效地處理上下文。

訓練數(shù)據(jù):從追求數(shù)量到尋求規(guī)?;瘶嬙旄哔|(zhì)量數(shù)據(jù)的路徑
訓練數(shù)據(jù)包括三要素:
規(guī)模、質(zhì)量、多樣性。
在規(guī)模方面,早在ChatGPT之前,DeepMind等研究報告已指出訓練數(shù)據(jù)要和模型參數(shù)同步增長。
而訓練數(shù)據(jù)的質(zhì)量對模型水平影響很大,低質(zhì)量數(shù)據(jù)對模型可能產(chǎn)生破壞性影響。增強數(shù)據(jù)的知識密度,能帶來更高的訓練效率。
此外,好的數(shù)據(jù)集是非常多樣化的,均衡分布在充分大的語義空間中。
互聯(lián)網(wǎng)語料數(shù)據(jù)的分布極不均勻,存在大量低水平重復的語言模式,可能帶來模型能力的塌縮,“10%的帶有重復模式的數(shù)據(jù)注入到訓練集里,有可能會使得模型降級到原來1/2的體量。”
合理的resampling(重采樣)策略能大幅度降低其負面影響。因此,業(yè)界也在從追求訓練數(shù)據(jù)數(shù)量,過渡向到尋求規(guī)?;瘶嫿ǜ哔|(zhì)量數(shù)據(jù)。

多模態(tài):多模態(tài)融合將成為重要趨勢,技術探索仍在路上
多模態(tài)融合將成為重要技術趨勢,但技術探索仍在路上。
相比語言,多模態(tài)模型的訓練多了一個重要維度,即圖像和視頻的分辨率對多模態(tài)模型最終的性能表現(xiàn)有重要影響。
如果使用非常高的分辨率進行多模態(tài)的訓練和推理,模型能夠得到巨大提升,但高分辨率會帶來高計算成本。
“如何在高分辨率和合理計算成本之間取得最佳平衡,這為架構研究帶來了很大的創(chuàng)新空間?!?/p>

智能體:大模型應用的重要形態(tài),但需要核心基礎能力的支撐
要讓大模型真正進入到應用的場景和生產(chǎn)的場景的時候,它需要跟系統(tǒng)、跟場景、跟里面所有的事情互動。因此,需要給大模型裝上手腳,然后就能不斷地發(fā)出指令做出反饋,這就是一個智能體,這就是場景應用價值的系統(tǒng)。
智能體并不是一個簡單的流程化過程。
它需要建立在一個非常堅實的基礎模型上,具有很強的指令跟隨能力、理解能力、反思能力和執(zhí)行能力。如果這些能力都不具備,其實串接在一起仍然不然獲得你所理想中的那種智能體的能力。
這里面是實驗室把智能體具像化,智能體不一定是機器人,它可以是各種軟件系統(tǒng)。

計算環(huán)境:云側還在指數(shù)式成長,端側即將迎來黃金增長期
芯片進入到后摩爾定律時代,未來算力會變成體量的拓展,越來越多的芯片連接在一起,建成越來越大的計算中心,支撐對通用人工智能的追求。
最終瓶頸不再是芯片,而是能源。
現(xiàn)在,小規(guī)格的大語言模型已具備較強性能水平和實用可能性,優(yōu)秀的模型越做越小,可以進入到手機直接運行。
林達華表示,隨著端側算力快速增長,端側即將迎來黃金增長期,云端協(xié)同將成為未來重要趨勢,由云側計算建立天花板,端側計算將支撐用戶使用大規(guī)模放量。
國內(nèi)外差距:和GPT-4真正差距是推理能力
國內(nèi)前列的模型在主客觀表現(xiàn)上都超過了GPT-3.5。
但同時需注意,國內(nèi)大模型與GPT-4的真正差距在于推理能力。
林達華稱,特別是隨著推理難度的提升,GPT-4和其他模型,重量級模型和輕量級模型逐漸拉開差距。相比常識推理、演繹推理,歸納推理是差距最大的類型。
One More Thing
在對談中,林達華還表達了對國內(nèi)大模型落地的看法。
觀國內(nèi)當下的最大的優(yōu)勢,是應用場景非常非常多。
如果有套生態(tài),能夠讓大家用大模型去探索在哪些地方能用,哪些地方不能用,在應用上的探索速度和體量可能更快。
不過,他同時表示:
不能因為我們在應用落地上的繁花似錦,就掩蓋我們?nèi)ニ伎剂硪粋€問題——歸于最終,還是要提升創(chuàng)新能力和原創(chuàng)水平。
- “智元機器人收購A股上市公司是創(chuàng)新需要…現(xiàn)金流能撐三年”2025-08-22
- 稚暉君新大招:機器人二次開發(fā)0門檻了!2025-08-22
- 賣酒的茅臺要學AI了!和奔馳麥當勞一起拜師百度2025-08-17
- VLA進化后降維打擊!雙手揀貨,漂移操作,還能批量化秀舞,太空艙直接開上街,被銀河通用卷到了2025-08-11