国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

人大系初創(chuàng)與OpenAI三次“撞車”：類Sora架構(gòu)一年前已發(fā)論文

衡宇 2024-03-07 12:29:53 來源：量子位

大模型屆的汪峰？？？

金磊衡宇發(fā)自凹非寺

量子位 | 公眾號 QbitAI

Sora一出，諸多創(chuàng)業(yè)公司的命運因之改變。

我們最近聽說了個超級戲劇性的故事，就在中國，就是中關(guān)村的一家創(chuàng)業(yè)公司：

Sora出世前，他們拿著一篇如今被ICLR 2024接收的論文，十分費勁地為投資人、求知者講了大半年，卻處處碰壁。

春節(jié)后，打電話來約見團隊的投資人排起了長隊，都是要學(xué)習(xí)Sora、學(xué)習(xí)團隊論文成果。

為什么？

答案很簡單，Sora本來就是新晉頂流，再一次親身實踐了scaling law的正確可行。

更何況Sora背后的架構(gòu)，與這支團隊快1年前發(fā)表的論文提出的基于Transformer的Video統(tǒng)一生成框架，大、撞、車。

撞車到什么程度呢？用團隊自身的話來說，“可以說是幾乎一模一樣，嗯，就還得仔細(xì)地找到底哪里不同”。

敢這么說話，有點意思。

要知道，國內(nèi)諸多團隊都在通往AGI的道路上苦苦耕耘，但很多人至今還是很不看好國內(nèi)團隊的技術(shù)創(chuàng)新能力。如果事實真像團隊所說，那這就是國內(nèi)隊伍有實力做最前沿創(chuàng)新的實際證明。

于是，量子位得知后，火速聯(lián)系上這個團隊，帶著大家第一時間把撞車瓜徹底吃透。

（淺淺劇透一下，后來我們發(fā)現(xiàn)跟Sora撞車這個瓜背后，還有更戲劇的故事）

人大系初創(chuàng)與OpenAI三次“撞車”：類Sora架構(gòu)一年前已發(fā)論文

誰在和OpenAI“撞車”？

不賣關(guān)子，和OpenAI“撞車”的這家初創(chuàng)公司，正是成立于2021年的智子引擎。

而在它的身上，有太多的屬性和標(biāo)簽值得說道說道。

90后CEO：由中國人民大學(xué)高瓴人工智能學(xué)院博士生高一釗創(chuàng)立。
人大系：核心團隊成員多數(shù)來自人大，并且由高瓴人工智能學(xué)院盧志武教授擔(dān)任顧問一職。
多模態(tài)大模型：公司成立之際大語言模型依舊是主流，卻早早打入多模態(tài)這條“無人區(qū)”的賽道。

從目前智子引擎所交出的“作業(yè)”來看，最為矚目當(dāng)屬于2023年3月發(fā)布的世界首個公開評測多模態(tài)對話應(yīng)用ChatImg（元乘象），并且已經(jīng)迭代到了3.5版本。

例如給ChatImg隨機投喂一張圖片，它可以立即用看圖說話，用文字精準(zhǔn)描述圖片中的內(nèi)容。

而且在問及觀點性問題時，例如“是否合理”，ChatImg的回答也是近乎接近人類的理解。

至于剛才提到與Sora“撞車”的論文，正是由這家“人大系”初創(chuàng)領(lǐng)銜，并聯(lián)合伯克利、港大等單位于2023年5月發(fā)表在arXiv上的VDT。

在我們與盧志武教授交流過程中，他這樣形容看到Sora技術(shù)報告后的感受：

像，實在是太像了。

因為Sora在技術(shù)架構(gòu)上所采用的是Diffusion Transformer，這是區(qū)別于以往文生視頻（基于Stable Diffusion等）工作的關(guān)鍵點之一。

而僅從VDT論文的標(biāo)題中，我們就不難發(fā)現(xiàn)，智子引擎在技術(shù)架構(gòu)上早已提出并采用了Diffusion Transformer，而且是首發(fā)的那種。

但單從Diffusion Transformer還不足以說明“大撞車”，我們還需看一下VDT論文里的個中細(xì)節(jié)。

首先，在時空注意力機制方面，VDT在Transformer中集成了專門設(shè)計的時間注意力和空間注意力模塊，這樣就可以讓模型能夠更好地捕捉和理解視頻數(shù)據(jù)中的時空關(guān)系。

舉個例子

，假設(shè)你在看一部電影，導(dǎo)演通過鏡頭的切換和場景的布局來引導(dǎo)你關(guān)注故事的關(guān)鍵部分。時空注意力機制就像這樣的導(dǎo)演，它讓VDT能夠捕捉視頻中的關(guān)鍵時刻和動作，使得生成的視頻更加生動和連貫。

其次，是模塊化設(shè)計，VDT的Transformer塊是模塊化的，這意味著它可以根據(jù)不同的視頻生成任務(wù)靈活調(diào)整，而不需要對整個模型架構(gòu)進行大規(guī)模修改。

模塊化設(shè)計就好比像樂高積木一樣，可以用不同的積木塊來構(gòu)建各種形狀和結(jié)構(gòu)，通過組合不同的模塊來適應(yīng)不同的視頻生成任務(wù)，比如制作動畫或者預(yù)測未來的視頻幀等等。

最后，則是VDT提出的一種統(tǒng)一的時空掩模建模機制，可以允許模型在不同的視頻生成任務(wù)中使用相同的架構(gòu)，通過調(diào)整掩模來適應(yīng)不同的輸入和輸出需求。

它就宛如一個多功能工具箱，里面的工具可以用來做各種不同的修理工作，不需要額外為每種工作單獨購買工具；因此，VDT能夠在多種視頻生成任務(wù)中發(fā)揮作用，而不需要每次都重新訓(xùn)練。

然后我們再對比Sora技術(shù)報告和VDT論文，就不難發(fā)現(xiàn)二者的大體思路是非常相似的。

例如Sora基于Transformer的特性使得它天然具有處理時空數(shù)據(jù)的能力，因為它可以捕捉視頻中的長期依賴關(guān)系。

Sora使用了一個視頻壓縮網(wǎng)絡(luò)來降低視覺數(shù)據(jù)的維度，這可以看作是一種模塊化設(shè)計，因為它將視頻處理分解為壓縮和解碼兩個獨立的步驟。

以及Sora能夠處理不同時長、分辨率和寬高比的視頻和圖像，這表明它也有一個類似“多功能工具箱”一樣的統(tǒng)一表示方法來處理各種類型的輸入數(shù)據(jù)。

至于區(qū)別之處，可能僅是一些實現(xiàn)方法上的細(xì)節(jié)。

例如在時空維度的處理上，VDT是分別進行注意力機制，而Sora則是將時間和空間統(tǒng)一，進行單一的處理；再如Sora還考慮到了將文本條件融合等等。

既然技術(shù)上如此高度相似，很多人或許也會好奇，為什么Sora能做出來長達1分鐘的高質(zhì)量視頻，而VDT卻沒能出效果呢？

對此，盧志武教授也做出了解釋：

我們當(dāng)時的探索是理論方向上的，雖然沒有做過生成60秒這么長時間的視頻，但是我們做過一個物理實驗，發(fā)現(xiàn)VDT是可以支持3D生成的，這也意味著VDT的方法在學(xué)習(xí)物理規(guī)律上具備較強的能力，這一點與OpenAI的思路不謀而合。

除此之外，盧志武教授也坦然地承認(rèn)，要是想要做到Sora的效果，還需要非常龐大的算力支撐，這一點對于高校實驗室來說著實是有些困難。

總而言之，無論是從發(fā)布時間還是技術(shù)架構(gòu)來看，VDT在技術(shù)路線上確實是與OpenAI的Sora發(fā)生了一次“撞車”事件。

不過有趣的一點是，在我們與智子引擎交流過程中還發(fā)現(xiàn)了更加戲劇性的事情——

這不是第一次與OpenAI“撞車”，前后竟然足足發(fā)生過三次！

一直與OpenAI同路，此前已經(jīng)兩次“撞車”

先簡單概括，智子引擎和OpenAI三次撞車，第一次是與Clip，第二次是與GPT-4V，第三次就是與剛剛發(fā)布的Sora。

乍一聽，可能會覺得有點想笑，怎么智子引擎像是大模型屆的汪峰（汪峰老師對不起），每次都被OpenAI搶過風(fēng)頭？

但你仔細(xì)想想，這可能是一種側(cè)面說明：

這支國內(nèi)團隊長久地和OpenAI一路同行，在不知哪條路是通往AGI的情況下，甚至某些OpenAI都沒有打樣的時刻，居然每一步都走對了。

下面詳細(xì)說說同樣令人慨嘆萬千的“撞車”事件——

第一次與OpenAI發(fā)生“撞車”的故事，時間還需要追溯到2020年。

當(dāng)時智子引擎并沒有成立公司，彼時國內(nèi)外在大模型技術(shù)上也還是聚焦于文本，例如OpenAI的GPT-3，以及國內(nèi)北京智源人工智能研究院悟道項目等等。

但盧志武教授和高瓴人工智能學(xué)院的團隊（即核心團隊前身）便已經(jīng)著手準(zhǔn)備自研多模態(tài)大模型；方式是參與到由高瓴人工智能學(xué)院院長文繼榮帶隊的悟道·文瀾。

到了2020年12月，這支小分隊便已經(jīng)完成了文瀾的訓(xùn)練工作并發(fā)布了1.0的版本，是國內(nèi)第一個大規(guī)模預(yù)訓(xùn)練的多模態(tài)模型，并首次運用多模態(tài)弱相關(guān)概念完成訓(xùn)練。

而時隔僅一個月，OpenAI便在多模態(tài)大模型領(lǐng)域出手了——2021年1月發(fā)布CLIP。由此，文瀾和CLIP一道，成為了多模態(tài)領(lǐng)域的開山之作。

值得一提的是，在同年的6月份，文瀾還進行了一次迭代，發(fā)布2.0版本，參數(shù)量為50億，訓(xùn)練數(shù)據(jù)量達6.5億。

并且相關(guān)論文還在2022年被Nature Communications接收，成為世界首個被Nature子刊接收的多模態(tài)領(lǐng)域論文。

不難看出，智子引擎前身團隊早在數(shù)年前便已經(jīng)和OpenAI在多模態(tài)大模型的研究和進展上保持了近乎相同甚至超前的節(jié)奏。

這便是智子引擎與OpenAI的第一次“撞車”。

自身已經(jīng)有所研究和理解，加之OpenAI也在跟進，因此，這支隊伍認(rèn)為多模態(tài)大模型是值得繼續(xù)做下去的方向。

于是正如我們剛才提到的，智子引擎在2021年正式成立，公司的“標(biāo)簽”也是非常明確，就是多模態(tài)大模型。

而這也為智子引擎與OpenAI的第二次“撞車”埋下了伏筆。

2023年3月8日，在潛心“苦修”了長達兩年之久過后，正如我們剛才提到的，智子引擎正式發(fā)布了自己的第一個多模態(tài)產(chǎn)品——

ChatImg，是世界首個公開評測的通用多模態(tài)對話應(yīng)用。

據(jù)了解，ChatImg在技術(shù)上是基于多模態(tài)融合模塊和語言解碼器，參數(shù)量大約為150億，主打的就是讓AI學(xué)會看圖說話。

除了剛才我們展示的例子之外，ChatImg甚至是可以看一眼圖片，然后直接給用戶編故事。

而OpenAI這邊，則是在2023年3月15日，發(fā)布了其多模態(tài)預(yù)訓(xùn)練大模型GPT-4。

在這一節(jié)點上，智子引擎再次與OpenAI在多模態(tài)大模型上“撞了一次車”，并且是提前發(fā)布了整整一周的那種。

至于智子引擎為何會選擇3月8日，其實也與OpenAI有著千絲萬縷的關(guān)系，用盧志武教授的話來說就是：

自ChatGPT在去年11月30日問世以來，經(jīng)過多方評估，普遍認(rèn)為傳統(tǒng)的研究模式正遭遇重大考驗。以往的自然語言處理研究多聚焦于單一任務(wù)，如翻譯、命名實體識別、情感分析等，通常需要分別訓(xùn)練不同的小型模型。然而，隨著ChatGPT的問世，一個統(tǒng)一的大型模型就能夠勝任這些任務(wù)，使得針對單一任務(wù)的獨立研究變得不再那么重要。

盡管ChatGPT的發(fā)布對多模態(tài)研究領(lǐng)域的影響相對較小，因為它主要擅長處理文本信息，但我們也聽聞了GPT-4有意涉足多模態(tài)領(lǐng)域的傳聞，這讓我們感到緊迫。因此，我們的團隊迅速行動，大約用了幾個月的時間來訓(xùn)練ChatImg，并在3月8日成功推出，搶在GPT-4之前。

然而，這還是第二次“撞車”的一個開始。

在ChatImg發(fā)布2個月之后，智子引擎便將其迭代到了2.0版本，這一次，更是將看視頻說話的功能融入了進來。

而OpenAI在多模態(tài)領(lǐng)域后來的大動作，應(yīng)當(dāng)屬同年9月份所發(fā)布的GPT-4V，新增了語言和圖像交互功能。

但從5月份到現(xiàn)在這期間，智子引擎在多模態(tài)大模型上的腳步其實也并沒有放緩。

除了剛才我們提到的與Sora相似架構(gòu)的VDT研究之外，智子引擎更多的是將精力投入到了如何把ChatImg用起來。

正如高一釗在與我們交流過程中所述：

我們在2023年5月和8月分別拿到了兩筆融資之后，實際上花了半年的時間去探索落地，就看我們這個模型到底能干啥。

在經(jīng)過大半年的時間之后，我們的驗證基本上已經(jīng)通過了，發(fā)現(xiàn)在To B業(yè)務(wù)上有很大的落地價值。

通過我們的多模態(tài)大模型，可以將圖片和視頻中的內(nèi)容轉(zhuǎn)變成文字，在非常復(fù)雜的交通、電網(wǎng)、化工等場景中，可以大幅降低高昂的人力成本。

因此，從商業(yè)化的角度來看，智子引擎似乎在多模態(tài)領(lǐng)域又比OpenAI提前了一步。

在智子引擎這里，多模態(tài)技術(shù)與商業(yè)化是并駕齊驅(qū)的。團隊看來，與AI研發(fā)相比，應(yīng)用場景的拓展和落地同等重要，二者雙線程推進，才能形成閉環(huán)效應(yīng)。

在電網(wǎng)、電力、化工、巡檢等多個場景，基于大模型的泛化能力和涌現(xiàn)特性，智子引擎已經(jīng)利用一個多模態(tài)大模型，滿足了過去十幾乃至幾十個小模型才能解決的實際需求。

“我們對2024年收入實現(xiàn)爆發(fā)性增長非常有信心?！鄙虡I(yè)化進展順利，研發(fā)的資金支持也就有了眉目。

那么接下來的一個問題：

三次“撞車”，意味著什么？

Sora為AI視頻賽道再添一把烈火后，大家都在打問號，和一年前拿著ChatGPT追問如出一轍：

誰能第一個復(fù)現(xiàn)Sora？在奔向AGI終極目標(biāo)的道路上，我們與國外的差距，是不是又被拉大了？

但冷靜下來，看看咱們手里已經(jīng)有了的技術(shù)，事實或許并沒有那么悲觀。

就拿智子引擎來說吧，和OpenAI技術(shù)路線的撞車一次，可能是單純的巧合，或有許多運氣成分在。

但三個顛覆性節(jié)點的三次撞車，似乎已經(jīng)能夠說明，國內(nèi)確確實實有這么一家大模型公司代表，長年以來所堅持的通往AGI的技術(shù)路線，步子其實都踩在后來公認(rèn)的正確路線上。

甚至有一兩步，還邁在了業(yè)內(nèi)王者OpenAI之前。

這還只是一家公司。別忘了，智子引擎只是國內(nèi)大模型初創(chuàng)公司的一個典型代表，是業(yè)界學(xué)界千千萬萬AI研究團隊的縮影。

我們近期搜集到不少業(yè)內(nèi)人士討論及觀點——尤其是Claude 3問鼎全球大模型王座，在多個角度超越GPT-4后，大伙兒對OpenAI的過分神話更加趨于冷靜。

甚至開始呼吁，目光不必過多聚焦在國外巨頭身上。

放眼國內(nèi)，也有很多成果是世界領(lǐng)先、值得借鑒的。不少還像智子引擎的VDT一樣，不僅走在世界前面的，更重要的是，核心技術(shù)是國內(nèi)學(xué)者原創(chuàng)提出的。

Sora時代，我們與最尖端的水平，或許比GPT時代的差距更小。

當(dāng)然了，也許你和我們一樣有疑問，都說了技術(shù)撞車，還發(fā)表在前，為什么拿出震驚世界demo的，不是VDT而是Sora？

“因為計算資源的限制，我們沒能做出OpenAI那樣長達60s的高質(zhì)量視頻?！钡谌巫曹嚱o智子引擎帶來的不只是遺憾，也不只是對團隊思路的外部肯定。

更多的還有數(shù)不清的機會——

現(xiàn)在，因為Sora的舉世矚目，VDT這樣曾經(jīng)給外人講不透的技術(shù)來到聚光燈下，得到了更多的曝光。

一切都有了更大的可能性。

論文地址：https://arxiv.org/pdf/2305.13311.pdf

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

衡宇

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

人大系初創(chuàng)與OpenAI三次“撞車”：類Sora架構(gòu)一年前已發(fā)論文

誰在和OpenAI“撞車”？

一直與OpenAI同路，此前已經(jīng)兩次“撞車”

三次“撞車”，意味著什么？

熱門文章

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

人大系初創(chuàng)與OpenAI三次“撞車”：類Sora架構(gòu)一年前已發(fā)論文

誰在和OpenAI“撞車”？

一直與OpenAI同路，此前已經(jīng)兩次“撞車”

三次“撞車”，意味著什么？

熱門文章

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

一直與OpenAI同路，此前已經(jīng)兩次“撞車”

三次“撞車”，意味著什么？

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度