你好,這是微視AI還原的李煥英
網(wǎng)友:太感動了
魚羊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
看,李煥英這親切的笑容、明亮的眼眸,是否與銀幕上那個她一樣有感染力?
你的長輩年輕時,又是否像這張老照片里的人一樣,劍眉星目,神采飛揚:
要說最近最火的AI玩法,那真是非騰訊微視“會動的老照片”這類特效莫屬。
表情遷移技術(shù)與基于GAN的老照片修復(fù)技術(shù)強強聯(lián)合,給人一種打開了時光機的感覺,仿佛真的能與老照片里的人隔空對話,追憶往昔。
△“我的女兒,我就要她健康快樂”
并且用戶無需任何加工,只需在微視APP里上傳一張照片,不到一分鐘,都能親自開啟這樣的“時間魔法”。
這不,一經(jīng)上線,就吸引了15萬用戶體驗,視頻播放量高達(dá)5800萬。

更有不少網(wǎng)友在看到這樣特效后直接淚目:


麻瓜的魔法
說起來,讓照片動起來的“魔法”,在2019年就曾帶起一波時尚風(fēng)潮,令網(wǎng)友直呼“哈利波特”。
比如,來自意大利特倫托大學(xué)的一篇NeurIPS 2019論文,就介紹了一種名為一階運動模型(First Order Motion Model)的方法。
通過運動估計模塊和圖像生成模塊,這個AI能讓川建國和《冰與火之歌》里的史塔克們實現(xiàn)眨眼、搖頭神同步。
除了“會動的老照片”,基于這類技術(shù),騰訊微視上還能這樣玩:
一鍵讓清朝皇帝們齊唱畫畫的baby。
而圍繞圖像生成,AI這種麻瓜的魔法能實現(xiàn)的效果,當(dāng)然還不止如此。
正如前文所提到的,要實現(xiàn)“會動的老照片”這一特效,除了動態(tài)的部分,在提升清晰度方面,也少不了GAN的功勞——這也是近年來人臉特效方面最熱的課題之一。
單單基于GAN,騰訊微視上就還有這樣的玩法:
做人嘛,最重要就是開心。對著鏡頭笑不出來?AI分分鐘幫你打造完美笑容。
減齡10歲,也不在話下。
還能秒變歐美臉。
不過,雖然以上方法相關(guān)的開源代碼不少,但想把它集成到一個手機App里,仍然需要在算法優(yōu)化和工程實踐上下功夫打磨。
具體騰訊微視是如何實現(xiàn)的呢?
首先,在生成模型方面,技術(shù)團(tuán)隊針對不同場景,先后研發(fā)迭代了三種大模型:
在非成對數(shù)據(jù)比較豐富的場景下,基于CycleGAN思想,打造能夠?qū)崿F(xiàn)有條件生成的Cycle-StyleGAN模型。

在只有少量非成對數(shù)據(jù)的真實人臉生成場景中,采用基于隱向量的屬性編輯思想,利用如StyleGAN這樣的預(yù)訓(xùn)練生成模型,在隱向量空間中找出代表目標(biāo)屬性的方向向量,以實現(xiàn)對眉毛、眼睛這樣的面部屬性的控制。
而在只有少量非成對數(shù)據(jù)的風(fēng)格化場景中,技術(shù)團(tuán)隊提出了基于小樣本的模型融合方法。主要思想是,在收集的少量數(shù)據(jù)上對預(yù)訓(xùn)練模型進(jìn)行微調(diào),然后,將微調(diào)后的模型與原始模型融合得到一個混合模型,這樣,該模型既能生成目標(biāo)風(fēng)格的圖片,又兼具原始預(yù)訓(xùn)練模型強大多樣的生成能力。
而在動作遷移方面,技術(shù)團(tuán)隊實現(xiàn)了實時的輕量化人臉動作遷移。
具體而言,在大模型層面,技術(shù)人員借鑒Monkey-Net和一階運動模型等所采用的基于關(guān)鍵點軌跡的反向光流預(yù)測方法,先以無監(jiān)督形式估計每一對關(guān)鍵點的位置,得到稀疏動作光流,再預(yù)測加權(quán)掩膜得到稠密動作光流。
而為了實現(xiàn)更強的變形能力和動作建模能力,技術(shù)人員還引入了透視變換項,使得稀疏動作光流可以學(xué)習(xí)到更加復(fù)雜的變換類型。
而為了實現(xiàn)手機端的實時推斷,技術(shù)團(tuán)隊還進(jìn)行了小模型層面的優(yōu)化:
- 網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化。對于模型中的各個模塊,借鑒GhostNet分別設(shè)計相應(yīng)的小模型結(jié)構(gòu),從而將模型大小縮減99.2%,GFLOPs降低97.7%。
- 分階段蒸餾訓(xùn)練。如果直接從零開始訓(xùn)練小模塊,模型將無法收斂,主要是因為模塊之間為串行關(guān)系,前者的輸出將作為后者的輸入,因此需要采取分階段訓(xùn)練的策略。同時,引入知識蒸餾的思想,使得小模型可以成功學(xué)習(xí)到大模型的能力。
- 工程優(yōu)化。例如緩存模型當(dāng)中,需要重復(fù)使用的一些常量、優(yōu)化代碼邏輯、節(jié)省推斷時無需重復(fù)進(jìn)行的步驟等。同時,手機端的部署和實時推理均借助騰訊自研的TNN推理框架實現(xiàn),測試結(jié)果顯示,對比其他框架,在大部分場景下TNN具有一定提速增效的優(yōu)勢。
相關(guān)技術(shù)人員還透露,針對不同配置的手機,他們進(jìn)行了有針對性的分檔優(yōu)化。從效果上來看,即使是配置較低的千元機,也能以15FPS以上的幀率流暢運行老照片修復(fù)這樣的特效。
最潮的AI,也可以低門檻
以上算法實現(xiàn),均來自騰訊微視拍攝算法團(tuán)隊和騰訊平臺與內(nèi)容事業(yè)群(PCG)應(yīng)用研究中心共同研發(fā)。

騰訊微視拍攝算法團(tuán)隊致力于圖像/視頻方向的技術(shù)探索,并依托豐富的業(yè)務(wù)場景,一直在探索前沿AI和CV算法在內(nèi)容生產(chǎn)和消費領(lǐng)域的應(yīng)用和落地。應(yīng)用研究中心則被稱作騰訊PCG的“偵察兵”、“特種兵”,站在騰訊探索、挑戰(zhàn)智能媒體相關(guān)前沿技術(shù)的第一線。
通常而言,特效算法的更新?lián)Q代節(jié)奏很快,從研發(fā)到上線,周期大概在1到1個半月之間。團(tuán)隊成員也坦言:推動技術(shù)落地產(chǎn)出,讓用戶能夠低成本、第一時間上手體驗,是團(tuán)隊最看重的目標(biāo)。
但這并不意味著快速迭代是這支技術(shù)團(tuán)隊唯一的節(jié)奏。
實際上,對前沿技術(shù)的主動出擊、長期關(guān)注正是其技術(shù)底氣的來源:
對于更加前沿、更有難度的算法,以及一些不常見的模型效果,我們會投入5-6個月甚至更長的時間去攻堅克難。
在這個過程中,團(tuán)隊會把從算法到工程的框架全部搭好。而這些積累,也就是后續(xù)項目能夠快速上線的基石。
而多種多樣新AI玩法的靈感,同樣來源于這樣對學(xué)術(shù)前沿、熱點的持續(xù)關(guān)注。
同時,也離不開這樣的初衷:
讓最潮的AI玩法,以最低的門檻跟用戶見面。
— 完 —