你好,這是微視AI還原的李煥英
網(wǎng)友:太感動(dòng)了
魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
看,李煥英這親切的笑容、明亮的眼眸,是否與銀幕上那個(gè)她一樣有感染力?
你的長(zhǎng)輩年輕時(shí),又是否像這張老照片里的人一樣,劍眉星目,神采飛揚(yáng):
要說(shuō)最近最火的AI玩法,那真是非騰訊微視“會(huì)動(dòng)的老照片”這類特效莫屬。
表情遷移技術(shù)與基于GAN的老照片修復(fù)技術(shù)強(qiáng)強(qiáng)聯(lián)合,給人一種打開(kāi)了時(shí)光機(jī)的感覺(jué),仿佛真的能與老照片里的人隔空對(duì)話,追憶往昔。
△“我的女兒,我就要她健康快樂(lè)”
并且用戶無(wú)需任何加工,只需在微視APP里上傳一張照片,不到一分鐘,都能親自開(kāi)啟這樣的“時(shí)間魔法”。
這不,一經(jīng)上線,就吸引了15萬(wàn)用戶體驗(yàn),視頻播放量高達(dá)5800萬(wàn)。

更有不少網(wǎng)友在看到這樣特效后直接淚目:


麻瓜的魔法
說(shuō)起來(lái),讓照片動(dòng)起來(lái)的“魔法”,在2019年就曾帶起一波時(shí)尚風(fēng)潮,令網(wǎng)友直呼“哈利波特”。
比如,來(lái)自意大利特倫托大學(xué)的一篇NeurIPS 2019論文,就介紹了一種名為一階運(yùn)動(dòng)模型(First Order Motion Model)的方法。
通過(guò)運(yùn)動(dòng)估計(jì)模塊和圖像生成模塊,這個(gè)AI能讓川建國(guó)和《冰與火之歌》里的史塔克們實(shí)現(xiàn)眨眼、搖頭神同步。
除了“會(huì)動(dòng)的老照片”,基于這類技術(shù),騰訊微視上還能這樣玩:
一鍵讓清朝皇帝們齊唱畫畫的baby。
而圍繞圖像生成,AI這種麻瓜的魔法能實(shí)現(xiàn)的效果,當(dāng)然還不止如此。
正如前文所提到的,要實(shí)現(xiàn)“會(huì)動(dòng)的老照片”這一特效,除了動(dòng)態(tài)的部分,在提升清晰度方面,也少不了GAN的功勞——這也是近年來(lái)人臉特效方面最熱的課題之一。
單單基于GAN,騰訊微視上就還有這樣的玩法:
做人嘛,最重要就是開(kāi)心。對(duì)著鏡頭笑不出來(lái)?AI分分鐘幫你打造完美笑容。
減齡10歲,也不在話下。
還能秒變歐美臉。
不過(guò),雖然以上方法相關(guān)的開(kāi)源代碼不少,但想把它集成到一個(gè)手機(jī)App里,仍然需要在算法優(yōu)化和工程實(shí)踐上下功夫打磨。
具體騰訊微視是如何實(shí)現(xiàn)的呢?
首先,在生成模型方面,技術(shù)團(tuán)隊(duì)針對(duì)不同場(chǎng)景,先后研發(fā)迭代了三種大模型:
在非成對(duì)數(shù)據(jù)比較豐富的場(chǎng)景下,基于CycleGAN思想,打造能夠?qū)崿F(xiàn)有條件生成的Cycle-StyleGAN模型。

在只有少量非成對(duì)數(shù)據(jù)的真實(shí)人臉生成場(chǎng)景中,采用基于隱向量的屬性編輯思想,利用如StyleGAN這樣的預(yù)訓(xùn)練生成模型,在隱向量空間中找出代表目標(biāo)屬性的方向向量,以實(shí)現(xiàn)對(duì)眉毛、眼睛這樣的面部屬性的控制。
而在只有少量非成對(duì)數(shù)據(jù)的風(fēng)格化場(chǎng)景中,技術(shù)團(tuán)隊(duì)提出了基于小樣本的模型融合方法。主要思想是,在收集的少量數(shù)據(jù)上對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),然后,將微調(diào)后的模型與原始模型融合得到一個(gè)混合模型,這樣,該模型既能生成目標(biāo)風(fēng)格的圖片,又兼具原始預(yù)訓(xùn)練模型強(qiáng)大多樣的生成能力。
而在動(dòng)作遷移方面,技術(shù)團(tuán)隊(duì)實(shí)現(xiàn)了實(shí)時(shí)的輕量化人臉動(dòng)作遷移。
具體而言,在大模型層面,技術(shù)人員借鑒Monkey-Net和一階運(yùn)動(dòng)模型等所采用的基于關(guān)鍵點(diǎn)軌跡的反向光流預(yù)測(cè)方法,先以無(wú)監(jiān)督形式估計(jì)每一對(duì)關(guān)鍵點(diǎn)的位置,得到稀疏動(dòng)作光流,再預(yù)測(cè)加權(quán)掩膜得到稠密動(dòng)作光流。
而為了實(shí)現(xiàn)更強(qiáng)的變形能力和動(dòng)作建模能力,技術(shù)人員還引入了透視變換項(xiàng),使得稀疏動(dòng)作光流可以學(xué)習(xí)到更加復(fù)雜的變換類型。
而為了實(shí)現(xiàn)手機(jī)端的實(shí)時(shí)推斷,技術(shù)團(tuán)隊(duì)還進(jìn)行了小模型層面的優(yōu)化:
- 網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化。對(duì)于模型中的各個(gè)模塊,借鑒GhostNet分別設(shè)計(jì)相應(yīng)的小模型結(jié)構(gòu),從而將模型大小縮減99.2%,GFLOPs降低97.7%。
- 分階段蒸餾訓(xùn)練。如果直接從零開(kāi)始訓(xùn)練小模塊,模型將無(wú)法收斂,主要是因?yàn)槟K之間為串行關(guān)系,前者的輸出將作為后者的輸入,因此需要采取分階段訓(xùn)練的策略。同時(shí),引入知識(shí)蒸餾的思想,使得小模型可以成功學(xué)習(xí)到大模型的能力。
- 工程優(yōu)化。例如緩存模型當(dāng)中,需要重復(fù)使用的一些常量、優(yōu)化代碼邏輯、節(jié)省推斷時(shí)無(wú)需重復(fù)進(jìn)行的步驟等。同時(shí),手機(jī)端的部署和實(shí)時(shí)推理均借助騰訊自研的TNN推理框架實(shí)現(xiàn),測(cè)試結(jié)果顯示,對(duì)比其他框架,在大部分場(chǎng)景下TNN具有一定提速增效的優(yōu)勢(shì)。
相關(guān)技術(shù)人員還透露,針對(duì)不同配置的手機(jī),他們進(jìn)行了有針對(duì)性的分檔優(yōu)化。從效果上來(lái)看,即使是配置較低的千元機(jī),也能以15FPS以上的幀率流暢運(yùn)行老照片修復(fù)這樣的特效。
最潮的AI,也可以低門檻
以上算法實(shí)現(xiàn),均來(lái)自騰訊微視拍攝算法團(tuán)隊(duì)和騰訊平臺(tái)與內(nèi)容事業(yè)群(PCG)應(yīng)用研究中心共同研發(fā)。

騰訊微視拍攝算法團(tuán)隊(duì)致力于圖像/視頻方向的技術(shù)探索,并依托豐富的業(yè)務(wù)場(chǎng)景,一直在探索前沿AI和CV算法在內(nèi)容生產(chǎn)和消費(fèi)領(lǐng)域的應(yīng)用和落地。應(yīng)用研究中心則被稱作騰訊PCG的“偵察兵”、“特種兵”,站在騰訊探索、挑戰(zhàn)智能媒體相關(guān)前沿技術(shù)的第一線。
通常而言,特效算法的更新?lián)Q代節(jié)奏很快,從研發(fā)到上線,周期大概在1到1個(gè)半月之間。團(tuán)隊(duì)成員也坦言:推動(dòng)技術(shù)落地產(chǎn)出,讓用戶能夠低成本、第一時(shí)間上手體驗(yàn),是團(tuán)隊(duì)最看重的目標(biāo)。
但這并不意味著快速迭代是這支技術(shù)團(tuán)隊(duì)唯一的節(jié)奏。
實(shí)際上,對(duì)前沿技術(shù)的主動(dòng)出擊、長(zhǎng)期關(guān)注正是其技術(shù)底氣的來(lái)源:
對(duì)于更加前沿、更有難度的算法,以及一些不常見(jiàn)的模型效果,我們會(huì)投入5-6個(gè)月甚至更長(zhǎng)的時(shí)間去攻堅(jiān)克難。
在這個(gè)過(guò)程中,團(tuán)隊(duì)會(huì)把從算法到工程的框架全部搭好。而這些積累,也就是后續(xù)項(xiàng)目能夠快速上線的基石。
而多種多樣新AI玩法的靈感,同樣來(lái)源于這樣對(duì)學(xué)術(shù)前沿、熱點(diǎn)的持續(xù)關(guān)注。
同時(shí),也離不開(kāi)這樣的初衷:
讓最潮的AI玩法,以最低的門檻跟用戶見(jiàn)面。
— 完 —
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開(kāi)箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01
- 1.5B參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國(guó)產(chǎn)開(kāi)源之光多模態(tài)統(tǒng)一模型,來(lái)了2025-07-30