2張圖就可生成一段逼真視頻,來自Stable Diffusion技術團隊
逼真絲滑,跟實拍一樣。
詹士 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
新魔法!效果炸!
兩張靜態(tài)圖片,幾秒即生成視頻,絲滑如實拍!
舉例來說,兩張狗子照片,就能讓它慢慢抬起頭,連身體也隨之伸展:
還是兩張照片,一鍵生成。
小女孩跳起,雙手自然交叉,衣服輕輕擺動,與實拍別無二致:
這些視頻由一個幀插值工具根據(jù)圖片生成,人人都能在線免費玩(鏈接見文末)。
這兩天剛公布就在網(wǎng)上引發(fā)不小關注,推特上like超過2500。
評論區(qū)里,網(wǎng)友一片喜大普奔。
有人感到大受震撼,鵝妹子嚶:
還有人表示,這是什么現(xiàn)代巫術:
當然,還有更多網(wǎng)友迫不及待想試試。
它究竟什么個來路?往下看。
Frame Interpolation試玩
先看看試玩效果。
登陸web端口,上傳兩張開花圖片:
設定好視頻時長,比如2秒,就能得到這一段視頻,花朵慢慢打開,鏡頭也逐漸拉近:
再試試兩張狗子照片,讓它轉(zhuǎn)個頭:
不過,上傳兩張鳥在天空不同位置飛的照片,效果就不ok了:
前文提及,該產(chǎn)品是一種幀插值(Frame Interpolation)工具。
所謂幀插值,即在視頻兩個幀之間,插入一部分新的合成幀,相關技術被廣泛應用于圖片生成視頻、視頻流中的幀修復。
谷歌今年有篇《大幅動作的幀插值》(About FILM: Frame Interpolation for Large Motion)已被ECCV 2022接收。
技術人員通過雙向運動估計、與尺度無關的特征提取等方式,做出了較好的幀插值效果。
就目前來說,該技術難以突破的點在于:
即便是短短幾秒,圖片中人物或物體也進行了一套復雜動作,使得幀插值后,視頻失真。
不過,如果不追求寫實,做出一些魔幻效果,該技術已經(jīng)綽綽有余(手動狗頭):
△ 比如讓建筑變成變形金剛
背后團隊與Stable Diffusion有淵源
此番大火的幀插值工具背后團隊叫:Runway。
最近AIGC圈頂流,Stable Diffusion,所依據(jù)的論文《High-Resolution Image Synthesis with Latent Diffusion Models》正是由慕尼黑大學、海德堡大學及他們共同完成。
其中作者之一的Patrick Esser,也是Runway的首席科學家。
(值得一提的是,Patrick Esser及Runway前段時間還在與Stability AI因Stable Diffusion來回扯皮。)
根據(jù)公開資料,Runway成立于2018年,是一家希望用AI/ML與計算機圖形學技術在視頻、圖像、音樂、文本領域提供內(nèi)容創(chuàng)意工具的創(chuàng)業(yè)公司,總部位于美國紐約。
截至目前,該公司已總計獲得4550萬美元投資,投資方包括Coatue、Amplify、Lux、Compound等機構(gòu)。
Runway旗下產(chǎn)品涉及多個模態(tài),不僅有開頭提及的靜態(tài)圖片生成絲滑視頻,也包括文本生成圖像、圖片移除背景、依靠文本對圖像修改、刪除視頻中物體、聲音去噪等等。
感興趣的朋友,可在他們的官網(wǎng)試玩。
附上鏈接:https://app.runwayml.com/video-tools
參考鏈接:
[1]https://weibo.com/tv/show/1034:4833638056132718?from=old_pc_videoshow
[2]https://app.runwayml.com/ai-tools/frame-interpolation
[3]https://twitter.com/runwayml/status/1587791749912662022
[4]https://github.com/runwayml/guided-inpainting
[5]https://arxiv.org/abs/2205.09731
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態(tài)
- 大數(shù)據(jù)已死!從業(yè)10年老哥爆文抨擊:這套唬不住客戶了2023-02-14
- ChatGPT五分鐘寫完插件,功能完善,還可加需求改BUG2023-02-09
- 谷歌創(chuàng)始人親自下場改代碼,ChatGPT讓谷歌真慌了2023-02-03
- 谷歌加緊測試ChatGPT競品,靠對話可搜最新信息2023-02-02