一個(gè)普通攝像頭就讓二次元老婆“活”了過來,網(wǎng)友:求收費(fèi)
人人皆可變身虛擬主播
魚羊 明敏 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
你敢信,這年頭只靠一個(gè)普通攝像頭,就能讓二次元老婆實(shí)時(shí)完成如此靈活的手指舞?
沒錯(cuò),不用穿戴硬件設(shè)備,打開電腦攝像頭,AI就能讓二次元老婆隨你實(shí)時(shí)舞動(dòng)。
即使沒有昂貴傳感器加持,搖花手這種高難度動(dòng)作,照樣能輕松拿下。
真人手指再怎么復(fù)雜地開合變化,屏幕里的Ta都能完美同步:
雙臂前后交替變換都不會(huì)識(shí)別錯(cuò)誤:
這還不算完,更讓網(wǎng)友們直呼“離譜”的是,這樣的視頻動(dòng)作捕捉AI,只要你有一臺(tái)電腦+一個(gè)RBG攝像頭,就能直接抱回家。
不用學(xué)編程,也不用多花錢,技術(shù)直接就是一個(gè)免費(fèi)可商用。
這給網(wǎng)友整得都不敢相信了,趕忙自己上手試了試,結(jié)果——
確定是可以擺花手的靈活程度。
這個(gè)手摳鼻屎也看得很清楚?。?/p>
好家伙,這豈不是人人都能定制專屬3D虛擬主播了?究竟是怎么一回事?
上百個(gè)識(shí)別位點(diǎn)的3D動(dòng)捕
正如前面提到的,這是真真正正的視頻動(dòng)捕。
像《阿凡達(dá)》《指環(huán)王》等電影中的許多特效、角色動(dòng)作設(shè)計(jì),都是由動(dòng)作捕捉來實(shí)現(xiàn)。
不過,傳統(tǒng)的光學(xué)動(dòng)作捕捉和慣性動(dòng)作捕捉,都需要通過傳感器來記錄演員的動(dòng)作。
因此在片場(chǎng),需要?jiǎng)硬兜难輪T身上往往佩戴很多設(shè)備,大概長這樣:
而在開頭我們看到,二次元老婆背后的真人主播,身上卻無需佩戴任何設(shè)備。
那它是如何來捕捉動(dòng)作的呢?
通過AI。
與以往需要昂貴傳感器支持的光學(xué)動(dòng)捕、慣性動(dòng)捕不同,近幾年興起的視頻動(dòng)捕主要用到了計(jì)算機(jī)視覺技術(shù)。
它只使用普通的RGB攝像頭通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)來識(shí)別圖像中人體的骨骼關(guān)鍵點(diǎn)。
其中,特征提取器會(huì)通過分辨率由高到低的過程來提取高級(jí)特征,姿勢(shì)解碼器則可以基于檢測(cè)或回歸的方式來估計(jì)目標(biāo)輸出、2D/3D關(guān)鍵點(diǎn)位置或3D網(wǎng)絡(luò)。
基于檢測(cè)的方法可以生成特征圖或熱力圖,基于回歸的方法則可以直接輸出坐標(biāo)位置。
此前劍橋大學(xué)開發(fā)的人體姿態(tài)工具PoseNet就是一個(gè)很經(jīng)典的案例。
它使用端到端學(xué)習(xí)框架,可以從RGB圖像中直接映射出人體的關(guān)鍵骨骼坐標(biāo),檢測(cè)全身17個(gè)位點(diǎn),最終捕捉到人體動(dòng)作。
如上虛擬主播用到的動(dòng)捕技術(shù),也是類似于此的神經(jīng)網(wǎng)絡(luò)。
特別的是,這套名叫小K直播姬的視頻動(dòng)作捕捉技術(shù),識(shí)別位點(diǎn)遠(yuǎn)超17個(gè),僅上半身就有100多個(gè),覆蓋了面部、手部和雙臂。
這也是“老婆們”能夠活靈活現(xiàn)的關(guān)鍵所在。
要知道,此前許多vTuber直播時(shí),都只有脖子以上可以活動(dòng),上半身像是被封印了一般。
而當(dāng)動(dòng)捕技術(shù)能夠捕捉的身體位點(diǎn)越多,可以呈現(xiàn)的效果也就越豐富。
比如借助小K直播姬,vTuber就可以隨意扭動(dòng)身體、擺出各種動(dòng)作,面部表情也多了很多細(xì)節(jié)。
而最令人驚嘆的手部動(dòng)作的實(shí)現(xiàn),則有賴于深度信息的引入。之前的卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)的關(guān)節(jié)點(diǎn)只有2D信息,無法使用到3D虛擬形象上,但是小K直播姬自研的AI算法能捕捉3D信息并應(yīng)用的3D虛擬直播里。
比如“石頭”握拳這個(gè)動(dòng)作,在普通攝像頭“眼中”,手部位點(diǎn)會(huì)出現(xiàn)遮擋、重疊,這時(shí)只用2D關(guān)鍵點(diǎn)識(shí)別是很難還原真實(shí)動(dòng)作的。
具體而言,小K直播姬的解決方案,是根據(jù)攝像頭捕捉到的2D圖像,來估計(jì)每個(gè)關(guān)節(jié)點(diǎn)到鏡頭之間的距離。
掌握了3D深度信息后,即便攝像頭只能拍到手部側(cè)面,想要還原動(dòng)作也不成問題。
尤其是雙臂前后交換這種動(dòng)作,2D識(shí)別很可能無法識(shí)別前后的差別,但是3D識(shí)別就能讓畫面呈現(xiàn)明顯的立體感。
目前,這種技術(shù)已經(jīng)能做到每秒輸出30幀畫面。
其實(shí)它還能開放到每秒60幀,只是考慮到vTuber一般在直播時(shí)還需要開啟其他軟件,主播的電腦可能會(huì)承受不住,所以當(dāng)下推薦大家開30幀。
看到這里,是不是已經(jīng)被驚艷到了?
然鵝,這還不是最厲害的。
其實(shí),不只是上半身的動(dòng)作捕捉,全身動(dòng)捕現(xiàn)在都能僅靠攝像頭完成。
沒錯(cuò),仍舊不需要佩戴任何穿戴設(shè)備,只需多個(gè)普通的RGB攝像頭,就能將真人的全身動(dòng)作完全還原。
人人都可試玩的那種
效果絲滑自然、只需一臺(tái)電腦+普通攝像頭,還是免 費(fèi) 的……這確實(shí)讓人看了很難不心動(dòng)。
也難怪小K直播姬一登場(chǎng),惹得網(wǎng)友們直呼:
趕緊收錢,求求了。
要知道,傳統(tǒng)的光學(xué)動(dòng)捕、慣性動(dòng)捕,由于對(duì)傳感器設(shè)備、專業(yè)攝影棚等方面的需求,成本始終居高不下。
以今年火出圈的A-SOUL為例,它由字節(jié)跳動(dòng)和樂華聯(lián)合推出,傳聞稱其所使用的動(dòng)捕設(shè)備成本高達(dá)8位數(shù)。
而小K直播姬這個(gè)免費(fèi)產(chǎn)品,直接實(shí)現(xiàn)了“人人皆可vTuber”。
這不,在小K直播姬公測(cè)后,不少人都來一探究竟,公測(cè)10日后虛擬主播注冊(cè)數(shù)就已經(jīng)破萬。
在這里不僅可以自己捏人,還能導(dǎo)入模型,B站上許多人都曬出了自己的vTuber形象。
知名VUP小希小桃最近大變身,也是因?yàn)橛昧诵直播姬。
會(huì)出現(xiàn)一石激起千層浪的現(xiàn)象倒也不稀奇,畢竟市面上這種將視頻動(dòng)捕技術(shù)商業(yè)化、還面向vTuber的產(chǎn)品,實(shí)在是太少了。
團(tuán)隊(duì)出身游戲行業(yè)
那為什么會(huì)是小K直播姬呢?
這個(gè)答案要從它的幕后打造者——云舶科技身上找答案。
2017年,出身游戲行業(yè)的梅嵩和陳敏聯(lián)合創(chuàng)立了云舶科技。
其中,梅嵩是原藍(lán)港互動(dòng)SVP,《王者之劍》系列手游制作人;陳敏是原藍(lán)港互動(dòng)CTO,核心團(tuán)隊(duì)有著16年的研發(fā)經(jīng)驗(yàn)。
憑借自身對(duì)游戲動(dòng)畫市場(chǎng)的了解,他們從創(chuàng)業(yè)初期就專注于視頻動(dòng)捕技術(shù)。
事實(shí)上,小K直播姬所采用的所有視頻動(dòng)捕技術(shù),都是由云舶科技自主研發(fā)。
起初,他們利用動(dòng)捕技術(shù)將視頻直接生成bip、fbx動(dòng)畫文件,大幅提升動(dòng)畫師的作畫效率。
因?yàn)槌錾碛螒蛉Γ瑢?duì)二次元市場(chǎng)有著敏感的嗅覺,云舶在2018年就察覺到了虛擬偶像市場(chǎng)在逐漸升溫。
所以便將技術(shù)落地場(chǎng)景選在了這一領(lǐng)域。
而小K直播姬大受歡迎,除了本身的技術(shù)效果吸睛這一原因之外,也同樣得益于他們的游戲行業(yè)產(chǎn)品背景,認(rèn)為用戶交互體驗(yàn)?zāi)芴嵘踔粮淖兲摂M直播的最終價(jià)值。
同時(shí)云舶科技對(duì)用戶也是抱有“有求必應(yīng)”的態(tài)度,如果你想要捕捉云舶科技的技術(shù)leader,到官方論壇、用戶QQ群里“釣魚”可能是個(gè)不錯(cuò)的選擇(手動(dòng)狗頭)。
現(xiàn)在,小K直播姬背后,從一線程序員到公司創(chuàng)始人,全都活躍在這些用戶聚集的地方,還常常追著用戶溝通交流,只為徹底弄清楚用戶對(duì)于產(chǎn)品的更多需求。
比如最近即將上線的模型飾品增加自定義調(diào)整位置,就是網(wǎng)友們多次向小K提議的功能。
食用指南
OK,說了這么多,如果你也對(duì)虛擬直播感興趣,現(xiàn)在就可以下載試玩一波走起了~
目前,小K直播姬暫只支持Windows系統(tǒng),1060及以上顯卡可實(shí)現(xiàn)上半身動(dòng)捕,其它顯卡支持面部捕捉。
進(jìn)入應(yīng)用后可以自己捏臉定制形象,也可以選擇導(dǎo)入模型。
如果你在體驗(yàn)過程中有了好的idea,也不妨加個(gè)群水個(gè)論壇,小K直播姬背后的技術(shù)leader和一眾程序員們都在“虎視眈眈”。
說不定下一個(gè)上線功能,就是受你啟發(fā)的!
p.s.云舶科技最近還在火熱招人,尤其是U3D開發(fā)、C++開發(fā)、3D算法等職位。
感興趣的童鞋可以在云舶科技官方網(wǎng)站www.yunboai.com招聘版塊查看具體需求,大家的簡歷可以準(zhǔn)備起來了~
- 4o-mini華人領(lǐng)隊(duì)也離職了,這次不怪小扎2025-08-19
- 宇樹機(jī)器人“撞人逃逸”火到國外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進(jìn)化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11